A vision-language foundation model for precision oncology
(Nature, if=50.5)
-
Xiang J, Wang X, Zhang X, Xi Y, Eweje F, Chen Y, Li Y, Bergstrom C, Gopaulchan M, Kim T, Yu KH, Willens S, Olguin FM, Nirschl JJ, Neal J, Diehn M, Yang S, Li R.
-
Correspondence: [email protected]
Clinical decision-making is driven by multimodal data, including clinical notes and pathological characteristics. Artificial intelligence approaches that can effectively integrate multimodal data hold significant promise in advancing clinical care1,2. However, the scarcity of well-annotated multimodal datasets in clinical settings has hindered the development of useful models. In this study, we developed the Multimodal transformer with Unified maSKed modeling (MUSK), a vision-language foundation model designed to leverage large-scale, unlabelled, unpaired image and text data. MUSK was pretrained on 50 million pathology images from 11,577 patients and one billion pathology-related text tokens using unified masked modelling. It was further pretrained on one million pathology image-text pairs to efficiently align the vision and language features. With minimal or no further training, MUSK was tested in a wide range of applications and demonstrated superior performance across 23 patch-level and slide-level benchmarks, including image-to-text and text-to-image retrieval, visual question answering, image classification and molecular biomarker prediction. Furthermore, MUSK showed strong performance in outcome prediction, including melanoma relapse prediction, pan-cancer prognosis prediction and immunotherapy response prediction in lung and gastro-oesophageal cancers. MUSK effectively combined complementary information from pathology images and clinical reports and could potentially improve diagnosis and precision in cancer therapy.
临床决策是由多模态数据驱动的,包括临床记录和病理特征。能够有效整合多模态数据的人工智能方法在推进临床护理方面具有重大前景。然而,临床环境中注释良好的多模态数据集的稀缺阻碍了有用模型的开发。在这项研究中,我们开发了具有统一建模(MUSK)的多模态变换器,这是一种视觉语言基础模型,旨在利用大规模、未标记、未配对的图像和文本数据。使用统一的掩码建模对来自11577名患者的5000万张病理图像和10亿个病理相关文本标记进行了MUSK预训练。对100万对病理图像文本对进行了进一步的预训练,以有效地对齐视觉和语言特征。在很少或没有进一步培训的情况下,MUSK在广泛的应用中进行了测试,并在23个补丁级和幻灯片级基准测试中表现出卓越的性能,包括图像到文本和文本到图像检索、视觉问答、图像分类和分子生物标志物预测。此外,MUSK在结果预测方面表现强劲,包括肺癌和食道癌的黑色素瘤复发预测、全癌预后预测和免疫疗法反应预测。MUSK有效地结合了来自病理图像和临床报告的补充信息,并有可能提高癌症治疗的诊断和准确性。
• 本文介绍了一种基于视觉-语言模型的多模态人工智能框架,称为MUSK(Multimodal transformer with Unified maSKed modeling)。
• MUSK通过整合病理图像和临床文本数据,旨在提升癌症的精准诊断、预后预测和治疗反应预测。
• 该研究的目标是解决多模态数据整合困难的问题,并探索其在肿瘤学中的广泛应用。
• MUSK模型利用了超过5000万张病理图像和10亿个与病理学相关的文本进行初步预训练。
• 通过统一的掩码建模和对比学习,MUSK实现了视觉和语言特征的多模态对齐。
• 进一步通过100万对图像-文本配对数据进行微调,以提高模型的预测能力。
• MUSK在23项任务(如图像分类、文本到图像检索和视觉问答等)中均表现优于现有的基础模型。
• 在多种癌症类型中,MUSK在预测临床结局(如黑色素瘤复发、泛癌预后和免疫治疗反应)方面展现了显著优势。
•
癌症检测与诊断
:在零样本和少样本分类任务中,
MUSK大幅优于其他模型,准确率提高了10%-27%。
•
预后预测
:在包括
16种癌症的泛癌预后预测中,MUSK显著改善了疾病特异性生存预测的准确性(c-index为0.747)。
•
免疫治疗反应预测
:对晚期非小细胞肺癌和胃食管癌患者,
MUSK在预测免疫检查点抑制剂(ICIs)疗效方面表现优越,优于传统生物标志物(如PD-L1表达和微卫星不稳定性)。
• MUSK克服了传统模型依赖配对数据的限制,通过大规模非配对图像和文本数据进行训练,提高了模型的鲁棒性和普适性。
• 多模态数据整合增强了模型的预测能力,相较于单一模态(仅图像或仅文本),性能有显著提升。
•
精准医学
:
MUSK为肿瘤的个性化诊疗提供了新的工具,特别是在预测复发和治疗反应方面。
•
多模态技术
:该研究为如何有效利用非配对数据提供了新方法,这一框架可扩展至其他医学领域(如放射学、皮肤病学)。
•
临床应用
:在正式应用前,需通过更大规模的多中心数据验证其安全性和有效性,并获得监管批准。
MUSK模型通过整合病理图像和临床文本数据,在肿瘤学领域的诊断、预后预测和治疗决策中展现出巨大潜力,标志着多模态人工智能模型在精准医学中的重要一步。
陪您一起学习SCI医学论文
每天5分钟,让自己的英语牛逼起来
特殊福利让您惊喜连连
复制链接或点击原文链接,即可下载SCI原文
W249N07
链接: https://pan.baidu.com/s/173EOrs-ftArks9tVaDJoZg?pwd=pre3
提取码: pre3