专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

人工智能 | Nature | 针对精准肿瘤学的视觉-语言基础模型

生信菜鸟团 · 公众号 · 生物 · 2025-02-27 08:54

正文

Basic Information

英文标题：A vision–language foundation model for precision oncology
中文标题：针对精准肿瘤学的视觉-语言基础模型
发表日期：08 January 2025
文章类型：Article
所属期刊：Nature
文章作者：Jinxi Xiang | Ruijiang Li
文章链接：https://www.nature.com/articles/s41586-024-08378-w

Abstract

Para_01

临床决策基于多模态数据，包括临床笔记和病理特征。
能够有效整合多模态数据的人工智能方法在推进临床护理方面具有重要意义1,2。
然而，在临床环境中，高质量注释的多模态数据集的匮乏阻碍了有用模型的发展。
在这项研究中，我们开发了多模态转换器与统一掩码建模（MUSK），这是一种旨在利用大规模、未标记、不成对图像和文本数据的视觉-语言基础模型。
MUSK 使用统一掩码建模在来自 11,577 名患者的 5000 万张病理图像和 10 亿个与病理相关的文本标记上进行了预训练。
它进一步在 100 万对病理图像-文本上进行了预训练，以高效地对齐视觉和语言特征。
无需或只需少量进一步训练，MUSK 在广泛的应用中进行了测试，并在 23 个切片级和幻灯片级基准测试中展示了卓越的性能，包括图像到文本和文本到图像检索、视觉问答、图像分类和分子生物标志物预测。
此外，MUSK 在结果预测方面表现出色，包括黑色素瘤复发预测、泛癌预后预测以及肺癌和胃食道癌免疫治疗反应预测。
MUSK 有效地结合了病理图像和临床报告中的互补信息，可能有助于改善癌症治疗的诊断和精确度。

Main

Para_01

临床决策是一个复杂的过程，涉及从多种数据模态中获得的信息。
在临床实践中，医生不会依赖单一的数据源来做出诊断和治疗决策。
相反，他们会结合来自多个来源的信息，包括患者的人口统计学信息、医疗史、影像学发现以及疾病的病理特征。
因此，做出准确的诊断和治疗决策需要整合多模态数据中的信息。
鉴于这些任务的复杂性，能够有效整合多模态数据的人工智能（AI）方法具有显著潜力，可以推进临床护理。
1,2,3,4,5

Para_02

基础模型代表了医学人工智能研究与开发的一个新前沿。
这些模型是在大规模、多样化的数据集上预训练的，并且可以应用于众多下游任务，而无需或只需少量进一步训练。
这相对于传统方法具有显著优势，传统方法需要为每个新任务训练一个新模型。
然而，在多模态人工智能模型开发中的一个主要障碍是高质量标注数据的稀缺，尤其是在临床环境中。

Para_03

最近的努力集中在开发用于医学的视觉-语言基础模型，特别是在病理学领域。
尽管初步结果令人鼓舞，但有几个重要的考虑因素可能会限制它们潜在的临床影响。
首先，这些研究使用了基于对比学习的现成基础模型，这需要配对的图像-文本数据进行预训练。
虽然数据规模令人印象深刻，大约有0.2至1.2百万的图像-文本对，但这仍然远低于用于训练自然视觉-语言模型的数十亿数据点。
此外，目前尚不清楚这种规模是否足以完全捕捉整个疾病谱系的多样性。
其次，先前的研究集中在相对简单的任务上，例如图像分类或图像和文本检索，预期的应用是癌症检测和诊断。
然而，尚未证明可以使用多模态基础模型来预测治疗反应和结果。
这是一个更具挑战性的问题，但在精准医疗中指导治疗决策方面具有重要意义。

Para_04

这里我们介绍了一种基于多模态变换器和统一掩码建模（MUSK）的新型视觉-语言基础模型，用于预训练。
受自然图像-文本数据21多模态学习成功的启发，我们引入了针对病理学特定方法和通用方法的调整，以构建用于精准肿瘤学的高性能基础模型。
MUSK 预训练利用了大规模、未标记、不成对的数据，其中包括5000万张病理图像和十亿个文本标记（图1a）。
用于掩码预训练的病理图像来自11,577名患者，代表了33种肿瘤类型。
我们在广泛的下游任务上进行了广泛的评估，包括图像和文本检索、视觉问答（VQA）、图像分类和分子生物标志物预测。
在23个斑块级和幻灯片级基准测试中，MUSK 在多个任务上的表现优于最先进的基础模型（图1b）。
此外，MUSK 在超过8,000名患者的多模态临床报告和图像数据上进行了评估，并在预测临床结果方面表现出色，包括黑色素瘤复发、泛癌预后和免疫治疗反应预测。

Fig. 1: Data curation, model development and evaluation.

- 图片说明

◉ 我们开发了一个基于多模态变压器架构的视觉-语言基础模型作为网络主干。 ◉ 模型预训练包括两个连续阶段。 ◉ 首先，MUSK 在来自 11,577 名患者的近 33,000 张全切片组织病理学扫描图像和一亿个与病理相关的文本标记上进行了预训练。 ◉ 这些图像是代表 33 种肿瘤类型的图像。 ◉ MUSK 模型改编自 BEiT3（参考文献 21）架构，包含共享的自注意力块和用于视觉和语言输入的两个独立专家；使用掩码建模实现了预训练。 ◉ 其次，MUSK 使用对比学习对来自模型 QUILT-1M 的一百万张图像-文本对进行了多模态对齐预训练。 ◉ 通用临床应用。 ◉ 一旦预训练完成，MUSK 可以用于各种下游任务，并且只需要少量或不需要进一步的训练。 ◉ 重要的是，我们使用全切片图像和临床报告评估了 MUSK 的预测能力，包括复发、预后和免疫治疗反应预测。 ◉ MUSK 在视觉-语言基础模型方面显著优于最先进的模型，包括 PLIP15、QUILT-1M46、BiomedCLIP47 和 CONCH16。 ◉ b 图中的插图、黑色素瘤、预后、肺癌和胃食管癌是使用 BioRender 制作的（https://biorender.com）。

Zero-shot cross-modal retrieval

Para_01

基础模型的一个关键特征是其无需进一步训练即可执行下游任务的能力，即零样本学习能力。
通过学习视觉和语言表示之间的对齐潜在嵌入空间，MUSK 可以根据图像查询检索相关的文本，反之亦然。
我们在两个基准数据集 BookSet 和 PathMMU 上评估了 MUSK 在零样本跨模态检索上的表现，这两个数据集分别包含 4,265 和 7,774 个图像-文本对。

Para_02

MUSK 在图像到文本和文本到图像检索任务中均优于其他七种基础模型（图2a和补充表1和2）。
在PathMMU数据集上，MUSK 在图像到文本检索的Recall@50（即前50个检索候选对象的召回率）方面以34.4%（95%置信区间：33.4%-35.5%）的表现优于第二好的模型（CONCH），而CONCH为27.3%（95%置信区间：26.4%-28.3%）。
同样，在BookSet数据集上，MUSK 在Recall@50方面也优于第二好的模型（CONCH），分别为74.8%（95%置信区间：73.6%-75.9%）和71.3%（95%置信区间：70.0%-72.6%）。
我们观察到类似的模式在文本到图像检索任务中，MUSK 绝对提高了Recall@50的4.0%和7.5%。
这些结果证明了MUSK的强大零样本学习能力。

Fig. 2: Cross-modal retrieval and VQA.

- 图片说明

◉ a, 零样本图像到文本和文本到图像检索。MUSK 在 BookSet 和 PathMMU 上的不同召回水平上始终优于现有的基础模型。使用双侧 Wilcoxon 符号秩检验评估了 MUSK 与第二佳模型（CONCH）之间的统计差异。补充图 4 显示了视觉示例。 ◉ b, 视觉问答 (VQA)。MUSK 在 PathVQA 基准数据集上显著优于现有的基础模型。值得注意的是，MUSK 在 VQA 特定任务上的准确性比专门为 VQA 训练的最佳模型（K-PathVQA）提高了 7%。展示了 MUSK 和 PLIP 模型的一些结果示例。使用双侧 Mann–Whitney U 检验评估了统计显著性。对于特定任务的 VQA 模型，在原始论文中没有报告置信区间。在 a 和 b 中，基础模型的数据表示为均值，并通过自助法估计了 95% 的置信区间（n = 1,000 个副本）。

Visual question answering

Para_01

除了跨模态检索之外，另一个常见的视觉-语言任务是VQA，它使用病理图像和相关的文本问题作为输入来生成答案。
现有的方法需要设计复杂的网络模型，专门用于此任务24,25,26,27。
相比之下，MUSK是一种通用的视觉-语言基础模型，可以在最少的训练下执行VQA（图1b和补充图3）。
我们在PathVQA28数据集上评估了性能，该数据集包含来自4,998张病理图像的32,799个问题。
MUSK达到了73.2%的准确率（95%置信区间：72.1-74.4%），显著优于其他视觉-语言基础模型，包括PLIP15、QUILT-1M、BiomedCLIP和CONCH（图2b）。
值得注意的是，MUSK超越了专门为VQA设计的最佳表现模型K-PathVQA27（准确率为68.9%），突显了构建强大的基础模型的优势。

Image retrieval and classification

Para_01

尽管MUSK是作为多模态基础模型开发的，但它也可以作为一个独立的图像编码器。
在这里，我们展示了MUSK在各种基于图像的任务中的视觉能力，包括图像检索和分类。

Para_02

我们评估了在UniToPatho29和BRACS30数据集上的零样本图像检索性能。
在这两个数据集中，MUSK在所有评估指标上均优于其他基础模型（扩展数据图1a、b和补充表3）。
例如，在BRACS数据集上，MUSK在mMV@5（即前5名多数投票的准确性）方面比CLIP高22.3%，比PLIP高8.6%，比CONCH高2.5%。

Para_03

为了图像分类，我们首先评估了模型在四个基准数据集上的零样本学习性能：PatchCamelyon31、SkinCancer32、PanNuke33 和 UniToPatho29。
尽管区分多个类别和缺乏任何训练数据是一项具有挑战性的任务，MUSK 仍然在零样本图像分类上取得了令人鼓舞的表现（图 3a 和补充表 4），比第二好的模型（根据数据集的不同，为 CONCH、BiomedCLIP 或 QUILT-1M）分别高出 10.5%、27.5%、7.3% 和 10.1%。

Fig. 3: Patch-level image classification.

- 图片说明

◉ 零样本图像分类。当在UniToPatho、SkinCancer、PatchCamelyon和PanNuke基准数据集上进行评估时，MUSK的表现始终优于七种替代基础模型，P值小于0.0001。 ◉ 十样本图像分类。MUSK在12个基准数据集上始终优于其他基础模型。使用双侧Wilcoxon符号秩检验计算了MUSK与表现最佳的替代模型之间的统计差异。数据显示为平均值和95%置信区间（误差线）。这些区间是通过自助法（n=1,000次重复）估计得出的（a）或从n=10个独立实验中计算得出的（b）。

Para_04

我们随后评估了MUSK在少量样本图像分类中的能力，即仅使用少量样本微调预训练模型。
这在训练数据量较小的情况下可能很有用，要么是因为实际上很难标注足够的样本，要么是因为疾病的患病率较低。
我们使用12个基准数据集对模型进行了全面评估，以进行少量样本图像分类。
这些数据集包含来自不同组织/器官（如皮肤、肺、结肠、乳腺、前列腺、肾脏和淋巴结）的正常样本和恶性肿瘤的专家注释病理学图像。

Para_05

在全部的12个数据集29,30,31,32,33,34,35,36,37,38,39中，MUSK 在十次拍摄图像分类中表现出最高的准确性，超过了其他基础模型（图3b、扩展数据图2a和补充表5）。
值得注意的是，分类准确性提高最多的是最具挑战性的任务，在这些任务中，其他模型表现不佳。
例如，在UniToPatho数据集中，MUSK 相较于第二好的模型提高了9.8%。
此外，我们评估了模型在一、二、四和八次拍摄图像分类中的表现，即使使用更少的训练样本，也得到了类似的结果（扩展数据图1c）。
这表明MUSK 是一种对于图像分类而言强大且标签高效的视觉编码器。

Para_06

最后，我们使用每个基准数据集中的所有可用训练数据对模型进行了监督图像分类评估。
MUSK 达到了 88.2% 的平均准确率，比其他基础模型表现更好，包括 CLIP、PLIP、QUILT-1M、BiomedCLIP 和 CONCH，分别领先 17.5%、9.1%、11.7%、11% 和 2.2%（扩展数据图 2b 和补充表 6）。
不同模型生成的图像嵌入可视化进一步突显了 MUSK 特征表示能力的鲁棒性（补充图 5）。
这些结果表明，MUSK 提供了一种强大的方法，用于学习更有效的病理分类图像表示。

Molecular biomarker prediction

Para_01

分子生物标志物，如蛋白质表达和基因突变，是精准肿瘤学的关键组成部分，可以直接指导靶向治疗。
在这项研究中，我们评估了MUSK在从幻灯片级别的组织病理图像预测分子生物标志物方面的表现，与五种最先进的病理基础模型进行比较。
具体来说，我们使用公开可用的早期乳腺癌核心针活检（BCNB）和维也纳医科大学（MUV-IDH）数据集分别评估了模型在预测乳腺癌受体状态和脑瘤异柠檬酸脱氢酶（IDH）突变状态方面的能力。
MUSK在预测雌激素受体（ER）、孕激素受体（PR）、人表皮生长因子受体2（HER2）状态和IDH突变状态方面比其他病理基础模型表现显著更好，包括PLIP、UNI、GigaPath、Virchow和CONCH（曼-惠特尼U检验，P<0.05；扩展数据图3a和补充表7）。
例如，我们的模型在预测HER2状态方面达到了0.826的受试者工作特征曲线下面积（95%置信区间：0.813-0.839），这比领先的方法GigaPath（0.786；95%置信区间：0.756-0.817）和CONCH（0.771；95%置信区间：0.745-0.796）有了显著改进；P=0.008。

Melanoma relapse prediction

Para_01

黑色素瘤是最严重的皮肤癌形式，并且有较高的复发可能性，可能导致死亡。
对治愈性手术后复发的准确预测可能有助于制定个性化治疗策略。
例如，高复发风险的患者应该接受辅助全身治疗，而低复发风险的患者则可以避免药物带来的毒性。
传统的风险因素，如肿瘤厚度和溃疡的存在，无法准确预测个别患者的复发情况。

Para_02

为了应对这一需求，我们开发了一种基于MUSK的多模态方法来预测黑色素瘤复发的风险。
我们使用了VisioMel数据集，该数据集包括1,342名黑色素瘤患者的诊断苏木精和伊红染色（H&E）切片的临床报告和全切片图像（WSI），以及5年的随访数据。
与现有的视觉-语言基础模型相比，MUSK在预测5年复发方面达到了最高的AUC值0.833（95%置信区间：0.818-0.847），显著优于PLIP、QUILT-1M、BiomedCLIP和CONCH（扩展数据图4a、b）。
随后，我们在MUSK模型上进行了单模态输入的消融实验（扩展数据图4d）。
结果显示，仅基于临床报告或图像的模型在预测复发方面的准确性较低。
通过结合来自两种不同数据模态的互补信息，MUSK进一步提高了复发预测的准确性，突显了我们的多模态方法的强大之处。

Para_03

为了在临床上有用，一个预后模型在预测复发时应该具有很高的敏感性，以尽量减少治疗不足的风险。
因此，我们在预先设定的敏感度阈值为90%的情况下评估了该模型的表现（扩展数据图4c）。
MUSK模型的特异性明显高于其他基础模型，提高了大约12%（P=0.0079）。
临床意义在于，我们的模型可能使更多患者免于毒性但不必要的辅助治疗。
最后，对模型预测的可视化显示，MUSK能够自动揭示用于预测复发的相关病理特征（扩展数据图4e和补充图6）。

Pan-cancer prognosis prediction

Para_01

我们已经证明了我们的方法在预测黑色素瘤复发方面的有效性，接下来我们评估了该模型在泛癌背景下预测预后的性能。
为此，我们从癌症基因组图谱（TCGA）收集了诊断用的H&E全视野扫描切片、相关的病理报告和随访数据，涵盖了来自16种主要癌症类型的6,602名患者的总计7,927张全视野扫描切片。
我们针对每种癌症类型训练了一个多模态预后模型，然后评估了其在预测特定疾病生存率方面的表现。

Para_02

在全部16种癌症类型中，MUSK在预测预后方面始终优于临床风险因素和最先进的基础模型。
平均而言，MUSK达到了0.747的一致性指数（C指数），显著高于整体阶段的一致性指数0.645（P<0.0001）；
也高于多模态基础模型PLIP15、QUILT-1M46、BiomedCLIP47和CONCH16的一致性指数，分别为0.668（P<0.0001）、0.672（P<0.0001）、0.668（P<0.0001）和0.684（P<0.0001）；
以及病理学基础模型UNI11、GigaPath10和Virchow12的一致性指数，分别为0.681（P<0.0001）、0.681（P<0.0001）和0.672（P<0.0001）（双侧Mann-Whitney U检验；图4a、扩展数据图3c、补充图7和补充表7）。
最佳预测效果出现在肾细胞癌上，其一致性指数为0.887（95%置信区间：0.854-0.920）。
此外，MUSK在乳腺浸润性导管癌、结直肠腺癌、低级别胶质瘤和子宫内膜癌的预后预测中也表现出色，一致性指数均超过0.8。

Fig. 4: Prognosis prediction across 16 cancer types.

- 图片说明

◉ Kaplan–Meier 分析显示，MUSK 可以显著地对 16 种癌症类型的患者进行疾病特异性生存率分层，风险比（HR）范围从多形性胶质母细胞瘤的 1.59 到肾细胞癌的 36.83。 ◉ 双侧对数秩检验用于比较高危组和低危组之间的生存差异（截断值：中位数）。 ◉ b, 多模态 MUSK 模型显著提高了基于临床报告或单独使用全切片图像（WSI）的模型的预后预测效果，如整体条形图所示（P<0.0001）。 ◉ 整体条形图代表了 16 个项目上的平均表现。 ◉ 尿路上皮膀胱癌（BLCA），浸润性乳腺癌（BRCA），宫颈鳞状细胞癌及宫颈腺癌（CESC），结直肠腺癌直肠腺癌（COADREAD），食管癌（ESCA），多形性胶质母细胞瘤（GBM），头颈鳞状细胞癌（HNSC），低级别胶质瘤（LGG），肝细胞肝癌（LIHC），肺腺癌（LUAD），肺鳞状细胞癌（LUSC），胰腺腺癌（PAAD），肾细胞癌（RCC），皮肤黑色素瘤（SKCM），胃腺癌（STAD）和子宫内膜癌（UCEC）。 ◉ 在 b 中，数据表示为五次交叉验证实验的标准差计算出的平均值。 ◉ 双侧曼-惠特尼 U 检验用于评估 MUSK 和对比方法之间的统计显著性。

Para_03

我们通过Kaplan–Meier分析评估了MUSK模型对疾病特异性生存率进行患者分层的能力。
我们的结果显示，在16种癌症类型中（图4a），低风险和高风险患者的生存结果有显著分层（对数秩检验，P < 0.001）。
令人震惊的是，该模型在肾细胞癌中的风险比（HR）超过30，低风险组和高风险组的10年生存率分别为95.3%和48.3%。
我们进一步进行了多变量Cox回归分析，并确认基于MUSK的风险评分是所有16种癌症类型的独立预后因素，不受年龄、性别、分期和肿瘤分级等临床风险变量的影响（补充图8）。

Para_04

我们通过训练仅基于图像和仅基于文本的模型对MUSK模型进行了消融实验，用于预后预测。
这些模型表现出合理的表现，平均c指数分别为0.654（P < 0.0001）和0.673（P < 0.0001）。
值得注意的是，多模态MUSK模型在所有16种癌症类型中始终优于单模态输入的预后模型（图4b），其显著更高的c指数为0.746。
这些结果表明，MUSK能够有效地整合多模态图像和文本数据的互补信息，用于跨癌症类型的预后预测。

Immunotherapy response prediction

Para_01

免疫疗法，特别是免疫检查点抑制剂（ICIs），已经改变了肿瘤学领域的治疗格局，并提供了长期持久获益的可能性。
然而，只有大约百分之二十的患者对ICIs有响应并从中受益。
鉴于这些治疗的毒性和经济负担，确定哪些患者将从ICIs中受益是至关重要的。
现有的生物标志物，如肿瘤程序性死亡配体1（PD-L1）表达和肿瘤突变负荷，在区分响应者与非响应者方面预测能力有限。
迫切需要一种更准确的免疫治疗反应预测方法。

Para_02

我们收集了多模态数据集，包括118名接受免疫检查点抑制剂（ICIs）治疗的晚期非小细胞肺癌（NSCLC）患者的术前HE染色切片、相关的病理报告、治疗反应和随访数据。
我们评估了MUSK模型在预测两个临床终点方面的表现：客观缓解和无进展生存期（PFS）。
患者被分类为响应者（完全或部分缓解）或非响应者（稳定或疾病进展）。

Para_03

为了预测响应，MUSK 的 AUC 达到了 0.768（95% CI：0.724–0.812），这显著高于现有生物标志物的 AUC，例如肿瘤 PD-L1 表达的 AUC 为 0.606（95% CI：0.492–0.699；P < 0.0001）。
MUSK 在使用其他多模态基础方法训练的模型中也表现更优，如 PLIP、QUILT-1M、BiomedCLIP 和 CONCH，AUC 范围从 0.636 到 0.692（图 5a）。
同样地，对于预测无进展生存期（PFS），MUSK 相较于现有生物标志物也有显著改进，其 c 指数为 0.705（95% CI：0.677–0.732），而肿瘤 PD-L1 表达的 c 指数为 0.574（95% CI：0.447–0.691；P < 0.0001）（补充图 10a）。
MUSK 在预测 PFS 方面的表现显著优于现有的病理学基础模型，如 UNI、GigaPath 和 Virchow，这些模型的 c 指数介于 0.580 到 0.599 之间（扩展数据图 3b 和补充表 7）。
与替代的多模态方法相比，MUSK 在预测 PFS 方面也表现出色，优于 PLIP、QUILT-1M、BiomedCLIP 和 CONCH，c 指数范围在 0.601 到 0.640 之间（图 5a）.

Fig. 5: Lung cancer immunotherapy response prediction.

- 图片说明

◉ MUSK 在预测接受免疫治疗的NSCLC患者的目标反应和PFS方面明显优于其他基础模型。 ◉ 多模态MUSK模型显著优于仅基于临床报告或WSI的模型，在预测免疫治疗反应和结果方面。 ◉ Kaplan–Meier分析表明，MUSK显著将患者分为整个队列和由PD-L1表达和表皮生长因子受体（EGFR）突变状态定义的相关临床亚组中的高风险和低风险组，用于PFS。 ◉ 使用双侧对数秩检验比较了高风险组和低风险组之间的生存差异。 ◉ 两个肺癌病例的例子，一个是免疫治疗有客观反应的病例，另一个是没有反应的病例。 ◉ 在每个面板中，左图显示原始WSI，而中间图显示对应的热图，该热图突出显示模型在WSI内关注的区域。 ◉ 右图提供了模型最关注区域的放大视图。 ◉ 有反应的病例显示了丰富的淋巴细胞浸润和少量间质。 ◉ 另一方面，没有反应的病例显示了少量淋巴细胞浸润和丰富的间质。 ◉ TPS，肿瘤比例评分。 ◉ 在a和b中，误差线代表从五次交叉验证实验中计算出的均值和标准差，且使用双侧Mann-Whitney U检验测量了MUSK与比较方法之间的统计显著性。

Para_04

我们比较了基于临床报告和单独的WSI训练的仅文本模型和仅图像模型的表现与MUSK模型的表现。MUSK显著优于单模态方法，证明了我们的多模态方法在预测免疫治疗反应和结果方面的有效性（图5b）。

Para_05

为了评估MUSK对PFS患者的分层能力，我们进行了Kaplan–Meier分析（图5c）。
在整个队列中，MUSK将患者分为两组风险群体，HR为2.54（1.66–3.90）；P<0.0001。
高风险组和低风险组的中位PFS分别为4.3个月和13.4个月。
相比之下，肿瘤PD-L1表达并未显著分层患者以进行PFS（补充图10a）。
我们的分析表明，无论PD-L1表达、EGFR突变状态以及单药ICI或化疗ICI联合治疗方案如何，MUSK都能进一步分层患者以进行PFS（图5c和扩展数据图6a）。
对于PD-L1阴性（TPS=0）肿瘤的患者，结果尤为显著，HR为7.38（2.15–25.38）；P=0.0002。
这些发现具有临床意义，因为PD-L1阴性和EGFR突变的肿瘤患者通常由于低反应率而不接受免疫治疗，但MUSK可以识别出可能从免疫治疗中受益的这一部分患者。

Para_06

我们进一步进行了多变量Cox回归分析，以评估MUSK在预测PFS中的独立价值。
我们将所有相关的临床变量纳入分析，包括年龄、性别、组织学、中枢神经系统转移、吸烟、EGFR突变和肿瘤PD-L1表达。
我们的结果显示，MUSK是PFS的最显著预测因子，P值为0.0012（补充图9）。
总体而言，这些发现表明，通过整合多模态数据，MUSK可以提供有关患者对免疫治疗反应可能性的有价值的信息，因此可能有助于治疗决策。

Para_07

为了便于解释模型预测，我们生成了注意力热图，并将其叠加在WSI上（图5d）。
对于被预测具有较高响应可能性的患者，高注意力区域显示了丰富的淋巴细胞浸润和最少的肿瘤间质。
另一方面，对于那些响应可能性较低的患者，高注意力区域显示了最少的肿瘤内淋巴细胞浸润和丰富的胶原纤维密集的间质。
这些发现表明，该模型能够揭示以前与免疫治疗反应相关的病理特征。

Para_08

最后，我们评估了多模态MUSK在预测101名接受ICI为基础的免疫治疗的晚期胃食管癌患者反应和结局中的表现。
在胃食管癌中唯一的已建立的预测性生物标志物是微卫星不稳定性（MSI）。
在这组队列中，MSI-H状态对预测免疫治疗反应的准确性适中，AUC为0.616（95％CI：0.550-0.682；P <0.0001）。
相比之下，MUSK达到了更高的AUC为0.762（95％CI：0.718-0.805），显著优于其他多模态基础模型，如PLIP、QUILT-1M、BiomedCLIP和CONCH，这些模型的AUC介于0.652到0.693之间（扩展数据图5a）。
MUSK也优于基于病理学的基础模型，包括UNI、GigaPath和Virchow，这些模型的AUC范围从0.644到0.651。
对于预测PFS（无进展生存期），得到了类似的结果，MUSK的表现优于其他基础模型（扩展数据图5a）。
与肺癌的结果一致，多模态MUSK模型显著改善了仅文本和仅图像模型在预测胃食管癌免疫治疗反应和结局方面的表现（扩展数据图5b）。

Para_09

我们进行了Kaplan–Meier分析以评估MUSK对患者预后的分层作用（扩展数据图5c）。
而PD-L1表达并未显著分层患者以预测无进展生存期（补充图10b），MUSK将患者分为两个风险组，风险比为3.49（2.02–6.01）；P<0.0001。
高风险组和低风险组的中位无进展生存期分别为3.6个月和14.1个月。
MUSK进一步在生物标志物定义的亚组内分层患者，例如PD-L1阴性（综合阳性评分=0）和PD-L1阳性（综合阳性评分≥1）肿瘤以及微卫星稳定/MSI-L肿瘤。
此外，MUSK无论患者接受单一免疫检查点抑制剂或化疗联合免疫治疗方案均能有效分层（扩展数据图6b）。
最后，我们进行了多变量Cox回归分析，结果显示MUSK是唯一显著预测无进展生存期的因素（P=0.0013），除微卫星不稳定性状态外（扩展数据图5d）。
注意力热图可视化显示了响应者与非响应者之间淋巴细胞浸润和基质丰度的不同模式（扩展数据图5e）。

Discussion

Para_01

在这项研究中，我们介绍了MUSK，一个新的用于通用肿瘤学应用的视觉-语言基础模型。
通过对23个下游任务的广泛基准评估，我们展示了MUSK在癌症检测、诊断和分级的应用中，无需或只需最少的进一步训练就能实现优于现有基础模型的性能。
重要的是，与之前依赖于不同数据模态之间相似性的研究相比，我们利用了临床报告和图像之间的互补信息，并证明多模态方法在预测效果上优于单一模态。
具体而言，MUSK在黑色素瘤复发预测、16种癌症类型的预后预测以及肺癌和胃食道癌两个真实世界队列中的免疫治疗反应预测方面表现出色。

Para_02

MUSK 的性能提升主要归功于它能够利用未配对的图像和文本数据进行预训练，而这种数据远比配对数据常见。
现有的研究使用了现成的基础模型，并通过对比学习进行预训练，这需要配对的图像-文本数据。
相比之下，MUSK 是一个根据需求定制的基础模型，使用统一的掩码建模进行预训练。
这使我们能够利用数量大得多且更加多样化的未配对数据（五千万张图像和十亿个文本标记），相比先前研究中使用的约一百万对图像-文本数据，数量增加了几个数量级。

Para_03

完整多模态数据的缺乏代表了训练可靠AI模型的一个主要挑战。
我们的方法通过使用更易获得的单模态数据进行统一掩码学习来有效解决这个问题，然后使用多模态数据进行微调和对齐。
这一训练范式可以扩展并应用于构建病理学之外其他领域的多模态基础AI模型，例如放射学和皮肤科图像/报告，以及基因组等结构化数据。

Para_04

准确预测治疗反应和结果对精准肿瘤学具有重要的临床意义。
癌症检测与诊断之间存在重要的概念性和实践性区别，而现有的病理学基础模型主要关注于此10,11,12,16。
鉴于病理科医生在诊断癌症方面表现出色（这目前是金标准），AI模型在这种场景下的影响将局限于辅助角色。
然而，由于对未来进行预测存在固有的不确定性，结果预测是一个更具挑战性的问题。
当前基于临床风险因素（如癌症分期和肿瘤分级）的方法具有有限的准确性，通常c指数约为0.65，仍有改进空间。
通过结合常规临床报告和组织病理学图像，多模态MUSK模型显著改善了传统风险因素在16种癌症类型中的预后预测，平均c指数为0.75，并且对于某些癌症超过了0.8。
该模型可以用来补充当前的分期系统并细化风险分层，从而为个性化治疗策略铺平道路。
例如，在早期癌症中，可以给那些在治愈性手术后复发高风险的患者提供辅助治疗，而低风险患者则可以避免全身药物带来的毒性。

Para_05

免疫疗法，特别是ICIs，已经延长了许多转移性癌症患者的生存期，并且是大多数肿瘤类型治疗的标准护理。
然而，只有少数患者（10-20%）对免疫疗法产生响应并经历持久的临床益处。
鉴于这些治疗的经济负担和潜在的免疫相关毒性，识别最有可能从ICIs中获益的患者至关重要。
在这里，我们基于常规临床报告和组织病理学图像微调了我们的预训练多模态基础模型，用于预测免疫疗法反应。
该模型显著优于现有的临床生物标志物，例如在肺癌和胃食管癌中PD-L1表达和MSI状态，这些是最常见和致命的癌症之一。
为了帮助解释模型，我们应用了基于注意力热图的可视化技术，揭示了与已知的免疫疗法反应和抗性机制一致的肿瘤微环境的病理特征。
重要的是，该模型确定了一部分PD-L1阴性或EGFR突变肿瘤的患者可以从ICIs中受益。
由于这些患者通常由于总体低响应率而不接受ICIs，因此我们的发现具有重要的临床意义，有可能扩大可能从ICIs中受益的患者群体。

Para_06

尽管免疫治疗反应预测的结果令人鼓舞，但值得注意的是，这些结果是基于一个学术医疗中心约220名患者的相对较小队列得出的。
在该模型可以被考虑用于临床实施和采用之前，需要采取几个步骤来确保其在安全性、疗效和临床实用性方面得到严格评估。
首先，这些发现应在未来具有更大、多机构队列的研究中进行验证和确认。
其次，对于高风险应用，例如治疗决策制定，需要获得监管批准，包括对来自不同人群的接受免疫治疗患者的前瞻性临床试验中的验证。
通过严格的前瞻性验证产生的高级别证据最终可能导致临床指南和临床实践的变化。

Para_07

总之，我们通过利用未配对的图像-文本数据提出了一种新的视觉-语言基础模型。
该模型为病理图像和临床报告的整合提供了有效的方法，并且可能有助于提高诊断和精确癌症治疗。
（参考文献标识已被移除）

Methods

Model design and pretraining

模型设计和预训练

Para_01

MUSK的预训练受BEiT3（参考文献21）启发，包括两个主要步骤。
第一步使用掩码数据建模来利用大规模不成对的图像和文本。
第二步使用大约一百万张图像-文本对进行对比学习，以对齐两种模态并建立图像和文本之间的联系。
网络主干是一个通用的多模态变压器，灵感来源于大型语言模型中的专家混合网络59、多模态预训练21,60以及图像生成61。
模型配置在扩展数据图7和补充表16中有详细说明。

Multimodal data curation for pretraining

多模态数据预训练整理

Para_01

为了预训练多模态MUSK基础模型，我们结合了未配对的病理图像和文本用于掩码学习，以及配对的图像-文本数据用于对比学习。
掩码预训练数据集包含从PubMed Central开放获取数据集中1,001,800篇与病理相关的文章中提取的一百亿个文本标记，以及来自TCGA的五千万个病理图像切片。
这些图像切片来自代表33种肿瘤类型的11,577名患者近33,000张数字化的HE染色WSI。
我们在第二阶段的预训练过程中，除了使用PathAsst62数据集（包含207,000个图像-文本对）外，还使用了QUILT-1M46数据集（包含802,000个图像-文本对）进行对比学习。

Para_02

noisy 图像-文本对从网络收集会带来训练挑战，并可能降低模型性能。因此，我们没有直接在这些数据集上进行训练，而是在对比学习过程中采用了类似于BLIP63的引导方法。我们最初在QUILT-1M上进行了训练以获得基线模型，然后根据该模型筛选出低相似度的图像-文本对。最终模型在经过精炼的图像-文本数据集上进行训练，从而提高了数据质量（补充图2）。
The final model was trained on the refined image–text dataset with an improved data quality (Supplementary Fig. 2).

Unified masked pretraining

统一掩码预训练

Para_01

我们在预训练中使用了统一的掩码数据建模方法。我们训练期间采样了一批训练图像和文本，以应用掩码损失并优化模型。我们利用掩码语言建模（MLM）损失来处理文本，并利用掩码图像建模（MIM）损失来处理图像。
我们训练期间采样了一批训练图像和文本，以应用掩码损失并优化模型。

Masked language modelling

掩码语言建模

错误！！！ - 待补充

Masked image modelling

掩码图像建模

Para_01

输入图像 ({\bf{x"}}\in {{\mathbb{R"}}}^{H\times W\times C"}) 被分割成 (N) 个图像块 ({{{\bf{x"}} {i"}^{p"}}} {i=1}^{N"})，然后通过图像标记器将其标记化为 (z=[{z"} {1},\ldots ,{z"} {N"}]\in {{\mathcal{V"}}}^{h\times w"})，作为 MIM 的输出标签。
词汇表 ( \mathcal{V"}}={1,\ldots , {\mathcal{V" }| }) 包含离散的标记索引。
在输入层，随机遮蔽了 (40 %) 的图像块，然后模型预测被遮蔽块的视觉标记 ({z"}_{i"})。
遮蔽位置表示为 ({\mathcal{M"}}\in {1,\ldots ,0.4N})。
接下来，我们用一个可学习的嵌入 ({{\bf{e"}}} {[{\rm{M"}}]}\in {{\mathbb{R"}}}^{D"}) 替换遮蔽的块，使得输入的损坏图像块 ({{\bf{x"}}}^{{\mathcal{M"}}}={{{\bf{x"}} {i"}^{p"}:i\notin {\mathcal{M"}}}} {i=1}^{N"}\bigcup {{{\bf{e"}} {[{\rm{M"}}]}:i\in {\mathcal{M"}}}}_{i=1}^{N"}) 被送入变换器。
预训练目标是最大化给定损坏图像的正确视觉标记 ({z"}_{i"}) 的对数似然性：

Para_02

图像标记器用于获取语义上有意义的视觉标记。
然而，现有的标记器，如DALL-E65和BEiT-v2（参见文献66），主要是在自然图像上进行训练的。
因为图像标记器定义了MIM的学习目标，使用非特定病理的标记器可能导致次优的图像表示。
为了解决这个问题，我们根据BEiT-v2方法论66训练了一个特定病理的图像标记器用于MUSK，利用了TCGA数据集中五百万张病理图像。
在训练过程中，我们采用了CTransPath67作为教师模型，提供语义感知的目标以增强标记器性能。

Masked training settings

掩码训练设置

Para_01

图像增强包括随机垂直翻转（概率=0.5）、颜色去除（概率=0.2）将图像转换为灰度以及弱色彩抖动（概率=0.8），具体调整亮度、对比度、饱和度和色调。此外，还加入了RandStainNA68和多个视场（FoVs），涉及在×10、×20和×40倍率下的随机放大。
我们将MUSK预训练了一百万步，使用LMIM的掩码预训练损失用于图像，LMLM用于文本。图像的批量大小为2,048，文本的批量大小也为2,048。
MUSK使用了一个384×384像素的输入图像，并将其划分为16×16像素的小块。
文本数据使用了SentencePiece分词器进行分词，词汇表大小为64,000。
我们使用AdamW优化器进行优化，参数设置为β1=0.9，β2=0.95，ϵ=1×10^-8。
我们使用余弦学习率衰减调度器，峰值学习率为1.5×10^-3，并进行了10,000步的线性预热。
权重衰减设置为0.05，并使用了深度为0.1的随机深度。

Contrastive pretraining

对比预训练

Para_01

第二个预训练步骤利用对比学习进一步训练MUSK，使其对图像-文本对进行模态对齐。
图像嵌入和文本嵌入被用来计算对比损失。
对比损失旨在对齐图像和文本的全局表示。
我们进一步设计了一个辅助损失来实现细粒度的模态对齐。
具体来说，我们构建了一个轻量级的跨注意力解码模块，利用图像作为侧信息来进行掩码语言建模。
图像嵌入被用作交叉注意力中的键和值，而语言嵌入则作为查询。
这种方法鼓励语言嵌入探索与图像更详细的交互，最终增强模态对齐。
我们经验性地屏蔽了输入文本标记的30%，并预测真实标签。
我们在跨模态解码器的输出隐藏状态处建立了一个预测层，并通过交叉熵损失最终优化模型。
模态对齐的训练损失是对比损失和辅助掩码语言建模损失（带有解码器）的组合（扩展数据图7b）：

人工智能 | Nature | 针对精准肿瘤学的视觉-语言基础模型

正文

Basic Information

Abstract

Para_01

Main

Para_01

Para_02

(adsbygoogle = window.adsbygoogle || []).push({}); Para_03

Para_04

Zero-shot cross-modal retrieval

Para_01

Para_02

(adsbygoogle = window.adsbygoogle || []).push({}); Visual question answering

Para_01

Image retrieval and classification

Para_01

Para_02

Para_03

Para_04

Para_05 (adsbygoogle = window.adsbygoogle || []).push({});

Para_06

Molecular biomarker prediction

Para_01

Melanoma relapse prediction

Para_01

Para_02

Para_03

Pan-cancer prognosis prediction

Para_01

Para_02

Para_03

Para_04

Immunotherapy response prediction

Para_01 (adsbygoogle = window.adsbygoogle || []).push({});

Para_02

Para_03

Para_04

Para_05

Para_06

Para_07

Para_08

Para_09

Discussion

Para_01

Para_02

Para_03

Para_04

Para_05

Para_06

Para_07

Methods

Model design and pretraining

Para_01

Multimodal data curation for pretraining

(adsbygoogle = window.adsbygoogle || []).push({}); Para_01

Para_02

Unified masked pretraining

Para_01

Masked language modelling

Masked image modelling

Para_01

Para_02

Masked training settings

Para_01

Contrastive pretraining

Para_01

Contrastive training settings

请到「今天看啥」查看全文

Para_03

Visual question answering

Para_05

Para_01

Para_01