专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
生物探索  ·  Nature Methods | ... ·  2 天前  
生物学霸  ·  33 ... ·  昨天  
生信菜鸟团  ·  cellranger ... ·  2 天前  
生信菜鸟团  ·  raincloud云雨图:一图囊括小提琴+箱 ... ·  4 天前  
51好读  ›  专栏  ›  生信人

又一“不做实验”高分发文赛道开启:多模态会是下一个孟德尔吗?

生信人  · 公众号  · 生物  · 2025-03-17 07:05

正文

经常挖掘生物标志物的小伙伴可能比较熟悉,我们常规挖掘生物标志物一般通过组学、临床数据将候选标志物筛选出来,然后进行统计学验证,最终完成功能机制阐释。然而需要指出的是,随着研究范式的演进, 单纯依赖单变量分析的研究设计已愈发难以获得高分期刊青睐 在此背景下,整合多模态深度学习框架(如影像组学联姻病理全切片数字分析)正成为提升技术突破性的有效路径。


今天,小编给大家分享一篇高分文章,这篇文章分析了接受一线免疫治疗的 317 名转移性非小细胞肺癌的影像、病理切片、大量转录组学特征和临床信息,测试多种整合策略,产生多模态模型。结果显示多模态模型超过了最好的单峰模型和已建立的单变量生物标志物,为多模式优于单模式提供了证据。

扫码添加领资料

资料:2025年国自然申请指南和热点攻略


个性解读 |课题设计

生信热点|直播分享

一、研究背景

PD-1/PD-L1免疫治疗联合或不联合化疗是目前无驱动基因突变且无PD-1/PD-L1抑制剂禁忌的转移性非小细胞肺癌(non-small cell lung cancer,NSCLC)患者的标准一线疗法,多项临床试验表明,与单纯化疗相比,免疫治疗显著提高了总生存期(Overall Survival , OS)和无进展生存期(Progression-Free Survival , PFS),然而,约半数患者对免疫治疗无影像学缓解,且缓解持续时间差异极大(一线免疫治疗联合化疗患者的缓解期为1.1至18个月),最终,仅有少数患者实现长期生存。因此,亟需能够准确预测治疗反应的生物标志物,以优化治疗策略,近年来,机器学习方法已显示出利用治疗前数据开发稳健预后和预测模型的潜力,其性能可能超越PD-L1表达等单变量生物标志物,这些成果推动了多模态方法的探索,然而,由于难以构建全面多模态队列,多模态生物标志物优于单模态的证据仍有限,因此,迫切需要通过大规模、同质化的NSCLC多模态队列研究,充分挖掘多模态整合的潜力并解决其挑战。本研究 旨在 比较单模态与多模态方法对转移性 NSCLC患者一线免疫治疗结局的预测能力。


二、研究结果

1. 标准单变量生物标志物的预测能力有限

仅接受免疫治疗的患者中位总生存期( OS)为723天,无进展生存期(PFS)为301天;而免疫治疗联合化疗组的中位OS为763天,中位PFS为290天(图1A)。值得注意的是,两组间的OS无显著差异(log-rank检验p值=0.44,图1B),即使仅分析PD-L1表达≥50%的患者(补充图s1)。对于PFS,联合治疗组早期进展患者较少,但晚期进展患者比例增加,抵消了这一优势(图1A)。


PD-L1表达可分层患者:阴性(<1%)与阳性(≥1%)患者的PFS和OS差异显著(图1B)。然而,作为单变量生存预测标志物,PD-L1表现一般。若将PD-L1作为连续评分(阴性设为0%,评分=100-TPS),其预测能力进一步下降。其他标准生物标志物(如肿瘤突变负荷TMB或肿瘤浸润淋巴细胞TILs)与患者结局无显著关联(图1C)。TILs通过病理切片半定量评估,未设定明确阈值。

1: NSCLC患者的生存情况与多模态队列的维恩图总结

2.特征重要性分析揭示关键临床与转录组特征

我们首先通过特征重要性分析探究总生存期( OS)及1年死亡率的预测因子,以此解析各单模态模型的学习机制(详见方法部分)。值得注意的是,分析显示:临床模型持续识别出低血清白蛋白水平、PD-L1阴 性状态(即 TPS<1%)或循环中性粒细胞增多的患者预后不良(图2A)。该分析同时揭示了RNA模型用于预测OS和1年死亡率的核心转录组特征(图2B)。

2.临床和转录组学模式预测总生存期的特征重要性排名

3.单模态预测器的晚期融合提升免疫治疗结局预测效能

我们使用线性和树集成算法测试了 2-4种模态组合在所有预测任务中的表现。结果显示,树集成模型的晚期融合策略在分类任务和生存分析中均显著提升预测性能


1年死亡率预测: 临床+RNA+放射组学模型组合表现最优(AUC=0.81±0.03), OS预测: 临床+RNA模型组合最佳(C-index=0.75±0.01)。PFS预测:临床+RNA+病理+放射全模态组合最优。


6个月进展预测: 临床+RNA+病理组合最佳,但后两者的性能与单模态模型无统计学差异。线性模型的晚期融合仅在6个月进展预测中优于树集成模型(临床+病理+RNA组合AUC=0.67±0.03)。


这与线性单模态模型在该任务中的基础性能优势有关,说明晚期融合效果高度依赖单模态组件的性能水平。


为进一步对比晚期融合多模态模型与单模态模型的性能,我们计算了各模态对每位患者最终多模态预测结果的边际贡献 量化单一模态对多模态预测结果的独立影响程度,反映其在决策中的权重价值 研究聚焦于 1年死亡率预测任务中表现最优的模型组合 ——整合临床数据、放射组学及RNA树集成模型的融合系统。

3: 基于晚期融合策略与树集成方法的所有可能多模态组合性能表现

对于部分患者,不同模态并未对多模态预测产生同方向的影响(图 4A)。 (模态冲突)


26%的患者存在模态预测分歧,说明单一生物标志物(如RNA)可能不足以可靠预测疾病结局。


RNA数据与整合模型的预测结果不一致时,需特别关注其他模态信息的权重

1/3(6/20)的病例虽被RNA模态正确影响,但多模态模型仍出现误分类;

2/3(14/20)的病例中RNA模态产生了负面影响,但多模态模型通过整合放射影像和临床数据实现了正确分类。


对这 14例多模态预测正确但RNA贡献为负的患者进行特征重要性分析发现: 不同模态的特征提供了相互矛盾的信息,通过相互制衡最终引导多模态预测走向正确方向 (图 4B)。例如:某些病例中NRAS基因的高表达对预测产生负面影响,但结合临床数据(如血清白蛋白升高)和放射影像数据(如脾脏代谢增高)后,模型得以修正预测结果。


决策融合策略 值得注意的是,三种融合模态表现出多样化行为,其单模态预测间相关性较弱(图 4C)。对各模态决策结果进行平均处理不仅影响了多个患者的预测结果(非孤立现象),还提升了整体模型的性能表现。

4: 每种模态对后期融合策略和 XGBoost 分类器的多模态预测的边际贡献

4.集成策略的基准测试显示多模态方法的持续优势

要注意:晚期融合适合处理高维度稀疏数据(如转录组学),通过特征重要性筛选获得稳健预测,早期融合通过特征交互建模捕捉跨模态关联,但对特征维度敏感, DyAM注意力机制可动态加权模态间关系,尤其适用于病理组学等空间异质性数据。

结果表明:早期融合和 DyAM模型均在有无单变量特征选择的情况下进行训练。比较这些不同集成策略在预测OS、1年死亡率、PFS和6个月进展时的表现,未发现单一最优策略(图5)。


当比较所有可能的模态组合的平均性能时(图 6),结果显示随着整合模态数量的增加,每个策略在每个预测任务上的平均性能均显著提升(早期融合线性模型无特征选择除外)。


多模态优势依赖于各模态初始特征的选择:重点考察转录组学模态,并测试多模态模型能否超越文献中已知的 36个免疫治疗相关转录组学特征。通过相同的交叉验证方案,我们将最佳多模态模型与这36个特征进行比较。结果显示, OS和1年死亡预测中,最佳多模态模型排名前两位(与单模态最佳相当);而在PFS和6个月进展预测中,虽然单模态未进入前十,但多模态模型在6个月进展预测中超越了33/36个特征 (图 7) ,临床 +RNA组合在OS预测中表现最佳,而临床+病理+RNA组合则在PFS预测中胜出 这提示临床 +RNA组合具有普适性以及病理组学的特殊价值。

5: 模态和预测算法的所有可能组合中的最佳单峰和多模态性能

6:模型对 1 年死亡和 OS 的平均性能









请到「今天看啥」查看全文