超火的多模态深度学习公共数据纯生信5+思路分享

生信人 · 公众号 · 生物 · 2024-11-12 07:05

正文

多模态深度学习具有处理和整合多种类型信息的优势，特别是在预测患者预后方面能够结合不同类型的生物医学数据，如临床数据、基因表达数据、蛋白质组学数据、成像数据等，进而提高预后预测的准确性和鲁棒性。因此，这一领域得到了快速发展，并成为当前生信分析中备受关注的热门领域。小编今天就和大家分享一篇今年6月发表在Precision Clinical Medicine（5.1/Q1）杂志上题为“Deep learning-based multi-modal data integration enhancing breast cancer disease-free survival prediction”基于多模态深度机器学习术前预测乳腺癌患者无病生存期（DFS）的文章。

添加微信

精彩推送不错过

一．文章摘要

研究从TCGA和中山大学中山纪念医院（SYSMH）收集了乳腺癌患者的病理影像、基因和临床数据，开发了一个基于深度学习的多模态模型（DeepClinMed-PGM）以预测患者DFS。结果研究观察到多模态模型DeepClinMed-PGM在训练队列、内部验证队列和外部测试队列都表现出良好的预测效能。总之，该研究引开发了一个结合影像学、分子和临床数据的多模态乳腺癌预后预测模型，提高了乳腺癌患者DFS预测的准确性，为患者个性化治疗提供了参考。

二．文章的主要内容及结果

1.基于病理的深度学习模型的开发

文章首先介绍了研究涉及患者的主要特征。研究纳入了来自SYSMH和TCGA的1020例非转移性乳腺癌患者（表1），后续分析中这些患者被划分为训练队列（n = 741），内部验证队列（n = 184）和外部测试队列（n = 95）。

表1 TCGA和SYSMH组患者的临床特征

文章接着介绍了基于深度学习开发乳腺癌多模态预后预测模型的流程。研究整合患者病理及基因分子、临床数据基于深度机器学习开发了多模态预后预测模型DeepClinMed-PGM，主要流程如图1所示。具体来说研究首先以8:2的比例将925例TCGA患者随机分为训练组和内部验证组。接着对单个整张切片图像（WSIs）进行操作，使用改进的CLAM架构和弱监督学习训练原发肿瘤组织区域。接下来研究从病理图像中自动提取原发肿瘤斑块，并开发了一个基于深度病理的多实例学习生存模型，以预测基于患者的DFS风险，该模型使用改进的ResNet50架构进行特征提取和迁移学习算法，能够有效地识别出关键特征（图1B）。此外，研究进一步将分子和临床病理特征与基于病理的生存模型相结合，形成DeepClinMed-PGM，其整合了分子和临床病理数据，为DFS预测提供了个性化的方法（图1C）。

图1 本研究的工作流程和图形方法概述

2.整合多模态数据和临床信息加强预测

文章接着整合多模态及临床数据对模型进行优化。研究首先分析了PAM50亚型、年龄、临床TNM分期和免疫细胞浸润等219个基因和临床病理因素。接着研究将32个临床病理特征与深度学习模型相结合，结果发现能够显著提高训练及验证队列预测的准确性（图2A-C）。此外，研究通过DeepClinMed-PGM模型得分将患者分为高和低风险组，并观察到DeepClinMed-PGM模型的稳健判别能力在不同的队列中都是一致的（图2D-F）。研究通过决策曲线（DCA）分析也观察到所有队列中，与基于病理的生存模型、基因特征和单独的病理特征相比，DeepClinMed-PGM模型性能始终更优越（图2G-I），这一结果强调了DeepClinMed-PGM模型在早期DFS预测中的重要临床价值。

图2 训练集、验证集和测试集的AUC和KM曲线

3.模型结果可视化

文章接着介绍了模型结果的分析及可视化。研究利用病理样本的WSIs进行分析，并结合训练队列的RNA测序数据，识别了高和低风险组间的219个差异表达基因（图3A）。接着研究对这些基因进行GO及KEGG富集分析，结果观察到这些基因富集到与免疫和转录相关的关键功能和通路（图3B，C）。此外，研究在训练队列中也观察到KMT2C和MAP3K1具有很高的突变频率（图3D）。同时研究观察到高风险组和低风险组间免疫细胞浸润也存在显著差异（图3E）。

图3 高低组差异分析

研究也绘制了病理热图展示肿瘤组织与模型预测的关联。热图中的暖色（如红色）表示对模型预测有较高影响，冷色（如蓝色）表示对模型预测的影响较低。较深的阴影表示更强的网络反应，具有更高的权重，表明模型对这些特定区域的关注更加强烈。蓝色阴影的主要代表肿瘤的边界、形状和纹理等结构。研究观察到复发或转移风险高的患者在肿瘤附近和远处均有集中的热点，而无复发或转移风险的患者热点则主要集中在肿瘤区域内（图4）。

图4 病理热图显示人工智能识别出的感兴趣区域（ROI）

4.多模态模型结果评估

文章最后对构建的多模态模型的结果进行了解读及评估。首先为了评估临床特征对乳腺癌患者DFS的预测作用，研究在训练和试验队列进行了单因素回归分析，结果发现年龄、分期、T分期和N分期等临床特征不能独立预测乳腺癌患者的DFS，而多模态风险评分在训练和试验队列中都是更有效的预测因子（图5A-B ）。接着研究使用CIBERSORT算法进行免疫浸润分析，结果发现高风险组中M2和M0巨噬细胞的浸润较高（图5C）。此外，研究分析也发现免疫检查点基因在低风险组的表达普遍较高（图5D）。

图5 不同危险人群差异分子特征的验证

此外研究也发现低风险组免疫因子相关基因的表达也较高（图6A）。研究对免疫因子相关基因进行富集分析发现其主要富集在补体激活、吞噬、雌激素信号、趋化因子信号、细胞黏附及细胞通讯等通路（图6B-D）。

图6 不同风险人群差异分子特征的免疫学分析

到这里文章的主要内容就介绍完啦，总结一下该研究基于深度学习构建了乳腺癌DFS预测多模态模型，并在多个数据集中验证了该模型的预测准确性，同时也对预测结果进行了相关表达、功能及免疫浸润等的全面解读。相较于经典的构建预后特征方法，多模态深度学习能够融合不同模式的数据，更好地处理、解释并整合不同来源的数据信息。因此，多模态深度学习也成为了近期大火的发文思路，感兴趣的小伙伴不要错过呀。

添加微信

精彩推送不错过

最新文章汇总（持续更新ing）

最新热点方向

1、去年才出的review，今年就有顶刊了——神经免疫

2、医之侠者：中国肺癌领军人物吴一龙

3、陈志坚成果汇总｜大概率是华人下一位诺奖获得者

4、《Nature》中肠道菌群研究的正确打开方式

5、这文章才十来分，是被nature撤稿影响了吗？

生信人课堂

1、多组学水平的孟德尔随机化分析套路

2、单细胞+空转王炸组合，探索骨骼肌纤维化巨噬细胞