精简版推文:
选文:大壮
编辑:小帆、大壮
最近比较忙,推文存在一些问题,接受批评,
没有专职编辑
,
难免有一些错误,希望
多多包涵,多提意见,会持续优化。
公众号目的是作为民间非正式学术分享交流窗口
。也
会插入点广告,其实不挣钱,两年广告
才两百块。昨天又挣了6毛。
扯多了,言归正传
该研究技术上
难度不
大
,但是实验设计的很好,工作量巨大
,从病理
关联
组织表型
是一个好的思
路,很值得学习和模仿。病理和AI这两年比较卷,也是发高分的一个套路。
为什么病理和AI为啥能高分呢?
主
要是因为门槛高,门槛高做的人就少,物以稀为贵
(1)算法门槛相对高一些
不像
机器学习、图像分割比较常规,病理图像数据量大,如果做有监督学习,标注工作量比较大,这一块技术主要集中在自监督、半监督、弱监督,因为这些方案需要一部分标注甚至不需要标注。
(2)硬件门槛高
机器学习、R语言生信分析这些简单的算法有电脑就可以跑。图像分割需要有GPU会好一些,可以加速训练,即使是基于transformer的算法,RTX4090绝对轻松拿捏,除非跑一些3D分割,24G显存可能不够。
病理图片是一个很吃资源的实验,对设备内存和显存要求都高,最近复现一些nature 子刊,4090显卡跑起来感觉力不从心,就像小马拉大车、小毛笔搅大水缸。程序经常挂掉,显存不足。有钱的课题组都是多卡或者A100、H100。
(3)成本高
病理数据获取难度大,成本高,大医院大课题组才有资源
综上,病理和AI,还是可以持续加码的,但是有技术、有硬件、有资源,总结一句话,
要有钱
。
文章标题:
Mapping the landscape of
histomorphological cancer phenotypes
using self-supervised learning on
unannotated pathology slides
中文标题:
使用自监督学习对未标注的病理切片进行组织形态癌症表型映射
发表期刊:
《Nature Communications》
发表时间:
2023年8月11日
研究背景
(1)癌症的诊断和管理
依赖病理学家从显微图像中提取复杂信息,这个过程耗时且易受人为偏见影响。
(2)传统的监督式深度学习方法尽管有效,但受限于训练标注的成本和质量。
提出了一种自监督的方法——组织形态表型学习,
无需标签,通过自动发现图像切片中的辨别性特征
。
(3)
组织切片被分为形态上相似的簇,形成
组织形态表型图谱
(HP-Atlas),
揭示了从良性到恶性组织的转化路径,炎症和反应性表型。
这些集群特征可以利用正交方法识别,能够将组织学、分子和临床表型相联系。
(4)在肺癌研究中,表型簇与患者生存期、已识别的肿瘤类型和生长模式以及免疫表型的转录组学指标密切相关。
(5)概念介绍
这里涉及一些工科技术的概念,有利于理解该研究:
1)Leiden community detection:
Leiden 社区检测是一种用于揭示网络中社区结构的算法,旨在识别网络中的紧密连接子集(即社区)。该算法是根据 Louvain 方法的基础上发展而来的,具有更高的准确性和更有效的计算效率。
eiden 社区检测算法在生物信息学中的应用
主要通过解析复杂的生物网络结构,揭示功能相关的基因模块、蛋白质复合体、代谢途径、疾病相关基因群体和单细胞亚群,为研究和理解生物学过程提供了强大的工具和支持
。这些应用不仅有助于发现新的生物标志物和调控机制,还促进了个性化医疗和药物开发等领域的发展。
2)最近邻图(Nearest Neighbor Graph, NNG)
NNG算法是一种在机器学习和数据分析中广泛应用的
图构建方法
,用于表示
数据点之间的局部关系
。通过最近邻图,可以有效揭示
数据中的局部结构
,适用于聚类、降维、数据可视化和异常检测等多种任务。
3)UMAP(Uniform Manifold Approximation and Projection)
是一种用于
降维和数据可视化的算法
,基于流形学习理论,旨在
保留高维数据的全局和局部结构
。UMAP 首先通过最近邻搜索构建局部邻接图,并计算相似性,然后合并局部图形成全局图。该算法通过优化目标函数,使低维空间中的数据点布局尽可能反映高维空间中的相似性。与其他降维方法(如 PCA 和 t-SNE)相比,UMAP 具有效率高、结构保留良好及灵活性强的特点,广泛应用于数据可视化、
聚类分析、单细胞RNA测序等领域
。其简便的实现方式使其在处理各种类型的数据时成为一个受欢迎的选择。
探讨结果
1 HPL:通过自监督学习和社区检测进行组织形态表型学习
1.1 HPL方法概述
HPL(组织形态学表型发现)通过无监督的深度学习方法,在无需病理学家标注的情况下,自动识别全视野图像(WSI)中的不同组织形态学模式。
1.2 自监督学习
HPL通过自监督学习将
每个图块转化为128维的向量
表示,捕捉其形态特征,并确保对颜色和缩放失真不敏感。
1.3 形态学表型簇(HPCs)
:
HPL通过最近邻图和Leiden社区检测算法,从图块中识别组织形态学表型簇(HPCs),并通过自监督方法选择合适的HPC数量。
1.4 HPL优势
HPL方法为组织模式
提供可视化和可解释性,支持与基因组和转录组等多组学特征的关联研究,并可量化空间异质性
。
2 肺腺癌组织形态表型全景图
2.1
聚类与降维
(1)采用UMAP(统一流形近似和投影)方法对剩余的约411,000个图块进行降维。
(2)通过Leiden社区检测方法,成功识别出46个HPCs,这些聚类代表肺腺癌中不同的组织形态特征。
2.2 结果验证
三位病理学家对每个聚类随机选取的100个图进行评估,记录详细的组织形态学特征。通过病理学家的共识,分析上皮与间质的面积比率及淋巴细胞浸润程度,认为
HPL在捕捉不同组织类型视觉特征方面的具有良好效果。
2.3 聚类特征
HPCs在UMAP上的分布反映了组织成分的清晰分离(
例如恶性细胞集中在UMAP的左半部分,与正常肺组织明显分开
),
这种分布模式为理解不同组织形态的临床相关性提供了支持。
2.4 特定聚类分析
(1)观察到不同的生长模式变异,例如固态生长的不同变体(如HPCs 6, 11, 27和39)。
(2)一些聚类因伪影而定义(如HPC 44和HPC 17),进一步丰富了对组织形态多样性的认识。
3 HPL 识别出与临床结果相关的肺腺癌预后组织形态表型
3.1 整体生存分析
在TCGA测试集中,HPC的平均一致性指数为0.60,在NYU1上为0.65,结果表明HPC在生存期预测中表现良好。
3.
2 结果的稳定性
在不同训练集和放大倍数下,HPL的性能保持稳定,显示出其稳健性。
3.3 SHAP分析
高贡献的HPC(红色)与较差生存相关,而底部的HPC则与较好生存预测相关。
3.4 无复发生存研究
在NYU1上进行无复发生存研究,获得0.74的平均一致性指数,显示HPL在复发预测中的有效性。
3.5 SHAP和森林图的解释
SHA
P图和风险
比森林图揭示了与复发相关的HPC特征。
(1)SHAP图显示恶性肿瘤的固态模式,淋巴细胞较少且往往表现为一定的失聚性。
(2)森林图
则表现为炎
症反应和低级别肿瘤生长模式。
3.6 具体案例分析
轻度炎症的固态生长(HPC 15)和伴有间质限制性肿瘤浸润淋巴细胞的固态疾病(HPC 5),而缺乏与HPC 32相关的纤维化肺模式和淋巴细胞浸润。
4 HPL 发现的模式与细胞类型、组织学生长模式和分子表型的系统关联
4.1 聚类分析结果
通过双层分层聚类,显示HPCs与免疫特征之间的相关性,
观察到HPCs与特定细胞类型的富集或缺乏关系。
4.2 HPC与预后的关联
(1)与良好预后相关的HPC通常富集于淋巴细胞浸润,并与多种分子特征呈正相关。
(2)与差预后相关的HPC则呈现较少的淋巴细胞浸润,并与增殖、突变率等呈正相关。
4.3 HPC的代表性示例
与良好预后(如“发炎的紧凑基质,稀疏肿瘤”)和差预后(如“固体,冷”)相关的HPC
,强调肿瘤微环境特征。
4.4 细胞类型与HPC
研究HPC与不同细胞类型的关系,揭示图块中细胞密度的重要信息。
5 HPL 在多种癌症中的应用揭示了与癌症亚型和临床结果相关的HPCs
5.1 HPL的验证
(1)HPL被用来区分肺腺癌(LUAD)与肺鳞状细胞癌(LUSC),以TCGA作为训练集,NYU2作为独立测试集。
(2)使用逻辑回归和5折交叉验证,HPL在TCGA测试集上的平均AUC为0.930,而在NYU独立测试集上则为0.990。
5.2 算法鲁棒性
(1)HPL在不同机构之间的图像准备和处理变异性下表现出可靠性。
(2)尽管NYU数据集的肿瘤含量较低,HPL算法仍能有效分类LUAD和LUSC。
5.3 HPC与细胞特征
(1)HPL识别了与TIL密度、巨噬细胞调节、增殖和TGF-beta反应相关的HPC集群。
(2)UMAP图展示了不同类型的富集和缺乏情况。
5.4 多癌种分析
通过TCGA的多癌种数据集分析,HPL确定了跨多个癌种的共同HPC,并与免疫特征相关联。
5.
5 HPC与生存率的关系
(1)与良好预后相关的HPC大多富含免疫转录表型(如全淋巴细胞或CD8+ T细胞)。
(2)与差预后相关的HPC可分为两个组:一组与增殖和基因组改变相关,另一组与TGF-beta反应相关。
5.6 跨癌种的生存分析
(1)在癌症类型分析中,统计上显著相关于死亡(差预后)的HPC被标记为红色,而与生存(良好预后)相关的HPC则标记为蓝色。
(2)肺癌、乳腺癌、皮肤癌等多种癌症类型共享了一些与预后相关的HPC。
学习心得
(1)H&E染色切片是癌症诊断和治疗决策的基础,提供多层次的肿瘤信息。
(2)无监督和自监督方法在组织病理学领域的兴趣日益增长,仅通过图像信息创建组织图像的表示,可用于多个任务。
(3)研究还扩展到多癌症分析,识别出富含特定分子特征的组织形态学模式,并在多癌症分析中预测总体生存。
(4)技术上难度不达,但是实验设计的很好,工作量大,从病理关联组织表型是一个好的思路,很值得学习和模仿。
引用
[1]Claudio Quiros A, Coudray N, Yeaton A, Yang X, Liu B, Le H, Chiriboga L, Karimkhan A, Narula N, Moore DA, Park CY, Pass H, Moreira AL, Le Quesne J, Tsirigos A, Yuan K. Mapping the landscape of histomorphological cancer phenotypes using self-supervised learning on unannotated pathology slides. Nat Commun. 2024 Jun 11;15(1):4596. doi: 10.1038/s41467-024-48666-7
. PMID: 38862472
.
感谢您的阅读,如果您对这项研究感兴趣或想了解更多关于AI在医学中的应用,请继续关注我们,我们会定期分享最新的科研成果和健康资讯。别忘了点赞和转发哦!👍🔄