癌症基因组图谱(TCGA)所定义的分子亚型描述了癌症的潜在生物学特性,然而定义这些分子亚型的方法并不适用于来自其他研究或临床试验的新癌症标本的分型。今
天,小编要和大家分享一篇
2025年1月
发表在
Cancer Cell(IF:48.8)
上的文章,
本文通过将五种不同的机器学习方法应用于来自8,791个TCGA肿瘤样本的多组学数据来解决这一障碍,并进一步提供了表现最佳模型作为公共资源。
扫码添加 ⬪ 精彩内容抢先看
个性解读|课题设计
生信热点|直播分享
Highlight
摘要图
1.TCGA肿瘤亚型定义和分类模型开发
首先,数据的选择上,作者以癌症类型为中心的方法进行亚型分类,将TCGA 队列分类成26个不同的癌症队列。随后,从PanCancer Atlas资源(gdc.cancer.gov/node/977 )中收集了五个数据平台(突变、拷贝数、mRNA、DNA甲基化和miRNA)的所有基因组数据,并使用以基因为中心的方法来分分析所选特征的生物学意义。
图1. 癌症类型和亚型
然后,为所有队列构建亚类型平衡的重复交叉验证折叠,并将它们设置为训练和测试集,应用
五种机器学习方法
:
AKLIMATE、CloudForest、SK Grid、JADBio和 subSCOPE。
图2. 工作流程
2.用于定义子类型的数据类型影响预测性能和分类器选择的特征
通过比较不同癌症类型的预测性能和选定特征,得出了四个关键结果:首先,原始TCGA中定义的癌症队列产生了高度准确的分类器;其次,对于大多数癌症类型,mRNA在顶级模型中选择的特征中占主导地位;第三,最初使用突变 (SKCM)或DNA甲基化(LGGGBM)进行亚型分类的癌症队列分类器通常从顶级模型的相应数据类型中选择特征;第四,使用全基因组特征定义的亚型很难使用单个以基因为中心的特征来捕获,因此最终的分类器性能较低。
图3. 分类器性能指标概述
3.模型在外部测试中验证PAM50分型
接下来,以BRCA为例,作者研究了mRNA分类器是否可以准确预测两个代表独立乳腺癌队列中的PAM50标签分配,包括在不同的mRNA平台上生成的METABRIC数据集和福尔马林固定、石蜡包埋(FFPE)样品的AURORA数据集,模拟将作者的模型应用于其他研究时可能会遇到的挑战。
结果显示,SK Grid和AKLIMATE mRNA两个模型都取得了与原始METABRIC的PAM50 分型高度一致的PAM50亚型预测;在AURORA数据集上也取得了类似的模型性能。
4.更多的输入数据类型或大量的特征不会提高模型性能
接下来,作者比较了单一数据类型和联合使用所有平台数据的分类器性能,结果发现对于一半的癌症队列,二者取得的模型性能相当。另外,五种机器学习方法选择的特征数量不同,比较后发现JADBio拥有更有效的选择特征。
5.mRNA特征在大多数癌症类型的顶级模型中占主导地位
在比较数据类型和模型性能时,作者还发现使用mRNA特征输入的模型在具有多组学定义的亚型的癌症队列中表现良好。具体的,在26个癌症队列中的10 个中,使用基因表达特征输入开发的分类器显着优于使用次优单一数据类型导出的模型;只有在少数肿瘤类型中,除mRNA之外的数据类型的特征显着更具预测性。
图4. 使用单一数据类型与多组学的模型的性能
6.跨方法共享的特征反映了已知的肿瘤生物学
另一个有意思的发现是,选择特征较少的模型往往与其他模型表现出更强的特征重叠程度,这意味着该特征可能会提供特别强的信号作为子类型分类的基础,也即已知的经典的肿瘤生物学特征。例如,对于BRCA亚型,所有五种方法都选择了两种mRNA特征:ESR1和FOXC1。BRCA核心集中的38个mRNA特征中,有17个是原始PAM50乳腺癌组中代表的基因。再例如,对于COADREAD亚型,DNA甲基化特征主导了大多数机器学习方法;对于SKCM亚型,核心特征集与原始亚型定义中使用的体细胞突变(NRAS、BRAF和NF1)相匹配。
图5. 性能最佳模型的功能集
7.分类器特征集收敛于共同路径
以COSMIC数据库中已知癌症相关基因的位置作为参考景观,作者比较了分类器选择的特征,发现所有TCGA癌症队列亚型预测因子中汇总的特征都显示了聚类,这些聚类揭示了与许多已知的COSMIC癌症驱动途径的重叠。作者进一步对通路富集程度进行可视化和量化,不同指标都表明多个独立的机器学习亚型分类器方法倾向于选择具有高信噪比的特征,并且等效的预测特征倾向于在生物通路空间中紧密结合在一起。
图6. 分类器特征的路径和生物学
8.通过荟萃分析确定分类性能的决定因素
为了确定数据和机器学习分类器的具体特征,以产生更好或更差的癌症亚型分类性能,作者进行了全面的荟萃分析,收集了55个元特征,聚类为7个相互关联的元特征簇,其中三个对分类器性能有显着影响。
9.训练分类器需要多少样本
接下来,作者对原始输入数据进行二次采样,并重复分类器的训练,以确定以较少样本作为输入的分类性能,发现提供大约150个样本进行训练足以达到最大模型性能,这在所有癌症队列都是这种趋势。而对于前瞻性癌症队列,70个样本足以推断出可靠的曲线并得出分类性能的估计。
图7. 影响准确亚型分类的因素
总的来说,本研究使用五种不同的机器学习方法生成了412,585个不同的子类型分类器模型,其中包含五种不同的数据类型,以及8,791个TCGA样本的100个分层5倍训练测试分区,其中包含26个不同的样本癌症队列和106种亚型,并将结果整合进公开在线资源(https://github.com/NCICCGPO/gdan-tmp-models),为更多的临床试验或研究提供了可使用的分类器。