专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物制品圈  ·  David Baker 再爆猛料:AI ... ·  4 天前  
BioArt  ·  Nat Genet | ... ·  昨天  
51好读  ›  专栏  ›  生信菜鸟团

分子分类 | CancerCell | 使用紧凑特征集对非 TCGA 癌症样本进行 TCGA 分子亚型分类

生信菜鸟团  · 公众号  · 生物  · 2025-02-13 10:34

正文

Basic Information

  • 英文标题:Classification of non-TCGA cancer samples to TCGA molecular subtypes using compact feature sets
  • 中文标题:使用紧凑特征集对非 TCGA 癌症样本进行 TCGA 分子亚型分类
  • 发表日期:10 February 2025
  • 文章类型:Article
  • 所属期刊:Cancer Cell
  • 文章作者:Kyle Ellrott | Peter W. Laird
  • 文章链接:https://www.sciencedirect.com/science/article/pii/S153561082400477X

Highlights

Para_01
  1. 使用五种机器学习方法训练针对106种TCGA癌症亚型的分类器
  2. 基于五种组学数据类型的少量特征构建的分类器模型
  3. 关于有效分类的方法、数据类型和队列规模的见解
  4. 用于将非TCGA患者样本分类为TCGA癌症亚型的公共资源

Summary

Para_01
  1. 例如由癌症基因组图谱(TCGA)定义的分子亚型,揭示了癌症背后的生物学特性,为患者的预后和治疗方案提供了希望。
  2. 然而,大多数用于发现亚型的方法并不适合为其他研究或临床试验中的新癌症样本分配亚型标签。
  3. 在此,我们通过将五种不同的机器学习方法应用于来自8,791个TCGA肿瘤样本的多组学数据来解决这一障碍,这些样本包括来自26个不同癌症队列的106个亚型,基于少量特征构建模型,以将新样本分类到先前定义的TCGA分子亚型中——这是迈向临床应用分子亚型的重要一步。
  4. 我们使用外部数据集验证选定的分类器。
  5. 预测性能和分类器选择的特征为不同的机器学习方法和基因组数据平台提供了见解。
  6. 对于每种癌症和数据类型,我们提供表现最佳模型的容器化版本作为公共资源。

Graphical abstract

Keywords

  • cancer; TCGA; classification; machine learning; artificial intelligence; molecular; pathology; genomic; epigenomic; biomarkers

Introduction

Para_01
  1. 传统上,癌症根据其起源器官或解剖部位进行分类,并在同一癌症类型中根据组织学特征、形态学分级和 AJCC/UICC TNM 分期进一步细分。
  2. 这种癌症亚型分类有助于预测预后,指导治疗策略或手术干预。
  3. 基于发病部位的癌症分类得到了癌症基因组研究的支持,这些研究表明主要癌症类型具有不同的基因组和转录组生物学特性,反映了它们不同的组织起源。
  4. 大型癌症基因组项目,例如癌症基因组图谱(TCGA),还揭示了癌症类型内部先前未被识别的分子异质性和离散亚群,这为通过定义癌症类型内的分子亚型来改进癌症分类提供了机会。
Para_02
  1. 分子亚型最终可能会补充甚至取代传统的组织病理学分类。
  2. 然而,大多数癌症的分子亚型在临床上的应用仍处于起步阶段。
  3. 分子定义的亚型在临床中的应用需要简单、准确且可重复的临床检测方法,能够将新的肿瘤归类到已定义的分子亚型分类体系中。
  4. 分子亚型通常最初是通过无监督或整合聚类方法识别的,这些方法产生的结果仅适用于特定数据集,并不能推广到其他数据集的患者。
  5. 在亚型发现过程中生成的基因表达特征可能揭示亚型之间生物学差异的基础,但它们存在大量特征冗余,未经交叉验证或其他样本集的验证,对用于发现亚型的数据集过度拟合,并且通常对其他研究中的样本预测能力较低。
Para_03
  1. 在本研究中,我们开始弥合在现有癌症队列中发现分子亚型与在临床中将这些亚型标签应用于新诊断患者的差距。
  2. 我们使用五种不同的机器学习(ML)方法训练分类模型,减少特征冗余并限制或最小化特征数量,同时采用交叉验证策略以减少过拟合并评估预测性能。
  3. 我们生成了412,585个不同的分类模型,整合了五种不同数据类型,涵盖了8,791个TCGA样本,包括26个不同的癌症队列和106个亚型。
  4. 我们创建了一个在线资源,包含737个公开可用的容器化预测模型,代表了每个26个癌症队列、五种训练算法和数据类型的顶级模型。
  5. 我们的分类模型集合为基于基因的特征集提供了丰富的资源,可用于创建紧凑的癌症检测面板和工具包,以对非TCGA患者的肿瘤样本进行临床亚型分析。

Results

TCGA tumor subtype definitions and classification model development

TCGA肿瘤亚型定义与分类模型开发

Para_01
  1. 在临床患者护理中,肿瘤分类通常从已知的癌症类型开始,这由组织病理学和解剖位置提供信息。
  2. 因此,我们采取了以癌症类型为中心的方法进行亚型分类。
  3. 我们检索了TCGA报告的分子亚型,其使用了适用于每个队列的适当数据类型和方法来定义癌症亚型(图1;表S1)。
  4. 对于具有部分重叠和相关亚型的癌症队列,我们将TCGA队列合并,最终得到26个不同的癌症队列。

图 1. 癌症类型及其亚型 本项目研究的癌症队列及其亚型概述,按用于定义亚型的基因组数据类型进行颜色协调。对于特定的癌症类型,亚型通过相应的嵌入式器官视图周围的环表示。每个环中的断裂表示不同的亚型。如果某个亚型由多种数据类型共同决定,则使用同心弧表示。仅显示包含两个或更多样本的亚型;带“x”标记的小型亚型因样本数量不足而被排除在分类器开发之外。详见表 S1。

Para_01
  1. 我们收集了泛癌图谱资源(gdc.cancer.gov/node/977)中五个数据平台(突变、拷贝数、mRNA、DNA甲基化和miRNA)的所有基因组数据。
  2. 我们采用以基因为中心的方法,以便更好地分析所选特征的生物学意义。
  3. 为了简化未来临床检测的开发,我们在保留预测性能的同时,强调选择更少的特征。
Para_02
  1. 我们为所有队列构建了亚型平衡的重复交叉验证折,并将其设置为训练集和测试集(图2A)。
  2. 我们应用了五种机器学习方法:AKLIMATE、CloudForest、SK Grid、JADBio 和 subSCOPE(图2B;表S2)。
  3. SK Grid 和 JADBio 各自采用了多种嵌入式方法,因此我们在研究中实际测试的方法数量远不止五种。
  4. 对于 AKLIMATE、CloudForest、SK Grid 和 JADBio,每个癌症队列分别进行训练。
  5. 相比之下,我们同时在所有癌症队列的亚型数据上训练了 subSCOPE 的神经网络(NNs)。
  6. 我们使用相同的交叉验证折对所有分类器进行训练和测试,并将结果汇总到一个单一矩阵中。
  7. 我们从测试交叉验证折中生成性能统计信息,并保留分类器选择的特征以供进一步分析。
  8. 由于"准确性"一词在预测模型文献中有特定的统计学含义,我们在非专业语境下避免使用"准确性"一词,而更倾向于使用由总体加权 F1 分数定义的"性能"一词。

图 2. 研究流程

  • (A) 以一个示例队列为例,展示分类器训练和测试的分析流程,使用体细胞突变、拷贝数变异、DNA 甲基化以及 mRNA 和 miRNA 成熟链的表达数据。图中提供了每种数据类型在原始基因组数据中的(大致)特征数量,以及过滤后特征矩阵中的特征数量(26 个队列的中位数)。
  • (B) 本研究使用的五种机器学习(ML)方法。MUT:突变;CN:拷贝数变异;METH:DNA 甲基化。详见表 S2。

Data types used to define subtypes influence prediction performance and classifier-selected features

用于定义子类型的 数据类型会影响预测性能和分类器选择的特征

Para_01
  1. 每种方法的顶级模型展示了相似的队列水平性能(图S1)。
  2. 队列内亚型之间的性能差异从ESCC和TGCT中的0.00到COADREAD中的0.37不等(图3A)。
  3. 通过对不同类型癌症的预测性能和选定特征进行比较,得出了四个显著的观察结果。
  4. 首先,根据原始TCGA出版物中通过多组学或组织学定义亚型的癌症队列通常会产生高度准确的分类器(图3A)。
  5. 其次,对于大多数癌症类型,在顶级模型中选择的特征中mRNA占主导地位(图3B;表S3、S4和S5)。
  6. 第三,最初使用突变(SKCM)或DNA甲基化(LGGGBM)对亚型进行分类的癌症队列,其顶级模型往往会选择相应数据类型的特征(图3B)。
  7. 第四,使用全基因组特征的汇总统计数据(如突变负荷、染色体不稳定性以及CpG岛甲基化表型(CIMP)定义的亚型(例如GEA和COADREAD),在我们使用的以单个基因为中心的特征训练方法中难以捕捉,因此生成的分类器性能相对较低。

图 3. 分类器性能指标概述

  • (A) 26 种肿瘤类型队列中各亚型的分类器性能,表示为最准确模型预测该肿瘤类型内亚型的整体加权 F1 分数均值(红色水平线)。亚型的具体性能以圆形标记表示,标号对应亚型,颜色表示定义该亚型时使用的数据类型。
  • (B) 每个队列中最佳模型所选特征集的数据类型比例。每个堆叠条形图底部的数字表示该队列亚型分类器所使用的基因特征数量。
  • (C) 原始 METABRIC PAM50 结果与 SK Grid(左)和 AKLIMATE(右)分类之间的一致性比较。中央水平条表示每个样本的轮廓系数(silhouette score)。
  • (D) 维恩图总结了 METABRIC 验证实验中样本的交集和并集计数。
  • (E) 样本轮廓系数与 AKLIMATE 预测中最佳和次优置信度分数差值的比较,按亚型着色。圆形表示分类一致的样本,三角形表示分类不一致的样本。图中显示每个亚型的线性回归趋势线及其 95% 置信区间。
  • 详见图 S1、S2 和表 S3、S4、S5。

Models recapitulate PAM50 assignments in external validation tests

模型在外部分组验证测试中重现了PAM50分类结果

Para_01
  1. 我们研究了我们的BRCA亚型mRNA分类器是否能够准确预测两个独立乳腺癌队列中的PAM50标签分配。
  2. 我们使用了METABRIC和AURORA乳腺癌队列数据集,这些数据提供了我们在将模型应用于其他研究时可能遇到的挑战:METABRIC数据是在不同的mRNA平台上生成的——表达微阵列,而AURORA代表了一个小型队列,包含福尔马林固定石蜡包埋(FFPE)样本。
  3. 我们将SK Grid和AKLIMATE mRNA模型应用于转换后的METABRIC数据,并获得了与原始METABRIC出版物中PAM50分配高度一致的PAM50亚型预测结果(图3C和3D)。
  4. 在METABRIC的PAM50分配与SK Grid或AKLIMATE模型预测之间具有不一致分类的样本更有可能具有负轮廓系数(p = 5.6 × 10^−15,单侧Mann-Whitney Wilcoxon检验),这代表了PAM50分类分配不够稳健的样本(图3C)。
  5. 轮廓系数表示该样本与其分配类别相比,相对于次优类别的相似性程度。
Para_02
  1. AKLIMATE 模型为每个测试样本的每个亚型分配输出一个预测概率。
  2. 我们使用每个样本的前两个亚型预测概率之间的差异来估计该样本的 AKLIMATE 亚型预测置信度。
  3. 在样本亚型无法被可靠预测的情况下,这一差异预计会很小,因为前两个预测亚型的概率会非常接近。
  4. 我们发现,这种亚型预测置信度的估计值与原始 METABRIC 分配所得的轮廓分数高度相关,特别是对于 Luminal A(Spearman 相关系数 = 0.69,p = 5 × 10^-67)和基底样(Spearman 相关系数 = 0.60,p = 10^-12)亚型(图 3E)。
Para_03
  1. 为了评估其他数据集中数据生产平台的技术差异可能在多大程度上降低分类器性能,我们研究了一种基于排名的机器学习方法 multiclassPairs 的性能,这是一种二元(两类)k-最高得分对(kTSP)分类器的多类别版本,预计它对平台技术差异的容忍度更高。
  2. 该方法在使用基因表达数据时的表现与其他我们测试的方法相当(图 S2A–S2D)。
  3. 尽管基于排名的 multiclassPairs 方法从未成为表现最佳的方法,但其对数据平台的相对不敏感性在某些应用中可能会带来优势。
Para_04
  1. 我们研究了在高轮廓分数亚型样本的子集上训练分类器是否会生成排名更高的模型,或者专注于低轮廓分数样本的子集是否反而会带来更好的性能。
  2. 我们比较了相同大小的数据子集,这些子集要么富含高轮廓分数(我们称之为"典型集"),要么富含低轮廓分数(称为"非典型集"),或者是未对轮廓分数进行富集的完整数据集(图 S2E)。
  3. 令人惊讶的是,我们发现使用包含典型亚型核心样本和模糊分配样本的"完整集"构建模型,生成的模型与原始 METABRIC 亚型分配的一致性最高。
Para_05
  1. 我们研究了我们的模型在 AURORA 研究中一小批经过 FFPE 处理的原发性乳腺肿瘤样本上的表现是否良好,因为已知 FFPE 处理会影响基因表达数据的特性。
  2. 我们达到了与 METABRIC 相似的模型性能(图 S2F–S2G)。

More input data types or numerous features do not drive model performance

更多的输入数据类型或众多特征并不能提升模型性能

Para_01
  1. 为了评估是否可以使用单一数据类型高效地将样本分类为亚型,我们比较了使用所有平台作为数据输入时分类器的性能与仅使用每个单独平台时获得的性能(图 S3A 和 S3B)。
  2. 对于一半的癌症队列,使用单一数据类型作为输入构建的最佳模型达到了与使用所有数据类型联合构建的模型相同的性能(图 4A;用星号标出)。

图 4. 单一数据类型模型 vs. 多组学模型的性能比较

  • (A) 每种数据类型的最佳模型在各个队列中的表现,以彩色圆点表示,垂直条表示不同亚型之间的性能范围。星号表示单一数据类型模型的性能与多组学(multi-omics)最佳模型相当或更优的队列,后者由水平黑条表示。上方的注释条表示定义亚型时使用的数据类型,下方的注释条表示产生最佳模型的方法。
  • (B) 特征集大小对模型性能的影响。对于每个癌症队列,在不同方法和数据类型下,队列性能作为先验定义特征集大小的函数绘制曲线,并计算曲线下的面积(AUF1C)。左侧示例显示了 ESCC 队列中 CloudForest 多组学模型和单一数据类型模型的曲线。右侧热图展示了多组学模型和单一数据类型模型的 AUF1C 值。热图上方的注释条显示了亚型的原始定义方式。
  • 详见图 S3 和表 S4。
Para_01
  1. 五种选定的机器学习方法选择了非常不同的特征数量,其中一些方法(例如,CloudForest)受到先验约束,而其他方法(例如,JADBio)则是专门设计为选择少量特征。
  2. 为了估计每种方法在允许的特征数量下能实现的性能,我们确定了每种方法的性能,同时限制模型输出中的特征数量,并计算了个别肿瘤类型的曲线下面积(AUC)(图4B)。
  3. 我们将这一在不同特征集合大小范围内的综合度量称为"队列AUC"。
  4. 我们发现,这一调整了特征数量的指标在所分析的三种方法(AKLIMATE、CloudForest和JADBio)中得出了相似的结果,其中JADBio通常表现出略高于其他两种方法的队列AUC,反映出其对特征更高效的选择(图4B)。
  5. 这些曲线的形状表明,性能在大约10个分类器特征时迅速达到饱和,这表明对于大多数队列而言,使用极少数特征的简约分类器就足以重现亚型。

mRNA features predominate in top models for most cancer types

在大多数癌症类型中,mRNA特征在顶级模型中占主导地位

Para_01
  1. 使用 mRNA 特征输入的模型在由多组学定义亚型的癌症队列中表现良好(图 4A 和 4B)。
  2. 这表明通过多种数据类型或组织学定义的亚型可能代表了相对容易在转录组水平上捕捉到的不同生物学特性。
  3. 在 26 个癌症队列中,使用基因表达特征输入开发的分类器在 10 个队列中显著优于使用次优单一数据类型的模型(表 S4)。
  4. 对于少数几种肿瘤类型,其他数据类型(而非 mRNA)的特征具有显著更强的预测能力,而最佳分类器选择的数据类型通常与最初用于定义亚型的数据类型一致。
  5. 例如,对于 LGGGBM 和 GEA,DNA 甲基化输入特征生成的模型比使用基因表达特征的模型准确得多(图 4A 和 4B;表 S4)。
  6. SKCM 亚型最初是通过突变特征定义的,使用突变输入特征构建的模型显著优于使用 mRNA 特征的模型(图 4B;表 S4)。

Features shared across methods reflect known tumor biology

各方法共有的特征反映了已知的肿瘤生物学特性

Para_01
  1. 机器学习文献表明,对于高维数据集,同一方法找到可重复的特征集可能会很困难。
  2. 高度相关的特征(例如共调控基因)会加剧这一问题。
  3. 然而,当两种或多种机器学习方法选择相同的特征时,该特征很可能提供了特别强的信号,可以作为亚型分类的基础。
  4. 当我们比较每种方法的最佳模型所选择的特征重叠情况时,我们发现特征较少的模型与其他模型的特征重叠程度往往更高。
  5. 例如,我们注意到 SK Grid 为 BRCA 选择了最少的特征(n = 9,图 5A),而这九个特征中每一个都至少被另一个 BRCA 模型共享。
  6. 大多数特征是由单一方法选择的,其中一些独特特征可能代表了一个更大相关集合中的不同成员,这些成员捕捉了相同的生物学特性。
  7. 当选择的特征数量受到限制时,方法可能被迫在一组同样优秀的预测因子中进行任意选择。
  8. 一些较新的特征选择方法,部分已集成到 JADBio 中,试图识别多个等效且最优的预测特征子集以解决此问题。

图 5. 最优模型的特征集分析(A–D)分析四个癌症队列的最优模型特征集重叠情况。(A) BRCA(基于基因表达聚类的亚型划分),(B) COADREAD(基于DNA甲基化聚类的亚型划分),(C) SKCM(基于突变聚类的亚型划分),(D) LGGGBM(基于DNA甲基化聚类的亚型划分)。对于每个癌症队列,我们确定了每种方法的最佳模型。模型最多可选择100个特征,JADBio例外,其特征集最多仅限25个。选定特征集的重叠情况通过Upset图表示。柱状图显示了五种方法的最优模型之间的特征共享情况。每个癌症队列中至少被两个或更多模型选择的特征集被定义为该队列的“核心”特征集。热图展示了核心特征的层次聚类分析,基于所有样本的主要数据类型测量值。样本行按照亚型组织。方法注释面板显示最小-最大归一化的特征重要性值,其中1表示最重要特征(整个模型特征集均被归一化,而不受具体方法影响)。基因符号(热图列)采用红色标记,以指示其属于相应的注释列表:PAM50成员基因(BRCA),与DNA甲基化相关的文献支持基因(COADREAD和LGGGBM队列)。详见图S4。

Para_01
  1. 对于每个队列的亚型,我们将由两种或多种方法选择的特征定义为核心特征集。
  2. 我们发现核心集在生物学主题上有所富集。
  3. 例如,对于乳腺癌(BRCA)亚型,所有五种方法都选择了两个mRNA特征,即ESR1和FOXC1(图5A)。
  4. 这两个基因在乳腺发育和乳腺癌中都非常重要。
  5. ESR1编码雌激素受体α,这是乳腺癌分类、预后和预测治疗反应的重要生物标志物。
  6. FOXC1编码一种染色质重塑因子,该因子驱动细胞可塑性和部分上皮-间质转化,其表达与先锋转录因子FOXA1(由两种方法选择)强烈负相关,而FOXA1与ESR1相互作用以促进管腔细胞命运。
  7. 在乳腺癌核心集中的38个mRNA特征中,有17个基因包含在原始的PAM50乳腺癌面板中。
Para_02
  1. 对于结直肠腺癌(COADREAD)亚型,DNA甲基化特征在大多数机器学习方法中占据主导地位(图5B),这与DNA甲基化在原始亚型定义中的强影响一致。
  2. 许多DNA甲基化特征此前已被报道在具有CpG岛甲基化表型(CIMP-high)的结直肠腺癌中呈现高甲基化,或在先前研究中被鉴定为表观遗传沉默的基因(红色字体标注的基因)。
  3. 值得注意的是,负责大多数散发性微卫星不稳定性(MSI)的MLH1启动子甲基化被五种方法中的四种选中;同样地,SFRP5是一种Wnt信号的负调控因子,其启动子甲基化在CIMP-high结直肠癌中频繁沉默,也被四种方法选中。
Para_03
  1. 对于皮肤黑色素瘤(SKCM)亚型,核心特征集与原始亚型定义中使用的体细胞突变(NRAS、BRAF 和 NF1)相匹配(图5C)。
  2. 低级别胶质瘤/胶质母细胞瘤(LGGGBM)亚型最初是通过将病例分为IDH1/IDH2突变型和野生型,然后在每组内使用DNA甲基化谱和组织学进一步定义亚型而确定的,最终得到三个IDH1/IDH2突变型亚型和四个IDH1/IDH2野生型亚型。
  3. 有趣的是,对于LGGGBM,分类方法压倒性地选择了DNA甲基化特征(图5D),并未识别出IDH1/IDH2突变,这可能是因为IDH突变状态跨越了多个亚型。
  4. 所有癌症队列中顶级模型之间的特征重叠情况如图S4所示。

Classifier feature sets converge on common pathways

分类器特征集汇聚于共同的通路

Para_01
  1. 我们研究了由两个或多个模型共同选择的核心共享特征集是否代表富集生物过程的基因。
  2. 我们将COSMIC数据库中已知的与癌症相关的基因位置绘制在PathwayCommons45中发现的全面通路集合的二维投影图上,作为参考背景,以比较分类器所选择的特征(图6A,左面板)。
  3. 由多个分类器为BRCA、LGGGBM和COADREAD选择的基因特征在投影图中形成了簇,表明它们可能参与相同的通路(图6A,右三面板)。
  4. 从所有TCGA癌症队列亚型预测器中汇总的特征也显示出聚类的证据(图S5A,中间面板)。

图 6. 分类器特征的通路及生物学意义

  • (A) PathwayCommons V12的通路空间表示(灰色背景图)。左侧面板:来自COSMIC-CGC数据库(v95版,第一层级)的癌症相关基因在通路空间中的位置(红色圆圈)。标签代表图中排名前30的“枢纽”基因。右侧面板:BRCA、LGGGBM和COADREAD分类器特征列表在通路空间中的位置(彩色圆圈)。深色菱形表示在≥2种机器学习方法中出现的特征;文本标签表示在≥3种机器学习方法中出现的特征。
  • (B) 通路空间(A)中选定基因的密度。峰值代表基因的高密度聚集区域,并按密度从高到低编号。左侧面板:COSMIC-CGC基因的密集峰。右侧面板:单个队列的密集峰。白色轮廓表示左侧面板中COSMIC-CGC密集峰的位置。
  • (C) 分类器特征列表在通路空间中的距离。x轴显示基因列表之间的平均最短路径距离。上方面板:TCGA亚型分类器特征到COSMIC-CGC基因的距离。下方面板:一种方法的分类器特征列表到其他方法基因列表的距离,以z-score表示,并基于随机基因列表距离的分布进行归一化。
  • (D) BRCA、LGGGBM和COADREAD密集峰的富集分析。每个峰中的基因按信号-噪声比(SNR)指标进行排名。峰值下方的轨迹显示最优模型特征列表的分布。富集于峰值的特征列表以红色标示。详见图S5和表S6、S7。
Para_01
  1. 为了同时可视化和量化通路富集的程度,我们将基因及其通路关系显示为密度云图,使得功能相关的基因形成密集区域,我们称之为"峰"(图6B)。
  2. 我们按照从最密集到最不密集的顺序对这些峰进行编号,并通过基因集富集分析为主要的景观峰分配标签(表S6)。
  3. COSMIC峰(图6B,左侧面板,白色轮廓)揭示了与癌症生物学已知突变相关的区域。
  4. 我们将分类器模型中选择的基因特征映射到相同的二维通路投影上,并识别出代表BRCA、LGGGBM和COADREAD分类器特征的峰(图6B,右三面板)。
  5. 与COSMIC峰重合的选择特征峰表示从已知在癌症生物学中起作用的通路中选择的特征簇(表S7)。
Para_02
  1. 对所有TCGA癌症队列中由亚型分类器选择的特征集合进行分析,发现其与许多已知的COSMIC癌症驱动通路存在重叠(图S5B)。
  2. 例如,汇总的TCGA亚型分类器中最密集的峰(T1)富含TP53通路的基因,并且该峰与一个同样富含TP53的COSMIC峰(C7)强烈重叠(图S5B,右面板)。
  3. 另一方面,远离任何COSMIC峰的特征峰代表了从癌症生物学中作用尚不明确的通路中选择的基因,但这些基因仍然有助于区分TCGA癌症亚型。
  4. 例如,T4峰富含生物氧化相关基因,而T15峰富含细胞器组装相关基因,这两者在COSMIC中均未体现(图S5B)。
Para_03
  1. 对于 BRCA,次密集的峰值(BR2,图6B)包含来自雌激素受体(ER)信号通路的基因,该通路与 COSMIC ER 信号峰值(C2)重叠,代表了一条众所周知的用于区分腔面型和基底型乳腺癌的通路。
  2. 相比之下,BRCA 亚型的主要峰值(BR1)涉及 Rho/CDC42,该通路与任何主要的 COSMIC 聚类均无重叠,但仍然代表了一组区分侵袭性基底样肿瘤与腔面型肿瘤的细胞增殖特征。
Para_04
  1. 在其他肿瘤类型中也存在与细胞周期相关的峰值,这些峰值要么与COSMIC数据库中的不同(LG8和LG12),要么接近COSMIC峰值但仍然不重叠(CR1)。
  2. LGGGBM的主要峰值(LG1和LG2)在TP53相关信号通路中显示出明显的富集,并且与COSMIC的TP53峰值(C7)重叠,这说明了TP53在LGGGBM肿瘤中的差异性参与,其中更类似于GBM的肿瘤比其他LGG亚型显示出更低频率的TP53改变。
  3. 区分COADREAD亚型的特征代表了涉及Wnt信号传导的通路(CR4,图6B),这部分与COSMIC的Wnt信号传导C4和C19峰值部分重叠。
  4. Wnt信号传导是大多数结直肠肿瘤的关键驱动因素,但其实现机制在COADREAD亚型之间有所不同。
  5. 例如,CIMP-high肿瘤显示APC突变的频率降低,但依赖于SFRP基因的表观遗传沉默,这些基因编码Wnt信号传导的负调控因子。
Para_05
  1. 我们假设,如果不同模型选择的基因特征反映了相关的生物学特性,那么它们在网络拓扑空间中的位置将比随机情况下更接近彼此。
  2. 使用相同的 PathwayCommons 数据集,我们测量了每种方法的基因特征列表与其最近邻的其他方法的基因特征列表之间的通路距离(图 6C)。
  3. 为了控制那些会导致零距离的重叠基因,我们还比较了第二近邻之间的距离(图 S5C)。
  4. 我们发现,大多数方法为 BRCA、LGGGBM 和 COADREAD 模型选择的基因特征比随机情况下更接近彼此(图 6C)。
  5. 综合这些结果表明,用于亚型预测的等效特征可能源于生物通路空间中存在的基因共成员结构。
Para_06
  1. 每个基因的亚型特异性表达信号可以用缩放的信噪比(SNR)表示。
  2. 按照递减的 SNR 对每个峰中的基因进行排序会产生一个"帆"形(见图 6D)。
  3. 常用的核心特征倾向于聚集在帆的左侧,这表明分类器特征具有高信噪比,代表强大的个体预测因子。
  4. 一些信噪比较低的特征也被选中,这些特征可能在与其他特征结合使用时提供正交分类信息。
  5. 我们分析了通路标志基因集在 BRCA、LGGGBM 和 COADREAD 亚型分类器所选特征列表中的富集情况,再次注意到所选核心特征向帆的左侧聚类,表明具有高信噪比的特征(图 S5D)。
  6. 综合这些结果表明,多种独立的机器学习亚型分类方法倾向于选择具有高信噪比的特征,并且等效的预测特征往往在生物通路空间中彼此靠近。

Determinants of classification performance identified by meta-analysis

通过元分析确定的分类性能的影响因素

Para_01
  1. 我们进行了一项全面的荟萃分析,以确定数据和机器学习分类器的具体特征,这些特征会导致癌症亚型分类性能的优劣。
  2. 我们收集了55个元特征(表S8),用于描述26种肿瘤类型的數據及其亚型任务。
  3. 我们将表示作为训练输入提供的样本或特征特性的元特征,与在分类器训练过程中识别出的元特征区分开来。
Para_02
  1. 我们通过比较55个元特征之间的关系,计算它们在26种肿瘤类型中的相关性,并根据相关系数对元特征进行聚类(图S6A和S6B),研究了元特征之间的相似性和与亚型性能的关系。
  2. 我们确定了七个元特征簇,这些簇之间相互关联,其中三个对分类器性能有显著影响(图7A和S6;表S8)。
  3. 我们根据元特征组成为每个元特征组(MFGs)分配了描述性标签。

图 7. 影响亚型分类准确性的因素

  • (A) 26个TCGA队列中元特征(meta-features)与亚型分类器性能的相关性分析。元特征通过层次聚类分为七个元特征组(MFG1-7)。两条水平虚线表示显著性阈值(FDR校正的Spearman相关性p值≤0.05)。PCs,主成分(principal components)。
  • (B) 26个TCGA队列的学习曲线。队列性能作为样本量的函数表示,每个队列在每个样本量增量下随机抽样100次,并计算预测准确性的平均值。
  • (C) 预测与实际队列性能的比较,针对至少包含250个肿瘤样本的15个队列。样本量为250时的预测性能基于幂律曲线拟合估算,该曲线拟合范围为每个队列样本量35至70。
  • (D) 幂律准确性预测的代表性扩展示例,针对较小的TCGA队列(肾上腺皮质癌,共76个样本)。详见图S6和表S8。
Para_02
  1. 最大的元特征组是MFG1(子类型凝聚性),它包含反映用于分类的数据中子类型类分离的特征,例如所有平台的轮廓分数。
  2. MFG2具有与总体加权F1分数高度正相关的独特元特征,包括一个表示属于最稀有类别样本百分比的元特征,以及另一个反映输入中使用的连续特征百分比的元特征。
Para_03
  1. 观察到与总体加权 F1 分数最强的负相关的是 MFG7(队列和训练模型复杂性),其中包括诸如捕获了 70% 基因表达方差的主成分数量、亚型类别变量的熵(在这里用作亚型大小均匀性的度量)、最稀有亚型类别的样本数量、模型选择的特征数量以及亚型类别的总数等元特征。
Para_04
  1. 最后,四个元特征组缺乏与总体加权 F1 分数具有强相关性(或负相关性)的元特征;这些组中的特征包括输入特征的数量、基因表达空间中特征的方差以及每种数据类型输入特征数量的平衡。

How many samples are needed to train classifiers?

训练分类器需要多少样本?

Para_01
  1. 我们利用了我们的大规模训练模型资源,这些模型针对26种不同癌症队列进行了训练,队列的规模和复杂性各异,用于估计在给定肿瘤类型中准确分类亚型所需的训练样本数量。
  2. 预测性能随训练集大小的变化可能受到所使用的分类器模型、作为特征提供的数据集以及分类标签准确性的影响。
  3. 这一问题已在统计学和机器学习领域得到关注,并且最近在基因组学背景下也有所研究。
  4. 我们通过拟合幂律函数(即"学习曲线")来推断模型在更大样本量下的表现行为。
  5. 我们对原始输入数据进行子采样,并重复训练分类器,以确定使用较少样本作为输入时的分类性能。
  6. 我们发现,在所有癌症队列中都表现出相同的总体趋势(图7B)。
Para_02
  1. 在队列层面,提供大约 150 个样本进行训练似乎足以接近模型的最大性能。
  2. 对于大多数癌症而言,比这更大的队列并未显著提高亚型分类器的准确性。
  3. 例如,如果仅使用 50 个样本获得的整体加权 F1 分数为 0.70,则极有可能收集两到三倍的样本也无法使整体加权 F1 分数超过 0.80,只会略微提升性能。
  4. 因此,在这些情况下,应考虑不同数据类型(例如蛋白质组学)或不同的亚型定义,而不是简单地增加相同数据类型的更多样本。
Para_03
  1. 令人惊讶的是,所有队列的性能与样本量的曲线大致呈现出相同的形状(图7B),这表明可以使用非线性回归拟合这些曲线以预测未来的亚型分类性能。
  2. 我们考虑了87种不同的可能拟合函数,并发现Burr XII型分布能够最接近地拟合图7B中具有至少250个样本的15个队列的曲线(图7C)。
  3. 对于一个逐步累积样本的癌症队列,我们发现70个样本就足以外推一条可靠的曲线并估算分类性能。
  4. 为了说明如何外推性能,我们将该函数应用于肾上腺皮质癌(ACC)队列,该队列仅有76个样本(图7D)。
  5. 我们估计,将ACC的样本量增加一倍,其性能将从当前的0.88范围(类似于LGGGBM的性能)提高到0.92(类似于BRCA)。

Discussion

Para_01
  1. 所有主要癌症类型的分子亚型的发现是 TCGA 最具影响力的成果之一,对 TCGA 标志性出版物的高影响力做出了贡献。
  2. 然而,用于识别这些亚型的复杂方法和高维数据产生了特定于 TCGA 数据集的结果,并没有产生可以应用于临床试验或其他研究中的其他样本的分类器。
  3. 为了扩展 TCGA 亚型的实用性,我们使用机器学习方法训练了仅需要少量基因中心特征的亚型分类器。
  4. 机器学习算法已被证明在使用大规模和异构数据集进行分类问题时非常有效,包括预测癌症类型和临床结果,以及利用基因组、表观基因组或转录组数据识别肿瘤组织来源。
  5. 我们使用了五种不同的机器学习方法,生成了 412,585 个不同的亚型分类模型,涵盖了五种不同的数据类型,并对 8,791 个 TCGA 样本进行了 100 次分层的 5 折训练-测试划分,涉及 26 个不同的癌症队列和 106 种亚型。
Para_02
  1. 我们的分析提供了重要的资源、有用的工具和对生物学的见解。
  2. 首先,我们创建了一个在线资源,包含737个公开可用的、容器化的预测模型,这些模型具有顶级性能,代表了每个26种癌症队列、数据类型和训练算法的最佳模型。
  3. 我们为每个模型提供了一个易于运行的Docker容器,以及它们所选特征、平均总体加权F1分数和能够为新样本提供95%预测准确性的最低预测分数(https://github.com/NCICCGPO/gdan-tmp-models)。
  4. 这些模型为临床检测开发奠定了基础。
  5. 其次,我们基于TCGA的五种单独数据类型训练了分类器。
  6. 这些单一平台预测器扩展了TCGA亚型分类在使用不同数据类型的研究中的应用,而这些数据类型不同于最初用于TCGA亚型发现的数据类型。
  7. 第三,我们展示了使用不同分子检测平台或包含福尔马林固定石蜡包埋(FFPE)样本的外部癌症数据集可以轻松转换,以利用我们的分类模型实现准确的亚型预测。
  8. 第四,我们在不同癌症类型中洞察了不同数据平台的相对优势,无论是最初的亚型发现还是前瞻性亚型预测方面均有所体现。
  9. 第五,即使不同的模型和数据类型没有选择完全相同的特征,它们往往会选择来自相似或相关通路的基因,这突显了不同模型所选择的信息特征的冗余性,并揭示了分子亚型之间的生物学差异。
  10. 第六,我们证明了大约70个样本通常足以估计一个正在累积的癌症队列的最终分类准确性。
Para_03
  1. 对于大多数研究应用,即使只有单一数据类型可用,在经过适当的数据转换以匹配TCGA队列的范围和分布后,分类器模型可以直接应用于其他研究的样本。
  2. 我们提供了一个简单的流程图,以指导用户选择最适合的模型来对新样本进行分类(图8)。
  3. 所得到的特征集和训练好的模型也为临床检测开发提供了宝贵的起点。
  4. 这些临床检测可能依赖于与TCGA不同的技术平台,例如实时PCR或基于微球的杂交检测,这将需要进一步调整特征或模型权重。

图 8. 新样本最佳模型选择指南

  • 决策图用于指导数据和模型的选择,以便将TCGA亚型标签分配给非TCGA患者样本。如果新样本具有基因组数据(决策树上部分),则可根据现有数据类型从表S5中选择最佳模型。在决策树下部分,若无特定数据类型,则可参考表S5中总体表现最佳的模型,该模型将决定所需的数据类型。
Para_03
  1. 我们预计这些肿瘤亚型分类器将在前瞻性临床癌症研究和实践中发挥重要作用,有助于实现将基因组学研究成果转化为临床应用的尚未兑现的承诺。
  2. 通过提供一组易于实际应用的分类器,我们的工作为TCGA癌症亚型的生物学特性在研究和临床应用中的探索铺平了道路。
Para_04
  1. 癌症亚型的生物差异通常最好通过其 mRNA 特征来定义。
  2. 无论训练输入是否包含所有数据类型或仅包含 mRNA 特征,最准确的模型往往主要由 mRNA 特征主导。
  3. 这可能部分反映了 mRNA 特征的基因中心特性。
  4. 拷贝数、DNA 甲基化和 miRNA 特征与单个基因功能的联系更为间接。
Para_05
  1. 对于基于 mRNA 的预测器,在食管鳞状细胞癌(ESCC)、间皮瘤(MESO)和肾腺癌(ACC)中,JADBio 实现了比包含随机森林方法(CloudForest 和 SK Grid)更高的分类准确性。
  2. 这表明,非冗余特征选择(而不仅仅是根据重要性对特征进行排序)可以通过更简约的特征集提高分类性能。
  3. 例如,当一组共线且相关的特征为分类器提供相同的预测成分时,这可能会迫使模型在这些特征之间分配重要性。
  4. 另一方面,选择提供一些额外正交信息的特征可能会从一个强相关组中仅选择一个特征,并将其他特征过滤掉作为冗余,从而生成更准确且特征集更简约的模型。
Para_06
  1. 我们预期基于聚类的亚型的稳健性会影响我们训练模型的能力。
  2. 我们使用METABRIC乳腺癌数据集对此进行了评估。
  3. 我们发现轮廓分数与最佳亚型分类和次佳亚型分类之间的置信度差异相关。
  4. 基于这一发现,有人可能假设用聚类效果较差的样本训练模型会增加分类误差。
  5. 我们研究了在训练中使用等量样本子集的影响,这些子集富含良好聚类的、具有亚型原型特征的TCGA样本,或富含聚类效果较差的样本。
  6. 我们发现,无论是富集原型样本还是富集聚类效果较差的样本,都没有提高分类性能。
  7. 使用代表完整范围轮廓分数的相同数量样本进行训练似乎能产生性能最佳的分类器。
  8. 从这一分析得出的重要结论是,为了最大化样本量,即使数据集中包含一些模糊分配到亚型的样本,也应使用完整且多样化的样本集进行训练。

Limitations of the study

研究的局限性

Para_07
  1. 即使是最精确的分类器,其性能也会受到原始亚型定义有效性的影响。
  2. 在训练我们的分类器时,我们假设特定癌症队列的所有主要亚型都包含在TCGA数据集中。
  3. 实际上,在非TCGA数据集中可能会遇到新的、未记录的亚型。
  4. 因此,在没有现有亚型具有足够强的分类预测分数的情况下,为新样本分配一个"未知"标签可能是有益的。
Para_08
  1. 像染色体不稳定性以及微卫星不稳定性这样的全基因组特征,不能很好地被我们用于训练分类器的以基因为中心的特征集所捕捉。
  2. 这可能解释了我们在处理如胃食管腺癌和结直肠癌等以全基因组扰动为特征的癌症时,所有分类方法的表现较差的原因。
Para_09
  1. 我们没有将各种机器学习方法的预测结果整合成一种可能实现更高分类准确率的"集成"方法。

  2. 将单个方法的预测结果结合起来会增加分配亚型所需的特征数量。

  3. 为了评估简约性和准确性之间的权衡,我们评估了一种简单的集成方法,该方法以所有方法的类别预测分数作为输入,并通过平均这些分数来计算四种癌症类型的亚型分配。

  4. 我们发现,在这四个队列中的两个中,集成预测的表现优于最佳的单一方法,尽管优势微乎其微。

  5. 因此,如果能够在临床应用中放宽使用小特征集的要求,那么对于某些癌症队列来说,使用模型集成可能会改进亚型预测。

  6. 近期在大型语言模型(LLMs)中流行的深度学习技术的爆发,为改进生物分类任务提供了可能性。

  7. 例如,一种最近发表的方法称为 Geneformer,它使用在数百万单细胞转录组上预训练的注意力感知变压器来改进多个分子生物学预测任务。

  8. 基于变压器模型的共同特点是,随着更多数据添加到训练集中,其性能可以持续提高。

  9. 现代 LLMs 拥有数十亿个参数,可用于建模复杂数据集中的精细关系,但通常需要超过一个拍字节的数据进行训练。

  10. 目前,我们的包含 8,791 个样本的数据集无法提供足够的能力以使那些更复杂的机器学习方法受益,因此我们寻求简约的特征集,而这并不适合 LLM。

  11. 尽管如此,我们的结果可能为大型模型的微调方法提供参考。

Resource availability

Lead contact

主要联系人

Para_01
  1. 更多信息和资源请求应联系主要联络人 Peter W. Laird ([email protected]),他将负责处理相关事宜。

Materials availability

材料可用性

Para_01
  1. 本研究未产生新的独特试剂。

Data and code availability

数据和代码的可用性

  • 基因表达、微小RNA、DNA甲基化、体细胞突变和拷贝数数据已提交至国家癌症研究所基因组数据公共平台(GDC)出版页面,并自出版之日起公开发布(详见:https://gdc.cancer.gov/about-data/publications/CCG-TMP-2022)。文件列于关键资源表中,可在GDC的论文出版页面上找到。本文报告的所有其他数据将根据要求由主要联系人共享。

  • 所有原始代码和容器化的预训练机器学习模型均已存放在 GitHub 上,并于发表之日起公开可用(请参见 https://github.com/NCICCGPO/gdan-tmp-models)。此外,还包括了在新数据集上应用这些模型的公开教程。存储库列在关键资源表中。本文报告的所有其他原始代码将在请求时由主要联系人分享。

  • 重新分析本文报告的数据所需的所有其他信息,可应要求从主要联系人处获取。

Consortia

Para_01
  1. Kyle Ellrott、Rehan Akbani、Victor H. Apolonio、Rameen Beroukhim、Bradley M. Broom、Christopher C Benz、Samantha J. Caesar-Johnson、Mauro A. A. Castro、Vinicius S. Chagas、Paulos Charonyktakis、Kami E. Chiotti、John A. Demchok、Esther Drill、Ina Felau、Martin L. Ferguson、Verena Friedl、Galen F Gao、Gad Getz、Jasleen K. Grewal、D. Neil Hayes、Toshinori Hinoue、Katherine A. Hoadley、Stephanie H. Hoyt、Steven J.M. Jones、Zhenlin Ju、Brian J Karlberg、Anab Kemal、Taek-Kyun Kim、Theo A. Knijnenburg、Vincenzo Lagani、Avantika Lal、Alexander J. Lazar、Jordan A. Lee、Xavier Loinaz、Eve Lowenstein、Akinyemi I. Ojesina、Daniele Ramazzotti、Lewis R. Roberts、A. Gordon Robertson、Whijae Roh、Andre Schultz、Hui Shen、Ronglai Shen、Ilya Shmulevich、Paul T. Spellman、Chip Stewart、Adam Struck、Joshua M. Stuart、Roy Tarnuzzer、Bahar Tercan、Ioannis Tsamardinos、Vladislav Uzunangelov、Chen Wang、Peggy I. Wang、Zhining Wang、Lindsay Westlake、Christopher K. Wong、Liming Yang、Christina Yau、Jean C. Zenklusen、Andrew D. Cherniack 和 Peter W. Laird。

Acknowledgments

Para_01
  1. 作者们感谢国家癌症研究所的支持。这项工作通过 NIH/NCI 拨款 U24CA264029 资助给 A.D.C.,U24CA264023 资助给 P.W.L.,U24CA264007 资助给 K.E.,U24CA264021 资助给 K.A.H.,以及 U24CA264009 资助给 J.M.S. 和 C.C.B. 完成。
  2. 我们还要感谢 Ana Robles 博士提供的有益评论、修改和建议。

Author contributions

Para_01
  1. 概念化:K.E.、I.S.、T.A.K.、C.C.B.、J.M.S.、J.C.Z.、A.D.C. 和 P.W.L.; 数据管理:K.E.、C.K.W.、M.A.A.C.、J.A.L.、B.J.K.、V.F.、T.H.、V.U.、L.W. 和 T.A.K.; 形式分析:K.E.、C.K.W.、C.Y.、M.A.A.C.、J.A.L.、B.J.K.、J.K.G.、V.L.、V.F.、V.U.、I.T.、T.A.K. 和 J.M.S.; 资金获取:K.E.、I.S.、K.A.H.、C.C.B.、J.M.S.、J.C.Z.、A.D.C. 和 P.W.L.; 研究调查:K.E.、C.K.W.、C.Y.、M.A.A.C.、J.A.L.、B.J.K.、J.K.G.、V.L.、B.T.、V.F.、V.U. 和 T.A.K.; 方法论:K.E.、C.K.W.、M.A.A.C.、J.A.L.、J.K.G.、V.L.、B.T.、V.U.、I.T.、T.A.K.、J.M.S.、A.D.C. 和 P.W.L.; 项目管理:K.E.、I.F.、P.I.W.、A.K.、S.J.C.-J.、J.C.Z.、I.S.、T.A.K.、C.C.B.、J.M.S.、A.D.C. 和 P.W.L.; 软件:K.E.、C.K.W.、C.Y.、M.A.A.C.、J.A.L.、B.J.K.、J.K.G.、V.L.、B.T.、V.F.、V.U.、X.L.、T.A.K. 和 J.M.S.; 监督:K.E.、A.K.、I.F.、S.J.C.-J.、J.C.Z.、I.T.、K.A.H.、T.A.K.、C.C.B.、J.M.S.、A.D.C. 和 P.W.L.; 验证:K.E.、C.K.W.、M.A.A.C.、J.A.L.、B.J.K.、J.K.G.、B.T.、V.U.、I.S.、T.A.K. 和 J.M.S.; 可视化:K.E.、C.K.W.、C.Y.、M.A.A.C.、J.A.L.、B.J.K.、J.K.G.、V.F.、V.U.、X.L.、A.G.R.、T.A.K.、C.C.B.、J.M.S.、A.D.C. 和 P.W.L.; 撰写 - 初稿:K.E.、C.K.W.、C.Y.、M.A.A.C.、J.A.L.、J.K.G.、V.L.、T.A.K.、C.C.B.、J.M.S.、A.D.C. 和 P.W.L.; 撰写 - 审核与编辑:K.E.、C.K.W.、C.Y.、M.A.A.C.、J.A.L.、B.J.K.、J.K.G.、V.L.、B.T.、V.F.、P.I.W.、A.J.L.、I.T.、K.A.H.、A.G.R.、T.A.K.、C.C.B.、J.M.S.、J.C.Z.、A.D.C. 和 P.W.L.

Declaration of interests

Para_01
  1. A.D.C. 从拜耳公司获得研究支持,并为 KaryoVerse 提供咨询服务。
  2. W.R. 目前在辉瑞工作。
  3. I.T., P.C., 和 V.L. 曾直接或间接与 JADBio—Gnosis DA, S.A. 有关联,该公司提供商业化的 JADBio 服务。
  4. V.F. 是 Bluestar Genomics Inc. 的员工并持有股票期权。
  5. L.R.R. 从拜耳、波士顿科学、Exact Sciences、富士胶片医疗科学、吉利德科学、GlycoTest、RedHill 和 Target PharmaSolutions 获得资助,并在阿斯利康、拜耳、卫材、Exact Sciences、吉利德科学、Global Life Science Consulting、GRAIL LLC、Hepion、MedEd Design、Medscape、诺华风险基金、QED、RedHill 和 The Lynx Group 担任咨询/顾问角色。
  6. A.J.L. 与 AbbVie、阿斯利康、拜耳、Bio-AI Health、百时美施贵宝、Caris、Deciphera、Foghorn Therapeutics、GRAIL、葛兰素史克、因美纳、Invitae/Archer DX、Iterion Therapeutics、默克、诺华、Nucleai、Paige、辉瑞、再生元、罗氏/基因泰克、SpringWorks、Tempus 和 ThermoFisher 有咨询合作关系。
  7. W.R. 和 G.G. 是与肺腺癌表达亚型相关的专利申请的共同发明人(美国临时专利申请号:63/293,349)。
  8. P.W.L. 在 FOXO Technologies, Inc. 和 Tagomics, LLC 的科学顾问委员会任职。
  9. J.M.S. 是 Nantomics Inc. 的股东。
  10. V.U. 是 Bristol Myers Squibb 的员工并持有股票。

STAR★Methods

Key resources table

关键资源表

Experimental model and study participant details

实验模型和研究参与者详情

Para_01
  1. 在这项研究中,由基因组数据分析网络(GDAN)的肿瘤分子病理学(TMP)分析工作组开展,我们在其当地机构审查委员会的知情同意下,使用了癌症基因组图谱(TCGA)研究网络提供的肿瘤及其匹配的正常样本。

Method details

方法详情

Cohort and cancer subtype definition

队列和癌症亚型定义

Para_01
  1. 对于大多数队列,我们采用了TCGA癌症里程碑研究报道的癌症队列缩写和亚型分类(表S1;图1)。
  2. 这些研究中用于亚型发现的方法包括无监督聚类、专家定义的决策树,或者两者的结合。
  3. 基于聚类的亚型是从单个数据类型、合并的单平台聚类分配或多平台整合聚类(iCluster)推断得出的。
  4. 决策树分组基于特定的体细胞改变(例如,突变或融合)或其他肿瘤特征(例如,微卫星不稳定性或病毒感染)。
Para_02
  1. 对于胶质瘤,IDH1/2突变状态已被证明是比肿瘤级别更好的分子相似性指标,因此我们将胶质母细胞瘤和低级别胶质瘤合并为LGGGBM。
Para_03
  1. 在TCGA肝细胞癌和胆管癌队列中,一些肿瘤被发现从分子上聚类为另一种肿瘤类型。
  2. 鉴于这些癌症类型中大型肿瘤的精确解剖边界可能模糊不清,我们将这两个队列合并为一个队列:LIHCCHOL。
Para_04
  1. 胃肠道肿瘤被重新分为具有相同或不同分子特征的肿瘤类型。
  2. 对于食管癌(ESCA),我们将分子上不同的鳞状肿瘤作为食管鳞状细胞癌(ESCC)队列,其余的食管腺癌(EAC)与所有胃腺癌(STAD)肿瘤合并,形成胃食管腺癌(GEA)队列,这与癌症基因组图谱(TCGA)对胃肠道癌症亚型关系的解释一致。
  3. 结肠癌(COAD)和直肠癌(READ)肿瘤被合并为一个结直肠腺癌(COADREAD)组。
Para_05
  1. 我们无法确定TCGA肾透明细胞(KIRC)和嗜铬细胞(KICH)肿瘤的分子亚型,因此将它们合并为一个单一的KIRCKICH队列,以构建一个两类组织学亚型分类器。
Para_06
  1. 对于四个队列(HNSC、ESCC、UCEC、GEA),亚型是基于聚类分析和决策树分析的结合确定的。
  2. 我们使用了两种肿瘤类型(TGCT、SARC)的组织学分类,因为 TGCT 的分子分类与其组织学分类没有显著差异,而 SARC 没有任何分子亚型能够充分涵盖所有组织学亚型。
Para_07
  1. 在分类器训练之前,我们去除了交叉验证中样本数量过少的亚型(表S1)。
  2. 对于乳腺癌队列,我们排除了正常样亚型,因为它未包含在圣加仑内在亚型指南中,并且也不在PROSIGNA临床检测范围内。
  3. 此外,在一项对肿瘤细胞比例超过90%的微解剖乳腺癌研究中,没有样本被归类为正常样亚型。
Para_08
  1. 除了上述提到的例外情况外,对于每个癌症队列,我们从之前的 TCGA 发表的文章中获取了分子亚型,这些亚型是通过不同的方法和数据类型定义的(详见表 S1 汇总)。
  2. 对于肺腺癌(LUAD),我们采用了最近的分子亚型定义。
  3. 对于膀胱癌(BLCA),我们使用了共识性的 MIBC 亚型。
  4. 用于亚型划分的方法包括无监督聚类、专家定义的决策树,或是两者的结合。
  5. 在适当的情况下,基于聚类的亚型是从单一平台(基因表达、突变或 DNA 甲基化)推断出来的;其他亚型则基于多平台整合聚类(iCluster)或合并单一平台聚类分配的方法(如 Clustering of Cluster Assignments, COCA,或 Similarity Network Fusion, SNF)。
  6. 决策树分组基于特定的体细胞改变(例如,突变或融合)或其他肿瘤特征(例如,微卫星不稳定性或病毒感染)。
  7. 对于四个队列(头颈部鳞状细胞癌 HNSC、食管鳞状细胞癌 ESCC、子宫内膜癌 UCEC 和胃食管腺癌 GEA),亚型是基于聚类分析和决策树分析的组合确定的。
Para_09
  1. 总体而言,我们使用了来自26种癌症队列的8,791个TCGA样本的数据。
  2. 每个TCGA样本都包含五种基因组数据类型。
  3. 每个样本都被分配到106个分子亚型之一。
  4. 在数据过滤之前,亚型按照样本数量的降序在癌症队列内进行排序和编号。
  5. 队列和亚型标签被视为我们分类模型开发的‘真实标签’。

Classifier model development

分类器模型开发

Para_01
  1. 根据每个队列中的分子亚型,我们生成了亚型平衡的重复交叉验证折叠,并将其设置为训练集和测试集。
  2. 为了开发能够将新样本分配到先前定义亚型的分类器模型,我们测试了五种机器学习方法:AKLIMATE、CloudForest、SK Grid、JADBio 和 subSCOPE(图2)。
  3. 我们注意到,SK Grid 和 JADBio 分别采用了一系列嵌入式方法(见 STAR 方法)。
  4. 因此,我们在研究中实际测试的方法数量远不止五种。
  5. 对于 AKLIMATE、CloudForest、SK Grid 和 JADBio,每个队列是分别训练的。
  6. 相比之下,我们同时在所有癌症队列的亚型数据上训练了 subSCOPE 的神经网络(NNs)。
  7. 对于所有队列,我们从 PanCancer Atlas 资源(gdc.cancer.gov/node/977)中收集了多平台基因组数据(见 STAR 方法)。
  8. 我们使用相同的交叉验证折叠训练和测试所有分类器,并将结果汇总到一个单一矩阵中。
  9. 我们从测试交叉验证折叠中生成性能统计信息,并保留分类器选择的特征以进行进一步分析。

Dataset creation

数据集创建

Para_01
  1. 本研究的数据是通过汇总美国国家癌症研究所基因组数据公共系统中的分子特征创建的。
  2. 在该系统中,所有结果按照样本和数据类型分开存储。
  3. 我们通过创建文件将所有样本和数据类型整合为单一矩阵来组织数据,每个矩阵对应研究中包含的26种肿瘤类型队列之一(图2A)。
  4. 由于机器学习方法可能会生成复杂但难以解释的模型,我们采用了一种以基因为中心的方法,强调选择较少的特征,同时保留预测性能,以便于分析所选特征的生物学意义。
  5. 我们将每个队列的样本分为训练集和测试集,并使用按保留的亚型标签分层的5折交叉验证。
  6. 对于每种肿瘤类型,我们生成了100次重复,即样本在5折中划分的100种方式。
  7. 每次交叉验证列的标题格式为Rx:Fy,其中x表示重复次数(从1到100),y表示折叠数(从1到5)。
  8. 在此列中,值为0表示训练样本,值为1表示测试样本。

Constructing single-feature matrices

构建单特征矩阵

mRNA gene expression feature matrix
Para_01
  1. 批量校正的mRNA矩阵数据来自TCGA泛癌图谱项目。
  2. 批量校正调整了测序仪类型、测序中心(北卡罗来纳大学[UNC]和不列颠哥伦比亚省癌症机构[BCCA])以及在前列腺腺癌(PRAD)中观察到的板效应。
  3. 简而言之,基因使用一种名为EB++的新算法进行了调整,这是经验贝叶斯/ComBat算法的一个变体。
  4. 主要为零读数或存在残余批次效应(约占10%的基因)的基因从调整后的样本中移除,并用NA替代。
  5. 首先,将PRAD批次312和320调整至其余PRAD批次,然后将UNC Illumina GAII测序的样本(UCEC、COAD、READ)调整至UNC Illumina HiSeq数据。
  6. BCCA Illumina GAII测序的样本(LAML、STAD、ESCA)也调整至Illumina HiSeq生成的数据。
  7. 大多数胶质母细胞瘤(GBM)基因表达数据是通过较旧的微阵列技术生成的,有时会产生介于0到1之间的值。
  8. 这些值的log2转换和进一步的批次效应调整导致低级别胶质瘤-胶质母细胞瘤(LGGGBM)表达数据中出现一些负数。
miRNA expression feature matrix
Para_01
  1. 为了在 TCGA 项目中生成约 11,000 个样本的 miRNA 测序数据,我们使用了两种文库构建协议:多聚腺苷酸选择(‘MultiMACS’)和总 RNA(‘Direct’),并且确保每个项目仅使用一种协议(参见 https://gdc.cancer.gov/node/977, PanCanAtlas_miRNA_sample_information_list.txt)。
  2. 最初我们使用 Illumina GAII 测序仪,随后改用 HiSeq 测序仪。
  3. 我们将比对后的 miRNA 读段注释为 miRBase v16 版本,该版本包含 1212 条成熟链。
Para_02
  1. 批量校正 miRNAseq 成熟链 RPM 数据涉及文库制备协议和测序仪。
  2. 我们对743个表达的成熟链(https://gdc.cancer.gov/node/977)进行了归一化丰度(即每百万读数,RPM)数据的批量校正。
  3. 这些包括约650个表达足够高的成熟链,这些链在批量校正中表现良好;我们去除了丰度较低的成熟链,因为这些链不太可能具有生物学意义。
  4. 然后,我们为大约100个已知在某些癌症中重要的成熟链添加了未进行批量校正的RPM谱,这些链是在批量校正后被移除的。
  5. 对于三个分类器项目,我们将两个TCGA队列合并:KIRCKICH、LIHCCHOL 和 LGGGBM。
  6. 由于没有可用的miRNA数据用于GBM,因此我们在处理合并的LGGGBM队列时排除了miRNA。
  7. 对于合并的LIHCCHOL和KIRCKICH队列,尽管进行了批量校正,但由于不同的文库制备协议,miRNA-seq数据中可能存在残留的批次效应,因此我们在生成LIHCCHOL和KIRCKICH癌症队列的分类器时未使用任何miRNA数据。
DNA methylation feature matrix
Para_01
  1. 我们使用了为TCGA泛癌图谱分析项目生成的预处理DNA甲基化β值矩阵,数据来源于PanCanAtlas出版物页面(https://gdc.cancer.gov/about-data/publications/pancanatlas)。
  2. 包括BRCA、COADREAD、GEA、KIRCKICH、KIRP、LGGGBM、LUAD、LUSC、OV和UCEC在内的十种癌症类型的数据是通过两代Infinium芯片生成的,即较旧的HumanMethylation27(HM27)和较新的HumanMethylation450(HM450:396,065个特征)。
  3. 因此,我们使用了包含22,601个特征的合并HM27-HM450数据矩阵,这些特征在HM27和HM450平台之间共享。
  4. 对于其他十六种癌症类型,我们分析了包含396,065个特征的HM450数据矩阵。
Para_02
  1. 对于DNA高甲基化特征,我们选择了获得癌症相关高甲基化的CpG位点。
  2. 我们首先检查了组织学正常组织的DNA甲基化谱,以识别缺乏组织特异性DNA甲基化的特征。
  3. 对于合并的HM27-HM450数据,我们使用了来自22种不同组织类型的1,064个正常组织样本,包括膀胱癌(n = 19)、乳腺癌(n = 112)、宫颈癌(n = 3)、结直肠癌(n = 81)、食管鳞状细胞癌(n = 2)、胃食管腺癌(n = 38)、胶质母细胞瘤/少突胶质细胞瘤(n = 2)、头颈部鳞状细胞癌(n = 50)、肾透明细胞癌/肾乳头状细胞癌(n = 344)、肾嫌色细胞癌(n = 48)、肝细胞癌/胆管癌(n = 59)、肺腺癌(n = 52)、肺鳞状细胞癌(n = 67)、卵巢癌(n = 12)、胰腺癌(n = 10)、副神经节瘤/嗜铬细胞瘤(n = 3)、前列腺癌(n = 50)、软组织肉瘤(n = 4)、黑色素瘤(n = 2)、甲状腺癌(n = 56)、胸腺瘤(n = 2)和子宫内膜癌(n = 46)。
  4. HM450数据包含来自21种不同组织类型的720个正常组织样本,其中包括膀胱癌(n = 19)、乳腺癌(n = 86)、宫颈癌(n = 3)、结直肠癌(n = 41)、食管鳞状细胞癌(n = 2)、胃食管腺癌(n = 13)、胶质母细胞瘤/少突胶质细胞瘤(n = 2)、头颈部鳞状细胞癌(n = 50)、肾透明细胞癌/肾乳头状细胞癌(n = 157)、肾嫌色细胞癌(n = 43)、肝细胞癌/胆管癌(n = 59)、肺腺癌(n = 30)、肺鳞状细胞癌(n = 41)、胰腺癌(n = 10)、副神经节瘤/嗜铬细胞瘤(n = 3)、前列腺癌(n = 50)、软组织肉瘤(n = 4)、黑色素瘤(n = 2)、甲状腺癌(n = 56)、胸腺瘤(n = 2)和子宫内膜癌(n = 45)。
  5. 我们还分析了芝麻数据R/Bioconductor包中的三个全血样本的HM450数据。
  6. 然后,我们分别使用β值>0.2定义阳性DNA甲基化,在任何组织类型中甲基化频率<10%的标准下,从合并的HM27-HM450数据集中选择了10,114个特征,从HM450数据集中选择了100,405个特征。
  7. 最后,在每种肿瘤类型中,我们确定了在超过2%的肿瘤中β值≥0.3的特征,从而得到了在不同肿瘤类型中特征数量有所变化的DNA甲基化特征指标。
Para_03
  1. 对于功能丧失(LOF)特征,我们从上面生成的DNA高甲基化矩阵开始,使用β值≥0.3定义阳性DNA甲基化,<0.3定义无甲基化,将矩阵二值化。
  2. 我们在合并的HM27-HM450和HM450平台中分别识别出889个和8,797个位于CpG岛启动子区域内的特征(转录起始位点上下游1,500-bp的侧翼区域),这些特征与突变特征矩阵中覆盖的587个基因相关联。
  3. 我们通过从二值化特征矩阵中提取与这些突变基因的启动子特征重叠的特征,创建了DNA高甲基化的LOF特征。
  4. 如果一个基因有多个相关特征,则样本在该基因超过一半的特征上被识别为甲基化的,也会在基因水平上被标记为甲基化。
Copy number feature matrix
Para_01
  1. 拷贝数特征来源于TCGA泛癌图谱中的基因水平阈值拷贝数数据,该数据由GISTIC 2.0生成。
  2. 所有基因水平的缺失(−1或−2)均被设置为−1,所有基因水平的扩增(1或2)均被设置为+1。
  3. 然后,在每种肿瘤类型中,细胞带内的基因被压缩,使得在所有肿瘤中具有相同拷贝数特征的基因由一个基因代表。
  4. 如果可能,选择已知的致癌基因或肿瘤抑制基因作为代表基因。
Mutation feature matrix
Para_01
  1. 突变特征来源于 PanCanAtlas MC3 发表的数据集 mc3.v0.2.8.PUBLIC.LAML_PATCH.maf.oncokb.txt。
  2. 我们生成了四种类型的突变特征,涵盖了 587 个基因和 470 个热点区域。
  3. 这些特征包括非沉默突变、热点突变、功能丧失突变和复合突变。
  4. 非沉默突变特征由体细胞变异创建,并以前缀 B:MUTA:nons 编码。
  5. 如果"变异分类"字段为"错义突变"、"无义突变"、"框移缺失"、"剪接位点"、"框移插入"、"框内缺失"、"框内插入"、"翻译起始位点"、"终止缺失突变"或"剪接区",则认为该变异是非沉默的。
  6. 我们从 TCGA PanCanAtlas 团队发布的驱动突变基因列表以及非沉默目录中收集了基因列表。
  7. 热点突变特征以前缀 B:MUTA:HOTS 编码,表示在蛋白质突变热点处导致氨基酸变化的变异的存在。
  8. 功能丧失突变特征以前缀 B:MUTA:LOF 编码,表示以下两种事件之一:1) 同一样本中同一基因发生非沉默突变并伴随缺失;或 2) 观察到基因的启动子高甲基化事件。
  9. 对于这些判断,我们使用了甲基化数据和拷贝数数据的二值化版本。
  10. 最后,我们创建了复合突变特征,用于指示样本中发生任何具有影响的变异事件;这些特征以前缀 B:MUTA:COMP 编码。
  11. 这些特征代表记录了前述三种类型中的任何一种(非沉默、热点或功能丧失)的情况。

Filtering out missing values

过滤掉缺失值

  • mRNA基因表达[连续值]

  • miRNA成熟链表达 [连续值] (如前所述,对于KIRCKICH、LIHCCHOL和LGGGBM队列,我们未使用miRNA数据)

  • (3)DNA甲基化beta值[介于0和1之间的连续值]

  • (4)拷贝数数据 [三元;-1,0,1]

  • (5)非沉默突变 [二值化]

  • (6)热点突变 [二值化]

  • (7)"功能丧失"突变[二值化]

  • (8)复合突变 [二值化]

Para_01
  1. 首先,我们迭代地删除了缺失数据超过20%的样本和特征,直到没有这样的样本或特征存在。
  2. 具体来说,我们首先删除了所有缺失数据超过20%的样本。
  3. 然后,我们删除了在样本中缺失数据超过20%的所有特征。
  4. 我们持续这一过程,直到所有剩余的样本和特征的缺失数据都少于20%。
  5. 我们尝试了两种方法:一种是先删除样本,另一种是先删除特征。
  6. 最终,我们选择了使每个癌症队列中删除的样本和特征数量乘积最小的方法。
  7. 最后,在第二步中,我们删除了所有具有缺失值的特征,从而得到完全没有缺失值的数据表。

Merging of single data type matrices

单一数据类型矩阵的合并

Para_01
  1. 我们在过滤掉缺失值后,将八个数据表合并,并排除在八个过滤后的数据表中任何一个被移除的样本。
  2. 换句话说,合并矩阵中的样本是八个过滤后的数据表中样本的交集。
  3. 自动诊断图以及自动和手动抽查确保了这些大数据表正确合并。
  4. 样本(即最终表格中的行)是 TCGA 样本,通过 12 位的 TCGA 病例 ID 条形码标识(例如,TCGA-02-0001)。
  5. 列是特征。
  6. 每个特征名称的结构包含:1)变量类型,即二元/分类/数值;2)分子平台,例如 MUTA 表示突变,METH 表示甲基化,MIR 表示 microRNA 成熟链,GEXP 表示信使 RNA,CNVR 表示拷贝数变异;3)其他分子注释,例如 HOTS 表示突变热点;4)基因名称;5)其他分子标签。
Para_02
  1. 一个示例特征ID是"B:MUTA:HOTS:PIK3R1:pR348:"。
  2. 这是针对PIK3R1蛋白中氨基酸位置348的二元突变热点调用。
  3. 在合并的数据表中,第一列包含样本,第二列包含亚型,这些亚型被用作分类的标签。
  4. 后续列包含特征。

Building a cohort of machine learning methods

构建一个机器学习方法的集合

Para_01
  1. 我们采用了五种不同的特征选择和/或模型拟合流程。
  2. 这些流程包括 1) 由 ISB 领导的 CloudForest;2) 由 UCSC 领导的 AKLIMATE;3) 由 BC 癌症基因组科学中心领导的 subSCOPE;4) 由 OHSU 领导的 SK Grid;以及 5) 由 JADBio Gnosis DA S.A. 领导的 JADBio。
  3. 这些算法基于不同的机器学习分类理念,并采用了多样的特征选择方法(包括过滤、包裹、嵌入和/或先验知识),在模型拟合之前或期间进行应用。
  4. 其中一些方法寻找稀疏的分类器特征集合(例如,JADBio、SK Grid),而其他方法则试图捕捉富含已知生物学和通路知识的区分性特征(例如,AKLIMATE、subSCOPE)——所有这些方法都旨在最大化癌症亚型预测性能。
  5. 本报告深入探讨了这些不同分类算法的性能指标。
  6. 对于将新患者样本分类为先前定义的 TCGA 亚型的转化场景,我们的结果为匹配方法与特征集以预测特定癌症类型的亚型提供了指导。
Applying the CloudForest method
Para_02
  1. CloudForest 是一个用 Go 语言编写的随机森林(RF)包,特别适合处理大型、异构的基因组学和生物医学数据集。
  2. CloudForest 以标准的随机森林分类模型运行,包含 50,000 棵树,最小叶节点大小为 5,采用平衡装袋方法,其他选项使用默认参数。
  3. 该流程实现为一个带有特征降维步骤的随机森林工作流。
  4. 具体来说,首先使用所有特征训练一个随机森林模型。
  5. 然后选择表现最好的 1,000 个特征,并基于这些最佳特征在同一样本上训练第二个随机森林模型。
  6. 此过程重复进行,分别针对表现最好的 100、50、10、5 和 1 个特征进行训练。
  7. 最终得到 7 个训练好的随机森林模型(分别对应所有特征、1000、100、50、10、5 个特征以及 1 个最佳特征)。
  8. 模型训练使用训练集折分数据;分类性能在保留的测试集上报告。
  9. 特征重要性通过基尼不纯度测量。
  10. 汇总的特征重要性分数在各折和重复中取平均值。
  11. CloudForest 实验针对每种肿瘤类型单独进行,共涉及 26 种肿瘤类型;在每种肿瘤类型内,分别使用六种不同的特征集:1)二元突变调用,2)三态拷贝数数据,3)连续基因表达数据,4)连续 DNA 甲基化数据,5)连续 miRNA 表达数据,6)前五种数据集的组合。
Applying the AKLIMATE method
Para_02
  1. 基于核的学习算法,结合近似树集成模块(AKLIMATE),是一种由生物通路基因成员信息指导的基于核函数的堆叠学习器。
  2. 基于多核学习(MKL)方法,AKLIMATE 使用一组组合核,每个核表示样本间相似性的不同方面。
  3. 首先,使用随机森林模型对样本进行评估。
  4. 这些预测的输出被转换为距离矩阵,然后输入到弹性网 MKL 系统中。
  5. MKL 使用的组件随机森林模型是在基于先前生物学知识提取的特征集上训练的。
  6. 这些元素使用的先验知识包括生物通路信息。
  7. 利用这种基于生物学信息的建模方法,AKLIMATE 模型之前已被用于预测子宫内膜癌和结直肠癌中的微卫星不稳定性、乳腺癌中的生存率以及癌症细胞系中 shRNA 敲低的可行性。
Para_03
  1. 在本研究中,我们使用了AKLIMATE作为特征评分工具。
  2. 该流程首先通过训练一个AKLIMATE模型开始。
  3. AKLIMATE被提供训练集的样本数据以及输入的"特征集"。
  4. 从训练好的AKLIMATE模型中提取特征重要性分数。
  5. 在AKLIMATE模型中,可能有成千上万个特征被赋予非零的重要性分数。
  6. 为了获得一个具有n个输入特征的更小模型,使用最重要的n个特征对训练数据进行子集化。
  7. 这个训练数据的子集用于训练随机森林分类器(使用Ranger R包)。
  8. 最后,最初保留的测试集样本数据用于评估随机森林分类模型的样本亚型预测性能。
Para_04
  1. AKLIMATE管道使用了一个包含约17,000个特征集的文集,这些特征集来自多个来源,包括:MSigDB、genesigDB、PathwayCommons、KEGG、Reactome、PID以及基因组位置邻域。
Para_05
  1. 在本文描述的工作中,AKLIMATE 使用了 4 个特征:GEXP、CNVR、METH 和 MUTA。
  2. 在初步实验中,AKLIMATE 流程发现 miRNA 特征在数据中引入了噪声,导致分类性能下降。
  3. 因此,在本研究中,miRNA 特征未被用于任何 AKLIMATE 模型中。
Para_06
  1. 在共同的、合并数据集中,拷贝数特征是TCGA样本原始完整拷贝数数据的一种"压缩"表示。
  2. 完整的拷贝数数据包含许多相关的特征,这些特征可以归因于位于染色体同一物理区域上的基因的拷贝数变化。
  3. 为了减少数据中的冗余,拷贝数特征被组织成高度相关的组,并从中选择一个代表性的特征纳入到"压缩"的拷贝数数据中。
  4. 由于AKLIMATE利用了样本特征中包含的生物学先验知识,这种压缩可能对AKLIMATE充分利用拷贝数数据的能力产生了负面影响。
  5. CNVR压缩导致通路空间中拷贝数表示的减少,因为在一个相关拷贝数组中选择的特征是从通路角度来看随机选择的。
Applying the subSCOPE method
Para_02
  1. subSCOPE 是一种基于深度神经网络的系统。
  2. 其训练方法与所使用的其他机器学习方法有显著不同,主要体现在两个方面:训练集的选择和重要特征的识别方式。
  3. 与其他针对单一肿瘤队列逐一工作的系统不同,subSCOPE 是在整体癌症队列上联合训练的,能够同时学习识别所有癌症中的所有亚型。
  4. 传统上,随着更多数据被添加到训练集中,深度神经网络会持续改进,而其他方法则往往趋于收敛。
  5. 我们采用这种方法来扩展总的训练集规模,因此是针对包含 8,791 个样本的问题进行训练,而不是一系列每个约有 100-500 个样本的问题。
  6. 此外,通过同时训练所有问题,神经网络有机会识别多种癌症类型之间的共同模式。
  7. 与其他方法不同,subSCOPE 首先是在所有输入特征上进行训练。
  8. 模型训练完成后,我们使用 DeepLift 进行特征重要性计算。
Applying the SK grid method
Para_02
  1. SK Grid 系统被设计为一个‘现成的’机器学习管道,利用流行的 Python 包‘Scikit-Learn’中提供的方法。
  2. 特征选择通过递归特征消除(RFE)和前向-后向早期丢弃(FBED)来生成混合和单一 TCGA 数据类型的特征集。
  3. 每个癌症队列的特征选择:1) 在所有分子特征(基因表达、拷贝数变异、miRNA、甲基化、突变状态)上独立运行;2) 对每种分子特征类型分别独立运行,以生成单独的特征集;3) 将第二步独立运行的结果进行拼接形成一个组合特征集。
Para_03
  1. 每个选定的特征集都被输入到一组包含14个SK Grid分类器中,以识别最准确的特征集与分类器组合。
  2. 每个分类器都使用了默认的超参数设置。
  3. 所使用的分类器包括:AdaBoost、伯努利朴素贝叶斯、决策树、额外树、高斯朴素贝叶斯、高斯过程、K近邻、逻辑回归、多层感知机、多项式朴素贝叶斯、被动攻击、随机森林、随机梯度下降和支持向量机。
Applying the JADBio method
Para_02
  1. JADBio 是由 JADBio Gnosis DA S.A. 开发的自动机器学习系统,通过网页界面(http://jadbio.com)以软件即服务的形式运行,同时也提供 API。
  2. 用户启动分析后,基于知识的决策支持系统(即算法和超参数空间选择系统,AHPS)会根据数据集的特性(最重要的是样本量和特征数量)以及用户指定的偏好,选择适合的算法和超参数值组合进行尝试。
  3. 用户输入的内容包括期望的调优努力程度,这在计算时间和对超参数空间的探索彻底性之间进行权衡。
  4. 值得注意的是,AHPS 还会选择分析协议,例如是否采用保留验证法或(重复)交叉验证,同时确定折数和重复次数。
Para_03
  1. 机器学习建模方法包括随机森林、其他决策树、支持向量机和广义线性模型。
  2. 特征选择方法包括统计等效签名(SES)和套索(Lasso)算法。
Para_04
  1. 一旦定义了可能配置的空间(即,机器学习管道),就会通过网格搜索选择最佳的预处理方法、特征选择/建模算法及其相应的超参数配置。
  2. 作为性能分析的一部分,JADBio 使用训练数据上的专用自助算法,计算最佳模型在未见数据上的保守且无偏的性能估计值。
  3. 在本研究呈现的分析中,所使用的管道采用了 JADBio 的默认设置,并进行了少量修改。
  4. 首先,为了便于比较,系统使用了其他组采用的相同协议(重复交叉验证)和相同的折叠方式。
  5. 在执行重复交叉验证过程中,JADBio 采用了多种技术以加速计算,同时保持结果的质量;例如,如果性能改进被认为不太可能,系统可以自动决定跳过进一步的交叉验证重复操作。
  6. 对于所有分析,调整工作强度均设置为"广泛",但以下情况除外:BLCA、COADREAD、LGGGBM、LUSC 设置为"初步",而 GEA、HNSC、LUAD、OV、SKCM、THCA 和 UCEC 设置为"正常"。
  7. 在每次分析中,最佳配置是根据平衡准确率指标确定的。
  8. 最后,预测性能按照下文所述部分中的方法进行计算,以确保我们的结果与其他机器学习系统的可比性。

Evaluation of prediction performance

预测性能评估







请到「今天看啥」查看全文