Basic Information
-
英文标题:Rapid brain tumor classification from sparse epigenomic data
-
-
-
-
-
文章作者:Björn Brändl | Franz-Josef Müller
-
文章链接:https://www.nature.com/articles/s41591-024-03435-3
Abstract
Para_01
-
尽管对迄今为止描述的大约100种已知脑肿瘤实体进行术中分子诊断是过去十年神经病理学的目标,但在活检采集后不到1小时内实现这一目标仍然难以达成。
-
第三代测序技术的进步使这一目标更加接近,但现有的机器学习技术依赖于计算密集型方法,使其在临床应用中的实时诊断工作流程中不切实际。
-
在此,我们介绍 MethyLYZR,这是一种基于朴素贝叶斯框架的方法,能够完全可行地对癌症表观基因组进行实时分类。
-
为了评估其性能,我们使用纳米孔测序对超过200个脑肿瘤样本进行了分类,其中包括在手术室附近临床环境中测序的10个样本,在测序开始后的15分钟内取得了高度准确的结果。
-
MethyLYZR 可以与正在进行的纳米孔实验并行运行,并且几乎不会增加计算开销。
-
因此,实现更快结果输出的唯一限制因素是DNA提取时间和纳米孔测序仪的最大并行处理能力。
-
尽管需要更多来自前瞻性研究的证据,我们的研究表明,MethyLYZR 不仅可以用于神经外科术中场景下通过纳米孔测序对神经系统恶性肿瘤进行实时分子分类,还适用于其他肿瘤学指征以及通过液体活检中的无细胞DNA对肿瘤进行分类。
Main
Para_01
-
肿瘤外科手术中的术中诊断程序可以追溯到19世纪末期,并且对患者的预后产生了实质性的影响。
-
它们主要服务于两个临床目的:首先,确定病理诊断;其次,评估切除边缘的肿瘤细胞。
-
最直接的术中应用案例是区分适合手术的肿瘤和更适合非手术治疗方式的肿瘤。
-
现代神经病理学对分子定义、特别是表观遗传定义的肿瘤分类的依赖性,在世界卫生组织(WHO)最新版中枢神经系统(CNS)肿瘤分类中得到了体现。
-
这一分类部分基于这样一个基本认识:在中枢神经系统中发现的恶性肿瘤可以根据全基因组甲基化谱被识别并归类为不同的肿瘤类型。
-
具体来说,由Capper等人开发的一种使用随机森林模型进行甲基化微阵列分析的方法,如今能够对多达184种中枢神经系统肿瘤类别进行分类(DKFZ脑分类器12.8),并且已被整合到临床实践中。
-
然而,目前在转化研究和临床常规中使用的所有全基因组分子方法都需要几天甚至几周的时间才能完成,这使得它们无法用于次日或术中诊断应用。
Para_02
-
纳米孔测序已成为护理点(POC)临床前研究中的变革性技术。
-
三项特定特性使这项技术成为在神经肿瘤手术时间范围内提供分子信息的理想候选者。
-
首先,核苷酸分辨率的序列数据在DNA或RNA链进入纳米孔后仅需几毫秒即可用于进一步分析和解释。
-
其次,在同一即时时间范围内可以获得这些核苷酸序列的表观遗传修饰信息。
-
第三,基于转座酶的纳米孔测序文库制备可在几分钟内完成,从而实现护理点处设备占用较小的临床测序工作流程。
Para_03
-
一些工作流程采用纳米孔测序来诊断中枢神经系统肿瘤,有时在一天内甚至在神经肿瘤手术过程中完成。
-
这些诊断是通过根据特征性的 CpG 甲基化谱对肿瘤进行分类实现的。
-
最初提出的随机森林方法已被定制用于适应性纳米孔测序,形成了一个为期四天的工作流程,并且最近已被修改以支持术中应用。
-
这种应用场景涉及针对样本的即时训练,仅覆盖每个纳米孔测序实验中的 CpG 位点,通常从样本到结果需要 1.5 小时(91 至 161 分钟)。
Para_04
-
样本到结果的时间和临床相关的诊断准确性是任何术中诊断程序的主要关注点。
-
尽管典型的中枢神经系统肿瘤切除手术需要中位时间为3小时(179分钟;范围123-250分钟),但在神经外科医生到达脑肿瘤并获取活检的任何诊断信息后,能够实际影响后续切除范围的决策时间通常限制在1小时以内(图1a)。
-
虽然基于成像的刺激拉曼组织学已显示出少于2.5分钟的样本到结果时间,但目前其底层神经网络识别的肿瘤类别数量(n=13)远少于通过综合分子方法可区分的类别数量(n=108)。
Fig. 1: MethyLYZR enables tumor class prediction on sparse data without model retraining.
- 图片说明
◉ 简化的脑部手术流程时间表示意图。阶段包括以下内容:(1)诱导,涉及麻醉、患者定位以及神经导航调整(大约45-60分钟);(2)切开并进入肿瘤(大约30分钟);(3)肿瘤切除(大约60分钟)和(4)回缩并完成缝合(大约30分钟)。值得注意的是,60分钟的肿瘤切除阶段是获取分子诊断的关键时间窗口。然而,现有的分子诊断周转时间超过了手术过程的时长。
◉ 朴素贝叶斯算法训练和预测过程的图示。多个肿瘤类别(m类)通过若干样本提供CpG甲基化比率(p特征)用于算法训练。训练涉及根据提供的样本(S₁,...,Sₙₘ)生成m个中心点(μ),描述每个肿瘤类别中n个CpGs(特征)的平均甲基化概率。此外,针对每个CpG和类别计算权重(w),反映特定肿瘤类别中CpG的预测能力。在给定样本中进行肿瘤类别预测时,单个分子的稀疏二进制甲基化值——例如通过纳米孔测序获得——作为预训练伯努利朴素贝叶斯模型的输入。输出包含模型中所有肿瘤类别的后验概率排名列表。
◉ MethyLYZR训练时间的基准分析,基于已发布的中枢神经系统450k甲基化阵列数据,涵盖91个肿瘤类别,总计2801个样本。训练在单核上执行,使用戴尔PowerEdge R7525服务器(3 GHz AMD 64核处理器,256 CPU,1031.3 GB DDR4内存,Linux系统)和苹果iMac Pro(3 GHz 10核Intel Xeon W,64 GB 2666 MHz DDR4内存,1 TB APFS SSD,Radeon Pro Vega 56 GPU,8 GB VRAM,macOS 13.2.1)。值得注意的是,中心点和权重训练在服务器上不到20分钟完成,在iMac Pro上不到40分钟完成。
Para_05
-
最近,将神经网络模型应用于纳米孔数据的实践中,在几秒内得出了与特设的随机森林分类器相似精度的预测结果,展示了从样本到结果大约1.25小时的实际可行周转时间。
-
然而,由于公开可用的训练数据量有限,深度学习需要模拟数千万个纳米孔数据集来训练和验证复杂的分类器,同时还需要大量的计算资源来进行超参数调整。
Para_06
-
在这里,我们提出了 MethyLYZR,这是一个概率框架,能够直接从稀疏的 DNA 甲基化谱中对恶性转化组织进行分类,而无需专门训练。
-
MethyLYZR 的结果在许多情况下与竞争方法的诊断准确性相似甚至更优。
Results
Para_01
-
-
尽管它具有高通量扩展的潜力,但在神经外科肿瘤手术的关键时间内,它实际上只能捕获人类基因组的一小部分,通常远低于2%。
-
在这种情况下,与甲基化阵列或深度测序数据集不同,浅层纳米孔测序针对CpG位点的甲基化状态提供单分子的二元输出。
-
每个DNA分子上的每个CpG位点被分类为甲基化或非甲基化,这与通过甲基化阵列通常获得的连续、整体甲基化测量值(甲基化率或概率)不同。
-
另一个主要挑战是随机获取的特征集合——每次测序实验都会恢复一个不同的、随机的CpG子集。
Para_02
-
这些特定的约束条件使得伯努利朴素贝叶斯分类器成为解决在最短时间内分类癌症表观基因组的独特算法挑战的合适框架。
-
该分类器使用贝叶斯定理,根据新出现的甲基化数据,更新肿瘤样本属于某一特定癌症类别的可能性(图1b)。
Para_03
-
为了训练伯努利朴素贝叶斯分类器,我们使用来自Illumina 450k甲基化阵列的数据,计算不同癌症类别中每个CpG位点的平均甲基化率。
-
这为我们提供了每个癌症类别中每个CpG位点的甲基化概率(图1b,顶部)。
-
随后,MethyLYZR应用加权系统来提高这些概率的准确性,特别是在区分密切相关的癌症类型时。
-
该系统还考虑了不同CpG位点之间的甲基化模式通常是相关的这一事实,这有助于提高模型的可靠性(方法;补充图1;图1b顶部;以及扩展数据图1)。
Para_04
-
对于实际的癌症分类,朴素贝叶斯分类器会根据纳米孔测序提供的新甲基化数据更新其对可能肿瘤类型的预测(图1b,底部)。
-
它生成一个可能的肿瘤类别列表,并将概率最高的类别确定为最可能的结果。
Para_05
-
值得注意的是,朴素贝叶斯分类器的一个核心特性是,即使只有随机子集的 CpG 位点可用,它也能够准确预测肿瘤类型。
-
尽管缺失值对于大多数其他机器学习方法来说是一个主要挑战,但在使用朴素贝叶斯模型时,它们本质上很容易处理:只要测量值是随机缺失的,就可以简单地忽略它们。
Para_06
-
综合来看,在缺失观测值超过98%的低覆盖率纳米孔测序背景下,伯努利朴素贝叶斯分类器特别适合用于术中分类。
Para_07
-
由于大多数脑肿瘤类型缺乏广泛的甲基化测序参考,我们使用了一个公开可用的包含2,801个样本的450k甲基化阵列图谱,涵盖91种中枢神经系统(CNS)肿瘤和对照类别以进行训练。
-
该数据集之前已被用于训练随机森林和神经网络算法,以完成术中分类任务。
-
训练数据集中包含的91个类别标签代表了CNS肿瘤实体、提示性的分级信息和分子概念的组合,在某些情况下,还反映了具有未知临床意义的计算衍生样本组。
-
为了实际应用,我们将这91个CNS训练类别重新排列为44个MethyLYZR(MZ)CNS类别,依据是它们潜在的临床影响(扩展数据图2a,补充表1和补充文本),以及之前概述的八个广泛的甲基化类别家族(MCFs)。
-
例如,我们将训练数据集中识别出的六个胶质母细胞瘤亚型合并,以反映在标准诊断程序中这些特定亚型通常不被区分的临床现实。
-
同样,九种对照组织被归类为‘非诊断性组织’,这有助于区分肿瘤与非恶性或诊断不明确的组织,这对于临床决策具有重要意义。
Para_08
-
MethyLYZR 的加权朴素贝叶斯算法训练高效且快速,特征数量上具有线性复杂度,样本数量上具有二次复杂度。
-
这种高效性使得该算法在需要极少计算资源的情况下即可完成训练:在高性能服务器上只需几分钟,在 2017 款 Apple iMac 个人电脑上不到一小时即可完成(图 1c、图例及补充表 2)。
Para_09
-
为了性能评估,我们最初生成了一个合成数据集,以根据 450k 甲基化阵列参考模拟浅层纳米孔甲基化模式(扩展数据图 3a)。
-
这包括为每个样本生成 100 个重复项,涵盖 91 种脑肿瘤类别中的每一种,每个重复项为每个 CpG 提供二进制甲基化数据(总计 280,100 个合成样本)。
-
为了评估测序深度对准确性的影响,我们从合成的纳米孔图谱中抽取了1到20,000个CpG位点的甲基化数据。
-
仅使用1,000个随机选择的CpG位点,这在所有280,100个合成样本中导致各类别的总体中位数准确率为91.45%、97.02%和95.47%(占所有建模CpG位点的0.2%;分别为CNS、MZ CNS和MCFs;图2a,扩展数据图3b和补充表3–5)。
-
随着增加CpG位点的数量,准确性得到提高,并在大约7,500个CpG位点时趋于饱和。
-
在这个数量的CpG位点上,我们在所有样本中的91个CNS类别中观察到94.52%的准确性(图2b)。
-
此外,在引入高达10%的甲基化呼叫错误率的情况下,准确性似乎保持稳定(分别在1%、2.5%、5%和10%的错误率下为94.70%、94.53%、94.92%和93.73%;扩展数据图3c)。
-
值得注意的是,在所有测试的CpG数量中,大多数分类错误并非随机,而是局限于我们更广泛的诊断类别(对于7,500个CpG位点,MZ CNS类别的准确率为97.72%;图2a–c和扩展数据图3b及4a)。
Fig. 2: Highly accurate tumor class prediction from sparse, binary DNA methylation profiles based on 450k methylation arrays.
- 图片说明
◉ 评估使用 1,000、2,500、5,000、7,500、10,000、15,000 或 20,000 个 CpG 位点的合成样本的预测准确性。
◉ 通过对 450k 数组中 2,801 个生物学独立样本(代表 91 种中枢神经系统癌症和对照甲基化类别)进行模拟,进行了 100 × 2,801 次低覆盖率纳米孔测序的计算机模拟。
◉ 箱线图显示了中位数作为中心线,四分位距(第 25 百分位至第 75 百分位)作为箱子,并将离群值(超过 1.5 倍 IQR 的点)表示为须外的点。
◉ 混淆矩阵展示了使用 7,500 个 CpG 位点对所有推算样本的预测结果,对于中枢神经系统类别总体准确率为 94.52%,对于 MZ 中枢神经系统类别准确率为 97.72%。
◉ 颜色表示相对于每个参考类别的样本数量归一化的相对频率。
◉ 分类错误由偏离对角线的偏差表示,临床相关组(MZ 中枢神经系统类别)通过彩色方框突出显示。
◉ F1 分数在右侧提供。
◉ 放大显示 F1 分数略低于平均值的中枢神经系统肿瘤类别组的混淆矩阵。
◉ 混淆矩阵展示了在一个扩展数据集上的预测结果,包括中枢神经系统肿瘤、乳腺癌、肺癌和黑色素瘤中枢神经系统转移(91 种中枢神经系统类别和 2,801 个样本;三种转移类别和 85 个样本)。
◉ 使用 7,500 个 CpG 位点,MethyLYZR 在区分乳腺、肺、黑色素瘤和中枢神经系统样本时分别实现了 90.31%、89.39%、88.76% 和 99.99% 的准确率。
◉ 在三个复杂度递增的模型中预测 280,100 个模拟中枢神经系统样本后,每类 F1 分数的分布。
◉ 这三个模型包括 91 种中枢神经系统类别(顶部)、91 种中枢神经系统 + 3 种转移类别(中部)以及 91 种中枢神经系统 + 3 种转移 + 64 种肉瘤类别(底部)。
◉ 每种模型的 F1 分数以点表示,并通过箱线图和密度图总结。
◉ 箱线图显示了中位数作为中心线,四分位距(第 25 百分位至第 75 百分位)作为箱子,并将离群值(超过 1.5 倍 IQR 的点)表示为须外的点。
-
从流行病学角度来看,颅内转移瘤的发病率估计是原发性脑肿瘤的十倍。
-
因此,当神经影像结果不明确、未知原发肿瘤、存在多个原发肿瘤或特定肿瘤特征可能影响治疗决策时,针对脑转移瘤的神经外科活检既频繁又至关重要。