可扩展的方法用于生成、验证和整合高通量功能测定的数据以改进临床变异分类

基因检测与解读 · 公众号 · 大数据科技自媒体 · 2024-11-04 07:01

主要观点总结

本文主要介绍了变异效应多重测定（MAVEs）在临床胚系遗传测试中的应用，通过机器学习平台控制模型质量，并将通过验证的模型纳入临床变异分类。文章介绍了MAVE数据评估框架、机器学习平台的应用、变异重新分类以及影响等方面内容。

关键观点总结

关键观点1: 变异效应多重测定（MAVEs）是系统表征遗传变异功能效应的一种技术，被用于临床胚系遗传测试中变异的分类。

MAVEs技术能够在单一混合实验中同时表征许多DNA变异，对于临床变异分类具有重大意义。

关键观点2: 文章采用机器学习平台对MAVE数据构建的模型进行质量评估和控制，将经过严格验证的模型纳入临床变异分类。

机器学习平台的使用提高了模型的质量，使得变异的分类更加准确和可靠。

关键观点3: 文章对44个与疾病相关的基因执行了MAVE实验，生成了新功能数据，整合了24个细胞模型到临床变异分类中，为超过57,000个个体中的超过4,000个变异提供了额外的分类证据。

这些实验数据将有助于更准确地分类遗传变异，为诊断确认和治疗决策提供更可靠的依据。

关键观点4: 传统的遗传测试实验室获取功能实验数据的方式存在分散、评估不标准、定性且易受主观影响等问题。而MAVE技术的出现为遗传测试实验室提供了新的机会，能够系统地评估并整合功能证据到变异分类中。

MAVE技术的应用将有助于提高遗传测试的准确性和可靠性，为患者提供更加精准的诊断和治疗方案。

正文

请到「今天看啥」查看全文

意义未明变异（VUSs）在临床遗传测试中经常被报告，这是因为缺乏足够的证据将这些变异明确分类为致病性或良性。根据美国医学遗传学和基因组学学会/分子病理学协会（ACMG/AMP）的指南，评估DNA变异对蛋白质稳定性和功能影响的实验研究数据可以提供强有力的证据，以支持良性或致病性的分类。由于只有一小部分遗传变异的功能效应经过了实验性特征化，因此在科学文献中，这种功能证据相对稀缺。在过去的十年中，基于高通量测序的细胞测定法，统称为变异效应多重测定（MAVEs），已经被开发出来，以系统地表征包括蛋白质-蛋白质相互作用、酶活性、调控潜力和蛋白质稳定性在内的广泛分子功能。最近，通过比较表达临床相关变异的基因的单细胞基因表达谱来评估变异功能。与以往的方法不同，MAVEs能够在单一混合实验中同时表征许多DNA变异。

尽管变异效应多重测定（MAVEs）在临床胚系遗传测试中为变异分类提供了一个强大的机会，可以将新的、极具信息量的数据纳入其中，但在临床变异分类中MAVEs的使用一直未能得到充分利用。许多MAVE实验是为基础研究而非临床应用而进行的；因此，在近年来进行的数百项MAVE实验中，只有少数几十项专注于与单基因疾病相关的基因。同时，很少有研究特别针对这些疾病相关联的相关分子功能（例如，信号传导、蛋白质稳定性、细胞死亡）进行了充分的表征。此外，将MAVE数据纳入变异分类框架，特别是在大型临床实验室环境中，由于缺乏专业实验室团体的详细指导，独立构建和评估从MAVE数据衍生模型的临床质量受到了阻碍。

为了标准化和更高效地使用MAVE数据，我们采用了基于机器学习的证据建模平台来控制从MAVE数据集构建的模型的质量，并将那些通过严格验证的模型纳入常规的临床变异分类中。我们为44个与疾病相关的基因设计并执行了MAVE实验，以生成通过遗传测试观察到的临床关注变异的新功能数据。在这些44个模型中，有19个被选为纳入变异分类。此外，我们还评估了来自学术界先前发表的MAVE数据集构建的另外22个基因的细胞模型。其中5个基因通过了我们的质量控制阈值。总共有24个细胞模型（19个内部和5个外部）被整合到临床变异分类中，为超过57,000个个体中的超过4,000个变异提供了额外的分类证据。

材料与方法（略）

结果

评估MAVE数据的框架

为了生成、评估和整合各种类型的机器学习模型，我们开发了一个单一的证据建模平台（还未发表）。在基于MAVE的模型的背景下，该平台使用来自细胞研究的实验特征的监督机器学习，开发用于预测变异致病性的基因特异性模型（图1）。在区分已知致病和良性变异方面表现出色的模型（AUROC≥0.8）被认为是有效的。这些经过验证的模型的输出，即定量变异致病性得分，从0（良性）到1（致病）的范围，通过使用已知的致病和良性变异计算阴性预测值（NPV）和阳性预测值（PPV）进一步校准。基于NPV和PPV阈值的证据权重（即Sherloc中的分数）被用于变异致病性得分。为了确定最终分类，具有这种类型功能证据的变异将由临床基因组科学家和持证实验室主任进行完整的变异分类过程。

我们的机器学习平台评估了来自66个基因的实验数据集。这些数据集要么是在我们功能性基因组学实验室内生成的（44个基因），要么是通过外部团体的文章获得的（22个基因）。评估每个MAVE数据集是至关重要的，因为由此产生的预测模型的性能差异很大（补充图1）。在我们实验室使用单细胞RNA测序产生的44个数据集中，有19个产生了一个预测模型，这些模型不仅达到了AUROC≥0.8的性能阈值，而且被选为整合到Sherloc中（补充表1）。与通过scRNA-seq轮廓的无监督聚类来识别细胞类型不同，携带致病或良性变异的细胞通常是混合在一起的，尽管在变异水平上的类似聚类突出了机器学习模型用于准确分类变异的信号（补充图2）。对于多个生物学途径和失去功能及获得功能疾病机制的基因，都实现了表现良好的模型（图2）。在评估的22个外部MAVE数据集中，有5个预测模型（针对BRCA1、BRCA2、MSH2、SCN5A和TP53）每个都达到了AUROC≥0.8的性能阈值（图3，补充表2）。其余未整合的数据集大多数要么没有足够的已知致病和良性变异来允许评估，要么显示出不足以区分良性和致病变异的能力（AUROC<0.8），因此被排除在本文的进一步评估之外。

基于性能整合到变异分类框架中

为确保对每个表现良好的模型生成的证据在变异分类中给予适当的权重，我们根据每个模型的NPV（阴性预测值）和PPV（阳性预测值）设计了七个层级，并反映了Sherloc标准中整合功能实验数据的现有标准（补充表4）。前两个层级被定义为[高度预测良性]和[中度预测良性]，分别被授予2个和1个良性点。接下来的两个层级是[中度预测致病性]和[高度预测致病性]，分别被授予1个和2个致病点。这些层级的预测性能阈值分别定义为：（1）[高度预测良性]>95% NPV，（2）[中度预测良性]≥80-95% NPV，（3）[中度预测致病性]≥80-95% PPV，（4）[高度预测致病性]>95% PPV。第五个层级对应于低于80% PPV和低于80% NPV的预测，这些预测被认为不足以在Sherloc评分系统中被赋予权重。由于TP53模型在多个不同的功能读数中都具有高度预测性，因此它被授予最后两个层级，[非常高预测良性，>97.5% NPV]和[非常高预测致病性，>97.5%]，分别价值2.5个良性点和2.5个致病点。

变异重新分类和影响

在产生表现良好的预测模型的24个基因中，有4043个观察到的变异具有足够自信的预测（≥80% NPV或≥80% PPV），这些预测可能会影响Sherloc评分（表1，补充表5）。为了理解增加这些证据的影响，我们重新评估了一部分被分类为VUS（n=3474）的变异，这些变异由于基于MAVE的模型而适用Sherloc评分。在不同基因中，我们观察到平均VUS重新分类率为12.6%（436/3474）（表2），其中包括127个独特变异从VUS升级到可能致病/致病，以及309个从VUS降级到可能良性/良性。MAVE模型还有助于将44个变异从可能致病升级到致病，以及将43个从可能良性降级到良性。截至2024年第一季度，大约有57,096份患者临床报告包含有这些细胞模型证据的变异。在这些受影响的报告中，有38,614个变异接收到良性证据，19,417个变异接收到致病证据，少数报告包含多个接收证据的变异。

讨论

传统上，遗传测试实验室从科学文献中获取功能实验数据，作为有助于变异分类的多种证据之一。除了高度分散之外，这些低通量测定的评估通常没有很好地标准化，本质上是定性的，并且容易受到主观性的影响，这加剧了利用实验数据进行变异分类的挑战。MAVE技术的出现为遗传测试实验室提供了新的机会，既可以系统地评估并整合功能证据到变异分类中，也可以潜在地生成自己的实验数据。遗传测试实验室拥有大量临床数据和专业知识，这些可以指导实验设计，并能够针对最有可能从新功能数据中受益的基因和变异。然而，到目前为止，这些MAVE实验转化为大规模变异分类框架的转化，以及因此对患者的影响，一直是有限的。

随着越来越多的医疗保健提供者利用遗传测试进行诊断确认和治疗决策，持续开发可扩展和创新的方法来解决VUSs至关重要。尽管MAVEs代表了这样的一种方法，并且已被广泛用于学术研究目的，但它们在直接的诊断测试环境中尚未发挥出全部潜力。在使用适当的保护措施和验证程序的情况下，广泛利用这类证据在临床变异分类中的好处是显而易见的。事实上，大约有57,096名患者的报告中的变异受到了这里整合的24个MAVE模型的影响。然而，重要的是，MAVE数据的价值远远超出了为生殖系变异分类提供额外证据。从MAVE实验中获得的洞见也可以有助于更深入地理解疾病机制，以及帮助指导体细胞变异分类、治疗干预选择和药物开发。

上海寻因生物推出WGS科研服务，专注于疑似遗传病但WES阴性案例，全面分析SNV、INDEL、CNV、SV、STR、LOH、mtDNA、 transposon 等，测序加分析 3200 元 / 每例，欢迎联系 13761757010 （微信同号）。