专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
51好读  ›  专栏  ›  生信人

!!!游离 DNA 连发Nature!

生信人  · 公众号  · 生物  · 2025-01-27 07:11

正文

0.前言

血浆中cfDNA(cell free DNA,细胞游离DNA)片段的断裂模式以及基因组上的覆盖是不均匀的,这些都可以间接反映体内基因表达调控的状态,例如核小体定位和基因表达活性,具体的片段特征包括:Size、末端位置及末端序列Motif等。此外,外周血中的cfDNA是在细胞凋亡或坏死后释放的,主要来自健康人的造血细胞和病人的病变组织。cfDNA 由双链DNA片段组成,这些片段非常短,长度基本小于200碱基对(bp), 通常浓度很低。cfDNA片段模式的主要峰约为166个碱基对,并被认为与核 小体结构有关。cfDNA从大约143bp开始,相距约10bp的一系列连续峰值。cfDNA是液体活检的重要标志物,已广泛用于无创产前检查和癌症液体活检研究。


最近,Nature上连发了两篇有关cfDNA的文章,今天就让我们一起探究学习下吧。


1

2025 年 1 月 8 日发表于Nat Commun的题目为Multimodal cell-free DNA whole-genome TAPS is sensitive and reveals specific cancer signals. 的研究,该研究中,开发者开发了一种使用深度 (80x) 全基因组 TET 辅助吡啶硼烷测序 (TAPS) 的 ctDNA 检测方法,这是一种比亚硫酸氢盐测序破坏性更小的方法,它允许同时分析基因组和甲基组学数据。对有症状患者的多种癌症类型进行了诊断准确性研究,实现了 94.9% 的敏感性和 88.8% 的特异性。此外,计算机验证表明,在低至 0.7% 的 ctDNA 组分中具有很强的鉴别力 (86% AUC)。此外,还成功地追踪了治疗后癌前病变的肿瘤负荷和 ctDNA 脱落,而无需匹配的肿瘤活检。


扫码添加  ⬪  精彩内容抢先看


个性解读|课题设计

生信热点|直播分享

尽在生信人


研究结果

1.1.研究概述

对样本收集血浆样本后,使用 TET 辅助吡啶硼烷测序 (TAPS) 进行全基因组测序,经与人类基因组 (GRCh38)比对,并对拷贝数畸变、甲基化修饰、体细胞点突变和插入缺失进行分析,其中包括使用非癌性 SCAN 对照进行高效去噪。通过整合来自所有三种数据模式的分析,生成了用于血浆 ctDNA 负荷定量的样本特异性评分,用于癌症检测和治疗后疾病追踪。

1.2.ctDNA检测中的染色体改变分析

拷贝数畸变(CNAs)是癌症的标志之一,表现为染色体物质的丢失或增加,广泛存在于肿瘤发生的早期阶段,并持续至肿瘤的后续发展。这种变化可以通过血浆中的cfDNA(循环游离DNA)进行非侵入性检测,适用于几乎所有类型的癌症。通过WGS(全基因组测序)分析,能够发现与二倍体状态相对应的染色体增益或丧失,反映了肿瘤的拷贝数状态。


对于cfDNA样本,基因组被划分为1kb的小区段,然后通过高质量比对的读取数量进行分析,去除伪影和偏差。为了避免因GC含量、可映射性等因素引入的偏差,应用统计方法进一步去除这些因素,确保分析的准确性。此外,进一步去噪过程可消除实验和生物因素带来的系统误差,确保能在低ctDNA含量的样本中准确检测到细微的拷贝数变化。


通过对比癌症与非癌症对照组样本,可以量化染色体的增益或丧失情况。结果显示,癌症样本的拷贝数变化显著高于对照组,且这种变化与癌症的分期相关,随着病程的推进,拷贝数变化的范围和数量增大。在研究者研究的6种癌症类型中,拷贝数畸变的敏感性为47.5%,在不同的癌症阶段都能检测到这些变化。


为了评估该方法的临床应用,研究者进行了ROC(受试者工作特征)分析,评估了不同ctDNA含量下的方法性能。结果表明,当ctDNA水平达到0.6%时,CNA评分能够有效区分癌症和非癌症样本,ROC曲线下面积(AUC)达到80%,证明该方法能够在低ctDNA含量下可靠地检测到癌症。

A 患者 GEL195(结直肠癌)在去噪前 (Ai)、去噪后 (Aii) 和去噪后活检 (Aiii) 的覆盖信号。还显示了非癌症对照以供比较 (Aiv)。血浆样本中每个染色体臂中的聚集覆盖信号与一组非癌症对照血浆 CBS (Cambridge Bioscience)样本中的相应臂进行比较,以寻找增益(红色)或损失(绿色)。Bi 与非癌症血浆CBS对照相比,量化每个癌症血浆样本染色体臂覆盖率失衡的双评分。在每个样本中,每个圆圈对应一个不同的染色体臂。红色圆圈表示染色体物质的增加或减少。Bii每个血浆样本中所有染色体臂的综合CNA评分。红色圆圈表示相应样本中染色体物质的增加或减少。61份癌症样本中有29份被正确识别(敏感性47.5%)。C癌症分期和类型的综合CNA评分(Ci),以及中位综合CNA得分随癌症分期(Cii)单调增加。D 在增加 ctDNA 馏分时 CNA 分析性能的计算机模拟评估。在每个 ctDNA 组分中,使用实际的非癌和癌血浆样本作为模板模拟 1000 个非癌和 1000 个癌血浆样本。


1.3.ctDNA检测的体细胞突变负荷分析

ctDNA检测的体细胞突变负荷分析主要关注血浆中的cfDNA与肿瘤体细胞突变的关系。在癌症诊断中,ctDNA可作为重要的生物标志物,但其挑战在于区分肿瘤突变与种系变体及测序错误。为解决这一问题,研究者通过深度WGS(至少80倍覆盖)结合定制软件,去除种系突变、抑制错误并去噪。分析发现,非癌症血浆样本的体细胞突变数为151个,癌症样本显著增多,胰腺癌样本突变最多。研究还显示,通过比较每个染色体臂的突变负荷,可以敏感地检测到癌症样本的体细胞突变负荷显著增加。通过体细胞突变评分方法,研究在52.5%的癌症样本中检测到突变负荷增加,且与癌症分期中度相关,提供了较高的诊断敏感性(AUC 74%)。此方法在ctDNA检测中展示了潜力,能够早期发现癌症并监测疾病进展。

不同癌症类型和非癌症 CBS 对照 (Ai) 中的体细胞突变负荷、基因间突变数的分布 (Aii) 和突变的后果 (Aiii)。Bi与非癌症血浆CBS对照相比,量化每个癌症血浆样本染色体臂突变负担失衡的双评分。在每个样本中,每个圆圈对应一个不同的染色体臂。红色圆圈表示染色体臂的体细胞突变负担与CBS对照中的同一臂存在差异。Bii每个血浆样本中所有染色体臂的综合体细胞突变评分。C癌症分期和类型的综合体细胞突变评分(Ci),以及综合体细胞变异评分中位数与分期(Cii)之间的中度相关性.D增加ctDNA分数时体细胞突变分析的计算机验证。D增加ctDNA分数时体细胞突变分析的计算机验证。

1.4.甲基化信号分析用于ctDNA检测

DNA甲基化是一种重要的表观遗传机制,调节基因表达,且异常的DNA甲基化模式与癌症的发生、发展和转移密切相关。通过血浆cfDNA研究甲基化组,可以利用组织特异性甲基化特征对癌症进行诊断和监测。在本研究中,基于TCGA数据,提取了高甲基化区域,并在cfDNA样本中检测这些区域的甲基化水平。采用以片段为中心的方法来提高低ctDNA分数设置下的灵敏度。片段甲基化水平超过80%时被判定为肿瘤来源。通过与非癌症对照样本比较,计算每个区域的甲基化分数,并得出每个样本的综合甲基化评分。结果显示,在不同癌症类型的血浆样本中,甲基化负荷显著较高的区域表现出较高的敏感性(45.9%)。ROC分析表明,当ctDNA分数为0.9%时,AUC值为87%。该方法在早期和晚期癌症阶段均能有效检测到异常甲基化,具有较高的诊断性能,能够为ctDNA检测提供有力的支持。

Ai评分量化了每个癌症血浆样本中377个区域(从TCGA中提取)与非癌症血浆CBS对照相比甲基化负荷的不平衡。每个圆圈对应于不同的区域,红色圆圈表示癌症血浆和CBS对照之间的对应区域的过度甲基化。Aii每个血浆样本中所有区域的综合甲基化评分。与CBS对照组相比,红色圆圈表示血浆样本甲基化过度。B癌症分期和类型的综合甲基化评分(Bi),以及中位综合甲基化得分随癌症分期单调增加(Bii)。C 在增加 ctDNA 组分时甲基化分析的计算机验证。


1.5.集成多种基因组模式进行 ctDNA 检测

本研究通过整合拷贝数畸变、体细胞单核苷酸变异和甲基化信号三种基因组数据模式,开发了一种综合多模态评分方法,旨在提高血浆样本中ctDNA检测的灵敏度。在结合这三种数据模式时,灵敏度达到了85.2%,特异性为88.8%,AUC为83.5%。即使其中某些数据模式缺失,Stouffer方法仍能有效计算综合分数。该方法在不同癌症类型(结直肠、食管、卵巢等)中均表现出较高的检测能力,尤其在早期癌症病例中也具有显著的灵敏度提升。此外,通过支持向量机的多类分类器,结合所有三种数据模式,能够有效区分不同癌症类型,准确率达到71.7%。这些结果表明,集成多种基因组模式对ctDNA检测和癌症类型预测具有显著的应用潜力。

A 多模式评分,用于定量通过整合每个血浆样品中的拷贝数畸变、体细胞 SNV 和 INDEL 以及甲基化信号而生成的血浆 ctDNA。红色圆圈表示与非癌症 CBS 对照相比,ctDNA 负荷更高。B 针对癌症分期和类型 (Bi) 的多模态评分以及癌症分期 (Bii) 的中位多模态评分的单调增加。C 在增加 ctDNA 馏分时对多模式分析进行计算机验证。


1.6.多模态 ctDNA 检测用于无匹配肿瘤的结直肠癌术后 MRD 和辅助治疗反应跟踪

本研究重点分析了结直肠癌术前和术后血浆样本中的ctDNA,以评估其在术后微小残留疾病(MRD)及辅助治疗反应中的作用。分析了10名患者的血浆样本,术前检测到ctDNA的患者术后情况与辅助治疗反应密切相关。在未接受辅助治疗的患者中,部分术后血浆样本显示ctDNA,且与复发或癌前病变相关。辅助治疗后的患者中,ctDNA的消失与无事件生存期(无复发、转移或癌前病变)相关。9名患者中,术后无ctDNA的患者表现出较好的无事件生存期。结果表明,多模态ctDNA检测可有效跟踪术后MRD和辅助治疗反应,为结直肠癌的监测提供有力支持。

A 跟踪病例 GEL193 的术后 MRD。手术后 1 年在血浆中可检测到 ctDNA,这与无法手术的转移性直肠癌和放射学检查提示的可能肺腺癌相关,这两者都是在收集术后血浆样本后 ~3 年记录的。B 跟踪手术后对辅助治疗的反应。病例 GEL282 (Bi) 在最后一个治疗周期后没有立即检测到的 ctDNA。然而,5 个月后检测到低 ctDNA 负荷,这与大约同时乙状结肠中存在具有低度异型增生的管状腺瘤相关。病例 GEL432 (Bii) 在最后一个治疗周期后不久没有可检测到的 ctDNA,并且在收集最后一个血浆样本后 ~6 年仍然活着。C 9 名结直肠癌患者的混淆矩阵 (Ci) 和无事件(即不存在复发、转移或癌前腺瘤)生存期 (Cii)。

结语

使用深度全基因组测序结合 TAPS 的多模式 ctDNA 分析方法可以高精度地检测早期和晚期癌症中的癌症信号。


2.

而于2025 年 1 月 2 日发表的Integrated multiomics signatures to optimize the accurate diagnosis of lung cancer研究建立多组学模型 。从不确定肺结节 (IPL) 诊断肺癌仍然具有挑战性。在这项涉及 2032 名 IPL 参与者的多机构研究中,研究者将 5-甲基胞嘧啶 (5mC) 富集区域的临床、放射组学与循环游离 DNA 片段组学特征相结合,以建立多组学模型 (clinic-RadmC) 用于预测 IPL 的恶性肿瘤风险。研究表明,clinic-RadmC 为优化肺癌诊断提供了一种更有效、无创的工具,从而促进了精准干预。


研究结果

2.1.片段组学模型建立

5-甲基胞嘧啶 (5mC) 和 5-羟甲基胞嘧啶 (5hmC) 测序数据的中位映射片段数量分别为 1270 万和 1410 万,未检测到由医院区域诱导的系统偏差或批次效应。在5mC和5hmC测序数据中,分别鉴定出27个4bp和11个6bp末端基序,以及11个4bp和11个6bp末端基序。对这些基序进行特征降维和选择后,建立了预测模型。6bp-5mC模型在验证集和外部测试集上显示更高的AUC(0.805、0.826),优于4bp-5mC模型,但无显著差异(p > 0.05)。在所有数据集中,6bp-5mC模型表现出更高的特异性、PPV(positive predictive value,阳性预测值)和准确性。对于5hmC数据,6bp-5hmC模型在外部测试集上同样表现优于4bp-5hmC模型。随着数据下采样至25%、50%、75%,6bp基序的模型性能和稳健性保持最佳。功能分析显示,6bp-5mC模型与131个转录因子相关,并富集于癌症相关途径。最终选择6bp-5mC和6bp-5hmC模型用于后续分析。

A确定cfDNA相对于hg19参考基因组的每个5'片段末端上的第一个6核苷酸序列(即6米末端基序)的过程示意图;B对5mC测序数据中选出的6个bp末端基序进行层次聚类分析;表观基因组模型在验证集C、内部测试集D和外部测试集(E)上的受试者操作特征分析;F柱状图显示了从5mC测序数据中选出的6米末端基序所鉴定的TF;G柱状图显示了这些已鉴定的转录因子的调控靶基因;H基于目标基因的前15个最丰富的GO术语。


2.2.多组学模型建立

多变量 logistic 回归分析显示,年龄、放射学实性成分大小、DL-放射组学模型评分、6bp-5mC 模型评分和 6bp-5hmC 模型评分是 IPLs 恶性肿瘤风险的重要预测因子。将临床因素、DL-放射组学模型与 6bp-5mC 模型相结合建立 clinic-RadmC 模型。校准曲线和DCA分析表明,临床-RadmC模型与实际恶性肿瘤风险概率一致,且提供了较好的临床益处。进一步比较显示,临床-RadmC模型在所有数据集上均优于单一组学模型,尤其是在外部测试集。SHAP分析显示,DL-放射组学模型评分对模型输出的恶性肿瘤概率影响最大。

验证集 A、内部测试集 B 和外部测试集 C 上多组学模型中包含的特征的 Pearson 相关系数分析。验证集 D、内部测试集 E 和外部测试集 F 上的模型的受试者工作特征分析和性能指标。

结语

在这项涉及大量人群的多机构研究中,通过将临床、碎片组学和放射组学特征相结合建立了临床-RadmC 模型,并证明该多组学模型为肺癌提供了额外的诊断信息。并进一步揭示了它在预测 IPLs 恶性肿瘤风险方面优于单组学模型和临床模型,执行时间小于 1 秒,为肺癌检测提供了一种快速、有效和无创的方法,并促进了个体管理。


3.结语

循环肿瘤 DNA、DNA 甲基化,也被研究为癌症的潜在诊断生物标志物,从而优化早期癌症诊断。cfDNA 的片段化模式代表了肿瘤学中另一类基于液体活检的生物标志物,有望用于癌症检测。相信在不久的将来,cfDNA将能够更有效地促进癌症的早期诊断及后期治疗,为广大患者带来福音。


4.ref

1.Vavoulis, D.V., Cutts, A., Thota, N. et al. Multimodal cell-free DNA whole-genome TAPS is sensitive and reveals specific cancer signals. Nat Commun 16, 430 (2025). https://doi.org/10.1038/s41467-024-55428-y

2.Zhao, M., Xue, G., He, B. et al. Integrated multiomics signatures to optimize the accurate diagnosis of lung cancer. Nat Commun 16, 84 (2025). https://doi.org/10.1038/s41467-024-55594-z

扫码添加  ⬪  精彩内容抢先看


个性解读|课题设计

生信热点|直播分享

尽在生信人


最新文章汇总(持续更新ing)


最新热点方向

1、去年才出的review,今年就有顶刊了——神经免疫

2、医之侠者:中国肺癌领军人物吴一龙

3、陈志坚成果汇总|大概率是华人下一位诺奖获得者

4、《Nature》中肠道菌群研究的正确打开方式

5、这文章才十来分,是被nature撤稿影响了吗?


生信人课堂

1、多组学水平的孟德尔随机化分析套路

2、单细胞+空转王炸组合,探索骨骼肌纤维化巨噬细胞

3、以小博大,紧张刺激:肿瘤耐药研究,从基因到网络

4、零基础入门-单细胞课程

5、史上最全格局打开,细讲基因组学,确定不来学学?


课题设计 | 生信分析 | 数字产品

概普生物 让科研丰富

生信人

专注于基因技术相关知识分享
扫码关注 获取更多






END