Basic Information 英文标题: Origins and impact of extrachromosomal DNA 文章作者:Chris Bailey | Charles Swanton 文章链接:https://www.nature.com/articles/s41586-024-08107-3 Abstract Para_01 染色体外DNA(ecDNA)是导致癌症患者治疗抵抗和不良预后的关键因素。 在这里,我们研究了不同癌症中ecDNA元素的多样性,揭示了相关的组织、遗传和突变背景。 通过分析来自100,000基因组项目的14,778名患者的39种肿瘤类型的数据,我们发现17.1%的肿瘤样本含有ecDNA。 我们揭示了一种高度指示基于组织环境选择ecDNA的模式,将其基因组内容与其起源组织联系起来。 我们不仅表明ecDNA是一种驱动癌基因扩增的机制,还表明它经常扩增调节淋巴细胞介导的免疫和免疫效应过程的免疫调节和炎症基因。 此外,携带免疫调节基因的ecDNA与肿瘤T细胞浸润减少有关。 我们还发现了仅携带增强子、启动子和长非编码RNA元件的ecDNA,这表明ecDNA之间在顺式作用中的组合能力。 我们还确定了与ecDNA相关的内在和环境突变过程,包括与其形成相关的烟草暴露和进展相关的同源重组修复缺陷等。 临床上,ecDNA检测与肿瘤分期相关,靶向治疗和细胞毒性治疗后更为普遍,并与转移和较短的总生存期相关。 这些结果阐明了为什么ecDNA是一个重要的临床问题,可以协同驱动肿瘤生长信号,改变转录景观并抑制免疫系统。 Main Para_01 单个 ecDNA 是大型(通常大于 500 千碱基 (kb))的、可移动的、含基因(和调控区)的环状 DNA 颗粒,可以在许多癌细胞的细胞核中找到。 非染色体遗传和 ecDNA 在细胞分裂过程中随机分离促进了高拷贝数癌基因和肿瘤内遗传异质性,有助于快速基因组变化以驱动治疗耐药性。 ecDNA 的高度可接近染色质,以及其环状结构导致的基因调控架构改变,以及形成促进分子间合作的中心的倾向,产生了高水平的致癌转录,有助于肿瘤发生。 ecDNA 可以在肿瘤发生的早期出现,例如从巴雷特高级别不典型增生到食管腺癌的转变,也可以在疾病进展的后期检测到。 由于 ecDNA 通过快速基因组改变驱动治疗耐药性,这可能会加速疾病进展,因此区分 ecDNA 和其他类型的局灶性扩增很重要。 能够计算判断一个扩增基因是否来自 ecDNA,并解析其结构和序列,有助于研究 ecDNA 在人类癌症中的分布。 英国基因组学(GEL)100,000 基因组项目(100kGP)提供了注释临床信息的全基因组测序机会,可以揭示人类癌症中 ecDNA 的图谱,并阐明其发展背后的分子过程,同时深入了解其临床影响。 The body map of ecDNA Para_01 我们分析了来自英国13个国民健康服务基因医学中心招募的14,778名患者的15,832个全基因组测序癌症样本,作为GEL 100kGP(GEL v12数据发布)的一部分。 我们使用了AmpliconArchitect和AmpliconClassifier,这些计算工具已被证明可以从全基因组测序数据中识别出ecDNA(图1a和扩展数据图1a,b)。 为了验证我们的发现,我们在GEL队列中可用的六个去分化脂肪肉瘤组织样本、四个骨肉瘤组织样本和一个血管肉瘤组织样本上进行了荧光原位杂交(FISH),使用MDM2、CDK4、PDGFRA和MYC癌基因探针(图1a和扩展数据图2)。 Fig. 1: The body map of ecDNA prevalence across 39 tumour types.
a,用于处理 GEL 队列的分析流程(顶部),显示了两名 GEL 患者的代表性 FISH 图像和 AmpliconArchitect 结构变异(SV)视图(底部)。 这些例子展示了预测为与 FISH 图像一致的染色体扩增(左)和与 FISH 图像一致的 ecDNA(右)。 b,条形图显示了含有致癌基因的 ecDNA 的发生次数,条形的颜色表示每种组织类型的病例数。 c,特定癌症类型的 ecDNA 普遍性体图。每个子面板显示了特定组织类型(x 轴)的癌症类型中 ecDNA 的普遍性(y 轴),如体图示意图所示。 橙色虚线代表整个队列中由 ecDNA 驱动的扩增普遍性的中位数。 d,堆叠条形图显示了存在于 ecDNA 上的致癌基因中观察到的非同义突变类型的比例(顶部)以及这些非同义突变在不同时间类别中的比例(底部;方法部分)。 仅显示影响最常出现在 ecDNA 上的 21 种致癌基因的突变。 e,dN/dS 分析比较了当致癌基因存在于染色体扩增、ecDNA 和基因组中无扩增区域时的突变情况。 误差条表示使用 dNdScv 包中的 genesetdnds 计算的 95% 置信区间。 ADENO,腺癌;AST,星形细胞瘤;BFB,断裂-融合-桥接;BLCA,膀胱癌;BRCA,乳腺癌;CHO,脊索瘤;CHOL,胆管癌;CNS,中枢神经系统;GBM,胶质母细胞瘤;GI,胃肠道;HPB,肝胰腺胆道癌;KIRC,透明细胞肾细胞癌;LIHC,肝细胞癌;LMS,平滑肌肉瘤;LPS,脂肪肉瘤;LUAD,肺腺癌;LUSC,肺鳞状细胞癌;MELA,恶性黑色素瘤;MFS,黏液纤维肉瘤;ODG,少突胶质细胞瘤;OPT,口咽肿瘤;OSA,原发性常规骨肉瘤;OVA,卵巢癌;PAAD,胰腺导管腺癌;PRAD,前列腺腺癌;SCC,鳞状细胞癌;SCLC,小细胞肺癌;STAD,胃腺癌;TN,三阴性;UGI,上消化道;UTER,子宫内膜癌。 a 中的 Eppendorf 管图形和 c 中的体图图形是在 BioRender.com 上创建的。 Para_02 我们对39种实体和血液肿瘤亚型进行了分类,并量化了来自14,778名患者的15,832个样本中的局灶性扩增(补充表1)。 在研究中的14,778名癌症患者中,1,800名患者被记录在接受激素治疗(n = 27)、免疫治疗(n = 57)、靶向治疗(n = 415)和/或细胞毒性化疗(n = 1,653)治疗前进行了活检。 10,780名(72.9%)患者有分期信息,其中836名(5.7%)患者被记录为患有4期疾病(扩展数据图1c)。 局灶性扩增定义为基因组中50 kb到20 Mb大小的区域,最小拷贝数为4.5,且至少是肿瘤估计倍性的两倍。 肿瘤纯度范围从10%到95%,平均为50.1%(扩展数据图3a)。 这项大规模分析使我们能够开发出一张包含人类身体各部位ecDNA频率和内容的数据丰富的地图(图1c),并解析多种癌症中ecDNA的突变过程、基因组背景和临床意义。 共鉴定出4,716个独特的ecDNA,来自2,532个ecDNA阳性肿瘤。 Para_03 在17.1%的肿瘤样本中检测到ecDNA扩增,不同癌症类型的频率、拷贝数和大小差异很大(图1c,扩展数据图3b-e和补充表2-4)。 在脂肪肉瘤中检测到ecDNA的比例为54.9%(n=82,95%置信区间44.7-65.8%),胶质母细胞瘤中为49.1%(n=291,95%置信区间43.3-55.0%),HER2阳性乳腺癌(HER2+ BRCA)中为46.4%(n=196,95%置信区间39.3-53.7%;我们通过FISH在独立队列中确认了一些例子;扩展数据图4),上消化道腺癌中为37.9%,肺鳞状细胞癌中为22.4%,膀胱癌中为24.6%,卵巢癌中为20.4%,等等(图1d)。 某些肿瘤类型的ecDNA检出率非常低,包括少突胶质细胞瘤,在该类型中未检测到ecDNA(n=57)。 此外,特定致癌基因的扩增在不同组织类型中差异很大(补充表1)。 这些结果揭示了组织谱系对ecDNA频率和内容的强烈影响。 Para_04 在检测到 ecDNA 的 36/37 种肿瘤类型中,当从 ecDNA 衍生时,局灶性扩增的估计拷贝数高于染色体扩增(扩展数据图 5a)。 大多数 ecDNA 来自一个染色体上的一个位点(89.9%,n = 3,705)。 一些 ecDNA 由不同染色体上的基因组成,主要见于肉瘤和乳腺癌(扩展数据图 5b,c)。 值得注意的是,乳腺癌中观察到的染色体易位(如 t(8;11),t(8;17) 和 t(11;17))衍生的 ecDNA 可能是通过最近描述的易位-桥机制产生的。 ecDNA 通常包含同一个 ecDNA 上的多个致癌基因(46%),主要是由于它们在 ecDNA 起源的原始染色体上靠近致癌基因(扩展数据图 6a,b)。 我们还检测到具有多种不同拷贝数状态的 ecDNA 物种的肿瘤,这些物种携带不同的致癌基因(扩展数据图 6c–e)。 Para_05 由于其非染色体遗传,ecDNA 促进了肿瘤内遗传异质性。 在 578 名患者中,从同一肿瘤的不同区域取样,检测到 151 个肿瘤(26.1%)含有 ecDNA。 控制肿瘤类型后,当对同一肿瘤的两个区域进行采样时,检测到 ecDNA 的几率增加了 2.6 倍(比值比 (OR) 2.6,95% 置信区间 2.2–3.1;扩展数据图 7a)。 此外,在进行了多区域测序的肿瘤中,超过 60% 的肿瘤仅在部分区域检测到 ecDNA(区域;扩展数据图 7b)。 Selection of ecDNA-associated oncogenes Para_01 在置换背景下的 ecDNA 上检测到显著的致癌基因富集(比例 0.031,P < 0.0001;扩展数据图 7c 和方法),相对于局部染色体扩增,ecDNA 上扩增致癌基因的可能性更大(扩展数据图 7d),并且在匹配拷贝数的情况下,每个 ecDNA 上的致癌基因数量更高(扩展数据图 7e)。 此外,ecDNA 上反复扩增的基因更可能是致癌基因,与染色体扩增上的基因相比(扩展数据图 7d),即使在匹配扩增大小的情况下也是如此(扩展数据图 7f)。 这些数据,加上细胞分裂过程中 ecDNA 的非染色体遗传性,与选择编码致癌基因的 ecDNA 的进化一致。 Para_02 编码在 ecDNA 上的癌基因比非 ecDNA 驱动的局灶性扩增具有更高的拷贝数(扩展数据图 8a)。 我们发现一些已知的驱动癌基因在 ecDNA 上的扩增频率高于染色体上的扩增,包括 FGFR2(比例 0.63,中位扩增拷贝数 = 16.0),MDM2(0.58,13.7)和 CDK4(0.56,14.0)。 在所有肿瘤类型中,RTK–RAS(EGFR、ERBB2 和 FGFR1)、TP53(MDM2)和细胞周期(CCND1 和 CDK4)通路中的癌基因最常在 ecDNA 上扩增(扩展数据图 8b)。 许多这些驱动癌基因的扩增拷贝包含高拷贝数的错义突变,在 CDK4 和 EGFR 的情况下,这些突变发生在 ecDNA 形成之前(图 1d)。 Para_03 为了进一步评估癌基因选择的强度,我们分析了错义、无义和必需剪接突变相关的非同义(dN)与同义(dS)替换的比例。 我们将 GEL 队列中基因扩增的频率与从 dN/dS 比率得出的基于突变的正向选择信号进行了比较(方法和扩展数据图 8c)。 然后,我们比较了未扩增、ecDNA 扩增和染色体扩增基因之间的基于突变的正向选择,发现当扩增时,EGFR 和 ERBB2 突变受到更强烈的正向选择(图 1e 和补充表 5)。 这些结果表明,含有驱动突变的癌基因的 ecDNA 处于强烈的进化压力之下。 不出所料,65.7% 检测到 ecDNA 的肿瘤在这些 ecDNA 上含有癌基因(Bushman 癌基因列表 (http://www.bushmanlab.org/links/genelists);图 2a–c)。 使用癌症基因普查(https://www.sanger.ac.uk/data/cancer-gene-census/)计算的 ecDNA 上含有癌基因的肿瘤比例为 51%,这反映了这些列表的包容性差异。 Fig. 2: Immunomodulatory and regulatory ecDNA.
b,条形图显示了携带由癌症基因普查或布什曼癌症基因列表定义的致癌基因的患者比例(顶部),以及示意图中展示的每个 ecDNA 子类的患者比例(底部)。虚线表示所有发现携带 ≥1 个癌症基因普查中的致癌基因的 ecDNA 都会被进一步分类。 c,堆叠条形图显示了该癌症类型中表现出 ecDNA 的患者比例(顶部)和该癌症类型中每个 ecDNA 子类的 ecDNA 比例(底部)。 d,顶部:条形图显示免疫调节基因在 ecDNA 上的总出现次数(y 轴)(x 轴)。中部:热图显示与免疫基因相关的 GO 术语(绿色)。底部:观察到免疫基因存在于 ecDNA 上的癌症类型;单元格颜色表示观察到它们的肿瘤数量。左下角:显示免疫调节机制的示意图。TH 细胞,T 辅助细胞;NK 细胞,自然杀伤细胞;TH,T 辅助。 e,小提琴图显示了在存在携带致癌基因、免疫调节基因或同时携带这两种基因的 ecDNA 时,通过 DNA 测序推断出的 T 细胞比例。 f,森林图显示了在存在免疫调节基因或同时携带致癌基因和免疫调节基因的 ecDNA 时,T 细胞比例增加的比值比,相对于仅携带致癌基因的 ecDNA,并控制了纯度。误差条代表比值比的 95% 置信区间。排除了中枢神经系统肿瘤。 g,箱线图显示了不同 ecDNA 子类的 ecDNA 副本数。 h,条形图显示了按组织类型分类的不同 ecDNA 子类的比例(左侧)和调节子类 ecDNA 上非编码元件的频率(右侧)。a 和 d 中示意图中的 ecDNA 子类图形是在 BioRender.com 上创建的。 ecDNAs contain immunomodulatory genes Para_01 先前的数据表明,具有 ecDNA 驱动癌症的患者对免疫检查点抑制剂的反应较差,因为它们可能具有提示免疫抑制的转录模式。 之前在一位患有巴雷特食管和高级别异型增生并最终发展为食管腺癌的患者的活检中发现了携带免疫调节基因的 ecDNA。 我们确定了免疫调节基因在 ecDNA 上扩增的频率和组织背景,并调查了这些基因是否富集。 结果显示,34% 的带有 ecDNA 的肿瘤在其 ecDNA 上有已知的免疫调节基因扩增,其中大多数与附近位置的癌基因共扩增(图 2b,c)。 然而,41.5% 的带有免疫调节基因扩增的肿瘤在其相同的 ecDNA 上缺乏癌基因,这表明这些元件具有功能作用(图 2b,c)。 这些免疫调节基因参与了多个过程,如免疫效应过程的负调控(Gene Ontology 代码 GO:0002698,q 值 = 4.5 × 10−10),白细胞介导的细胞毒性(GO:0001909,q 值 = 2.2 × 10−7)和淋巴细胞激活的负调控(GO:0051250,q 值 = 1.7 × 10−4;图 2d,扩展数据图 9a–c 和补充表 6)。 Para_02 为了检查 ecDNA 上扩增的免疫调节基因可能产生的影响,我们随后比较了含有致癌基因的肿瘤中估计的 T 细胞比例(图 2e)。 在控制肿瘤纯度的情况下,我们发现含有免疫调节基因的 ecDNA 样本中的 T 细胞显著减少(比值比 0.86,95% 置信区间 0.74–0.99;图 2f),以及同时含有免疫调节基因和致癌基因的样本(比值比 0.78,95% 置信区间 0.66–0.92),与仅含有致癌基因而不含免疫调节基因的肿瘤相比,这可能有助于相对有限的免疫反应。 尽管不含致癌基因的 ecDNA 上扩增的免疫调节基因的拷贝数未达到含有致癌基因的 ecDNA 的水平,但相对于其他同样不含致癌基因的 ecDNA,拷贝数有所增加(Wilcoxon P < 10−16;图 2g)。 Regulatory ecDNAs Para_01 ecDNA生物学的一个方面是不同货物的ecDNA能够相互作用,形成ecDNA中心。 这是一种利用组合相互作用的方式,因为环状颗粒上的增强子可以与另一个颗粒上的启动子相互作用,从而驱动基因表达。 我们推断肿瘤样本中也可能存在仅包含调控元件(如启动子、增强子和lncRNA)的ecDNA(称为调控ecDNA)。 因此,我们使用人类癌症中的增强子和启动子列表以及lncRNA列表对已识别的ecDNA的DNA序列进行了注释(扩展数据图9d)。 与编码基因的ecDNA相比,调控ecDNA每兆碱基的远端增强子数量显著增加(27.3对13.7,P = 0.00023),启动子数量也显著增加(13.7对3.6,P = 0.001)(扩展数据图9f)。 仅含增强子的ecDNA经常与含有致癌基因的ecDNA在不同的ecDNA上共扩增(n = 140个样本),倾向于更小(中位大小0.12对3.56 Mb,P < 10−16;扩展数据图9g),并且拷贝数较低(中位数6.90对10.05个拷贝,P = 0.0078;扩展数据图9g)。 Para_02 我们接下来测量了仅增强子的 ecDNA 的扩增子复杂性,这量化了由 AmpliconArchitect 推断出的片段数量和结构分解的多样性(方法和扩展数据图 1b),发现其显著低于含有致癌基因的 ecDNA 的复杂性(中位数复杂度 3.04 对 1.10,P < 10^-16;扩展数据图 9g)。 与单独的仅增强子的 ecDNA 相比,与含有致癌基因的 ecDNA 共扩增的仅增强子的 ecDNA 具有显著更高的拷贝数(中位数,P = 0.00027;扩展数据图 9e)。 这些数据表明,调控元件是 ecDNA 中常见的货物,并且通过小而简单的结构进行扩增。 ecDNA and genomic instability Para_01 ecDNA 与特定肿瘤抑制基因突变、结构和数量染色体不稳定性以及全基因组复制之间的关系在不同癌症类型中尚未得到充分探索。 控制肿瘤类型后,TP53 突变与 ecDNA 的关联最为强烈(比值比 2.26,95% 置信区间 1.96–2.62;图 3a)。 TP53 突变肿瘤(无义和错义突变)和编码在 ecDNA 中的 MDM2 是互斥的(χ2 P = 0.00006;图 3b)。 我们还检测了组织类型特异性的高影响肿瘤抑制途径突变及其与 ecDNA 的关联。 ecDNA 与子宫内膜癌、肾癌(未另行指明)和雌激素受体阳性的乳腺癌中的 TP53 突变密切相关(图 3c 和补充表 7)。 ecDNA 的存在还与肉瘤(未另行指明)中的 NF1 突变、肾癌(未另行指明)中的 ARID1A 突变以及膀胱癌中的 RB1 突变相关(图 3c)。 TP53 在与 ecDNA 相关的癌症类型中是最常见的选择性压力(使用 dN/dS)(扩展数据图 10a,b 和补充表 8)。 Fig. 3: Correlates of genome instability and ecDNA.
a,森林图显示了一个回归模型的结果,该模型确定了肿瘤在存在或不存在ecDNA或染色体扩增的情况下具有高影响突变的几率(见补充信息),同时控制了癌症类型。与ecDNA相关的关联用圆圈表示,与染色体扩增相关的关联用菱形表示。 b,条形图显示了整个队列中具有任何ecDNA(蓝色)、MDM2 ecDNA(黄色)或无ecDNA(灰色)的肿瘤比例,并按TP53突变状态分组。 c,身体图,展示了选定癌症类型的面板。每个面板包含一个森林图,显示ecDNA存在或不存在与高影响肿瘤抑制基因突变之间的关联(顶部);一个森林图,显示ecDNA存在或不存在与全基因组不稳定性(wGII)、结构变异负担和全基因组复制(WGD)之间的关联(左下角);以及一个小提琴图,展示该癌症类型肿瘤的扩增子复杂性评分(右下角)。对于a和c,误差线代表OR估计值的95%置信区间。c中的身体图由BioRender.com创建。 Para_02 为了了解基因组不稳定性相关因素是否与 ecDNA 的存在有关,我们确定了检查肿瘤样本的整体基因组复制(定义为样本倍性 >2.7)、结构变异负担(每兆碱基检测到的结构变异数量)和加权基因组不稳定性指数(wGII;定义为相对于样本倍性的获得和丢失遗传物质的百分比;方法)。 我们同时计算了每个 ecDNA 的扩增子复杂性评分。低复杂性扩增子可能与 ecDNA 的游离体形成有关,而高复杂性扩增子可能与灾难性事件如染色体碎裂有关。 在队列中,整体基因组复制、wGII 和结构变异负担与 ecDNA 的存在呈正相关,这取决于肿瘤类型。 肉瘤富含高复杂性扩增子,并且与增加的结构变异负担相关(优势比 7.98,95% 置信区间 4.44–14.7),而结直肠肿瘤富含低复杂性 ecDNA,并且与高倍性和高 wGII 相关,但与结构变异负担无关,这表明不同的过程可能导致或与不同类型的 ecDNA 相关(图 3c 和补充表 9)。 ecDNA and mutational processes Para_01 GEL 数据集的规模使得能够检测到罕见的突变特征。因此,我们利用参考文献24的数据,旨在识别在含有 ecDNA 的肿瘤中优先发现的广泛突变过程。 Para_02 与染色体扩增相比,含有 ecDNA 的样本表现出更高的肿瘤突变负荷(TMB)(比值比 1.04,95% 置信区间 1.02-1.06),而缺乏局灶性扩增的样本(比值比 1.14,95% 置信区间 1.13-1.16)也是如此,当控制年龄、肿瘤类型和纯度时(图 4a 和扩展数据图 10c);然而,这种关联仅限于非高突变表型(图 4b)。 控制肿瘤类型后,全基因组单碱基替换(SBS)特征(利用突变碱基及其立即 5' 和 3' 的碱基推断突变过程;方法),包括 SBS1(脱氨基)、SBS4(吸烟)、SBS8(未知)和 SBS13(APOBEC 胞嘧啶脱氨酶)特征,与 ecDNA 的存在比其他局灶性扩增更为相关(与之前的观察一致),而错配修复缺陷(MMRd;SBS6、SBS15、SBS26 和 SBS44)和 DNA 聚合酶 δ 1 或 DNA 聚合酶 ε 缺陷(POLD1/POLEd)伴随 MMRd(SBS10a、SBS10b、SBS14 和 SBS20)特征与 ecDNA 形成的负相关性比染色体扩增更强(图 4b)。 我们还发现 ecDNA 与高突变之间存在负相关,这主要是由于 POLE/POLD1 缺陷肿瘤在结直肠癌和子宫内膜癌中未检测到 ecDNA(图 4b)。 Fig. 4: Mutational processes and ecDNA formation.
a,森林图显示了根据 ecDNA 或染色体扩增的存在,调整纯度、年龄和肿瘤类型后的 TMB 增加的比值比。 b,左上:TMB 窗口中的 ecDNA 和非 ecDNA 焦点扩增的分布。中上:森林图显示了回归模型的结果,该模型考察了 ecDNA 和染色体扩增与肿瘤纯度、TMB 及 POLD1/POLE 缺陷或 MMR 缺陷状态在高突变样本中的关联。右上和底部:肿瘤类型中 ecDNA 存在与 TMB 负相关的箱线图。 c,森林图显示了回归模型的结果,该模型测量了整个队列中全局 SBS 签名与 ecDNA 存在之间的关联。对于 a、b、c,误差条代表 OR 估计值的 95% 置信区间。 Para_03 为了确定可能作用于 ecDNA 本身的突变过程,我们使用最大似然估计方法将 ecDNA 上发现的突变与样本中所有其他剩余突变进行比较,以将突变归因于特定的突变过程(方法,扩展数据图 10d 和补充表 10)。 ecDNA 显著富集了 SBS3(同源重组缺陷),并与 SBS1(类似时钟的脱氨基)、SBS5(类似时钟的特征)、SBS8(未知)和 SBS17(未知)呈负相关。 ecDNA 还被发现相对于基因组的其余部分具有更多的与 APOBEC 相关的突变(SBS2 和 SBS13)(扩展数据图 10d)。 Para_04 与 ecDNA 相关的突变特征可能反映了它们形成或持续进化过程中涉及的机制。 通过将突变映射到预测的 ecDNA 上,我们能够推断出突变过程相对于 ecDNA 形成的时间。 预测存在于所有 ecDNA 上的突变必须是在 ecDNA 形成之前发生的,而不在所有 ecDNA 副本上的突变可能是在 ecDNA 形成之后发生的(扩展数据图 10e)。 控制肿瘤类型后,我们发现主要在 ecDNA 形成之前起作用的突变过程是与烟草暴露(SBS4 和 SBS92)、紫外线(SBS7a)和时钟样脱氨基(SBS1)相关的。 相比之下,同源重组修复缺陷的特征 SBS3 倾向于在 ecDNA 形成之后发生(扩展数据图 10f)。 Para_05 此外,治疗可能会影响 ecDNA 的发展。在一名接受替莫唑胺(TMZ)治疗的胶质母细胞瘤患者中,我们在每个 67 个 ecDNA 副本上检测到了 EGFR c.3106A>T 突变。我们进一步在这些 EGFR 突变的 ecDNA 上检测到了由 TMZ 引起的 SBS11 MMRd 高突变特征,导致这些 ecDNA 上出现了许多不同的突变,这些突变似乎与 TMZ 治疗有关,其中一些突变达到了非常高的等位基因频率,表明存在选择压力。综合这些数据表明,TMZ 治疗可以通过突变和随后的选择影响 ecDNA 的进化。 ecDNA and prognostic relevance Para_01 调整年龄、性别和肿瘤类型后,我们发现 ecDNA 与肿瘤分期增加显著相关(第 2 期与第 1 期:比值比 1.46,95% 置信区间 1.24-1.68;第 3 期与第 1 期:比值比 1.79,95% 置信区间 1.49-2.08;第 4 期与第 1 期:比值比 2.18,95% 置信区间 1.81-2.54;图 5a),这表明 ecDNA 与肿瘤分期有关。 进一步控制肿瘤类型后,我们发现 ecDNA 在转移性样本中显著富集(非配对,比值比 1.56,95% 置信区间 1.24-1.96;图 5b 和扩展数据图 10h),这表明 ecDNA 可能在癌症进展和转移的发展中起作用。 Fig. 5: ecDNA and clinical outcome.
a, 森林图显示了回归模型在疾病阶段背景下检测到 ecDNA 的结果。 b, 森林图显示了回归模型在转移性样本背景下调查所有局灶性扩增、ecDNA 和非 ecDNA 扩增的结果。 c, 森林图显示了回归分析的结果,该分析调查了 ecDNA 与临床变量之间的关联,并调整了癌症类型、年龄、性别和纯度。 对于 a, b, c,误差条代表 OR 估计值的 95% 置信区间。 d, Kaplan–Meier 图显示了 GEL 队列中的总体生存情况(14,773 名患者有生存数据)。 e, 森林图显示了完全调整后的 Cox 比例风险模型的结果,该模型调整了肿瘤分期、年龄、性别、wGII 和肿瘤类型。 Para_02 我们随后探讨了 ecDNA 与治疗之间的关联,在调整了年龄、分期、纯度和癌症类型后,通过逻辑回归模型揭示 ecDNA 检测显著与先前化疗(比值比 2.38,95% 置信区间 1.73-3.27)和靶向治疗(比值比 2.87,95% 置信区间 1.12-6.43;图 5c)相关。 在一个调整了肿瘤类型、分期、年龄、性别和潜在基因组不稳定性(wGII)的 Cox 比例风险模型中,ecDNA 的检测与较短的总生存期相关(风险比 1.44,95% 置信区间 1.25-1.66),相对于没有 ecDNA 证据的染色体内扩增(风险比 1.18,95% 置信区间 1.05-1.33)或没有局灶性扩增的肿瘤(图 5d,e)。 Discussion Para_01 其非染色体遗传驱动了肿瘤内的遗传异质性,加速了进化过程,从而使得肿瘤能够抵抗治疗。 ecDNA 的高度可接近染色质改变了基因调控结构,并促进了 ecDNA 颗粒之间的组合相互作用。 通过分析目前可用的最大单一批次全基因组测序的癌症患者样本集合,我们展示了 ecDNA 元素在癌症中的显著多样性,阐明了相关的组织和遗传背景以及与 ecDNA 相关的突变过程。 这些结果揭示了 ecDNA 如何通过高拷贝数癌基因扩增协同驱动肿瘤生长信号,可能通过仅含调控元件的 ecDNA 改变转录景观,以及如何通过免疫调节基因的扩增调节免疫系统。 Para_02 检测内在和环境突变过程,这些过程倾向于在 ecDNA 出现之前或之后发生,包括肿瘤早期的烟草暴露和 ecDNA 形成后的同源重组修复缺陷,为可能促进 ecDNA 形成和进展的因素提供了新的见解。 鉴于最近发现 ecDNA 可能在高级别不典型增生中出现,并有助于肿瘤的发生,这一点尤为重要。 此外,发现 ecDNA 水平可能在细胞毒性和靶向治疗后升高,这也暗示了 ecDNA 定向治疗与常规或精准肿瘤学治疗组合的潜在作用。 Para_03 我们的数据还揭示了一些意想不到的结果,例如在 HER2 阳性乳腺癌中发现的高比例的 ecDNA(39.3-53.7%),包括在 26% 的 HER2 阳性乳腺癌中发现的 ERBB2 在 ecDNA 上的扩增。 鉴于已知 ecDNA 在驱动细胞间异质性方面的作用,证明 HER2 阳性拷贝数异质性的增加与较短的无病生存期相关是值得注意的。 了解 HER2 阳性异质性在多大程度上是由 ecDNA 驱动的将至关重要,同时阐明 ecDNA 载荷的全部组成及其在 HER2 阳性癌症中的功能也将非常重要。 Para_04 从 WGS 数据中生物信息学检测 ecDNA 存在固有限制。 ecDNA 检测的一些限制是肿瘤特异性的,例如肿瘤纯度和 ecDNA 拷贝数的影响。 其他限制更为技术性,包括在基因组重复区域检测结构变异、测序覆盖率的影响以及区分不同类型局灶性扩增的算法挑战。 尽管这里使用的 ecDNA 检测方法已被证明是稳健的,但测序技术和 ecDNA 检测方法的改进应能提供更精确的 ecDNA 在癌症中的频率估计。 Para_05 最后,我们注意到,即使考虑到潜在的基因组不稳定性,ecDNA 仍与不良生存率相关,这表明存在特定于 ecDNA 的效应,导致患者预后不佳。 随着 ecDNA 通过快速生成和微调基因剂量对肿瘤内异质性、药物耐受性和不良生存率的贡献越来越明显,确定治疗脆弱点并识别限制 ecDNA 进化和维持的目标化合物这一重要且持续的挑战将适用于泛癌谱。 Methods Dataset 数据集
Para_01 作为旗舰项目的一部分,100kGP 被设立用于对患有罕见疾病和癌症的国家医疗服务体系(NHS)患者的 100,000 个全基因组进行测序。 在这项研究中,我们使用了第 12 版队列,包括 14,778 名参与者。 从肿瘤和匹配的胚系 DNA 样本生成的测序文库使用 Illumina HiSeq 平台进行了 150 碱基对的双端测序。 总共,16,355 个肿瘤样本和 16,555 个胚系样本进行了全基因组测序,目标深度分别为肿瘤 100 倍和胚系 30 倍。 Para_02 我们纳入了以下组织的癌症类型(n = 17):乳腺、肺、胃、神经内分泌、皮肤、口咽、结直肠、肾、前列腺、肝胰胆、膀胱、骨和软组织、卵巢、子宫内膜、中枢神经系统、淋巴样和髓样。 然后纳入了以下肿瘤亚型(n = 39):膀胱癌;脊索瘤;原发性常规骨肉瘤;脂肪肉瘤(包括去分化和黏液型);平滑肌肉瘤;黏液纤维肉瘤;未特指的肉瘤;HER2阳性乳腺癌;管腔型(雌激素受体阳性)乳腺癌;三阴性乳腺癌;未特指的乳腺癌;少突胶质细胞瘤;星形细胞瘤;多形性胶质母细胞瘤;成人未特指的胶质瘤;结直肠癌;肝胰胆未特指的癌症;肝细胞癌;胆管癌;胰腺导管腺癌;恶性胸膜间皮瘤;小细胞肺癌;肺鳞状细胞癌;肺腺癌;未特指的肺癌;淋巴样肿瘤;髓样肿瘤;神经内分泌肿瘤;口咽癌;卵巢癌;透明细胞肾癌;恶性黑色素瘤;未特指的肾癌;上消化道鳞状细胞癌;胃腺癌;上消化道腺癌;未特指的上消化道癌;以及子宫内膜癌。 Para_03 GEL 队列中的大多数肿瘤样本来自癌症早期且尚未接受治疗的患者(图 1c)。 肿瘤纯度低于 10% 的样本被排除在外,未知原发癌、儿科癌症和睾丸生殖细胞肿瘤的样本也被排除(510 个样本)。 队列中有 3.8%(598 个)的样本是福尔马林固定石蜡包埋(FFPE)样本。 10,780 名(72.9%)患者有分期信息,其中 836 名(5.7%)患者记录为第 4 期疾病(图 1c)。 肿瘤样本的中位覆盖深度为 97.6 倍,胚系样本的中位覆盖深度为 32.6 倍。 共有 1,800 名(12.1%)患者记录为在活检前接受了系统性抗癌治疗。 在这个群体中,治疗类型分为激素治疗(n = 27)、免疫治疗(n = 57)、靶向治疗(n = 415)或细胞毒性化疗(n = 1,653)。 Inclusion and ethics 包容与伦理
Para_01 本手稿中提出的研究符合伦理规定,并获得了东英格兰—剑桥南研究伦理委员会的批准(研究伦理委员会参考编号 14/EE/1112,综合研究申请系统编号 166046)。 参与者招募在 13 个 NHS 基因医学中心进行,所有参与者均提供了书面知情同意。 ecDNA calls ecDNA 调用
Para_01 使用 CNVKit v0.98 识别了局灶性 DNA 抄数改变。 使用 AmpliconArchitect v1.2 从识别的局灶性扩增构建环路路径,并使用 AmpliconClassifier v0.4.12 确定这些路径是否可能是 ecDNA。 这些步骤被封装到一个可在 https://github.com/AmpliconSuite/AmpliconSuite-pipeline 获取的单一工作流中。 Para_02 AmpliconArchitect 通过使用定义了局部放大的区域并扩展到这些区域之外来寻找拷贝数变化或不一致边缘,从而识别局部分段扩增的结构。 对于此分析,种子区间被定义为大于 50 kb 的区域,拷贝数阈值大于 4.5,是肿瘤倍性的两倍,并且至少比中位臂水平拷贝数多 2.5 倍。 然后将这些区域合并形成一个断点图,该图可以分解为简单和复杂的循环,以识别可能指示 ecDNA 的任何环状路径。 在种子区间内,ecDNA 重建的长度可能小于 50 kb。 AmpliconArchitect 还会屏蔽高度重复的区域,如着丝粒和近着丝粒区域中的 α-卫星序列。 Para_03 我们对从 GEL 获得的 11 个组织样本进行了额外的荧光原位杂交(FISH),证明了我们的计算预测的准确性为 90.9%(10/11),与这些方法之前的验证结果相当。 Para_04 如果在患者的肿瘤中检测到 ecDNA,则将患者归类为具有 ecDNA。 同时具有染色体扩增和 ecDNA 的患者被归类在 ecDNA 类别中。 Para_05 然后我们根据癌症基因普查(https://cancer.sanger.ac.uk/census)对每个 ecDNA 进行注释,判断其是否包含致癌基因。那些包含致癌基因的被标记为致癌 ecDNA。 随后,我们进一步根据是否有基因被注释将 ecDNA 分类,将其分为‘不含已知致癌基因的 ecDNA’和‘不含编码基因的 ecDNA’。 接着,我们对不含已知致癌基因的 ecDNA 编码的基因进行了富集分析,以展示免疫调节基因的富集情况。 Amplicon complexity 扩增子复杂性
Para_01 扩增子复杂度评分,如参考文献10所定义,由AmpliconClassifier计算(扩展数据图1b)。 对于每个由种子区间定义的扩增子,AmpliconArchitect生成一个拷贝数感知(CNA)断点图。 AmpliconArchitect还输出表示通过此CNA断点图的循环和非循环路径的分解。 这些分解被作为输入传递给AmpliconClassifier,以生成复杂度评分,该评分旨在捕捉存在的循环和/或非循环路径的多样性。 每条路径都有一个拷贝数和千碱基对的长度,这些信息结合在一起创建了一个长度加权的拷贝数(归一化为CNA断点图中存在的总长度加权拷贝数),复杂度评分是通过三个对数转换的测量值之和计算得出:扩增子中存在的拷贝数段的总数;每个循环路径的归一化长度加权拷贝数;以及未被循环路径解释的剩余归一化长度加权拷贝数。 Over-representation analysis 过表达分析
Para_01 使用 cluster profiler 包(v4.6.2)进行了过度表达分析。 为了确定注释在‘不含已知癌基因的 ecDNA’上的基因是否在预定义集中出现频率高于随机预期,将注释的基因分配到特定的基因集(由 GO 术语表示)。 随后,将分配给该 GO 术语的基因观察比例与背景中所有基因的预期比例进行比较,使用 Fisher 精确检验。 Para_02 使用 Benjamini-Hochberg 方法获得了调整后的错误发现率 P 值,显著性的阈值设定为 q > 0.001。 如果一个显著基因集中的基因映射到一个不包含致癌基因的 ecDNA,并且该显著基因集具有免疫调节功能(GO 术语:0006968, 0002228, 0042267, 0001906, 0001909, 0002698, 0001910, 0031341, 0002367, 0002695, 0050866, 0051250, 0050777),则认为该 ecDNA 具有免疫调节作用。 Permutation test for oncogene enrichment 癌基因富集的排列检验
Para_01 对于置换检验,首先计算包含癌基因的局灶性扩增的比例。 从至少在 ecDNA 上鉴定出一次的基因池(n = 20,713)中,随机抽取 256 个基因并计算比例。 这一计算重复进行了 10,000 次,以获得属于同等大小基因集的基因比例的背景分布。 Estimates of selection using dN/dS 使用 dN/dS 估计选择
Para_01 dN/dS 估计值是使用 dNdScv 软件包计算的,该软件包运行于队列中的所有突变上。 该方法采用最大似然法分析错义(错义、无义和必需剪接突变)与同义替换的比例,以推断作用于蛋白质编码基因的选择强度。 它还通过联合分析局部和全局信息来估计每个基因的背景突变率,这些信息考虑了序列组成和突变特征的贡献。 在我们的分析中,dN/dS 比值的估计是在整个基因组范围内进行的,同时也按上下文进行了分层,包括 ecDNA 扩增、非 ecDNA 扩增和基因组的非扩增区域(扩展数据图 10a)。 六个基因在队列中超过 5% 的样本中被扩增,并显示出强烈的正选择信号(dN/dS 估计值 > 5);这些基因包括 YEATS4、CCT2、FPS6(肉瘤)、KRAS、ERBB2(上消化道)和 EGFR(中枢神经系统;扩展数据图 7f)。 Somatic mutation calling/ploidy and purity estimation 体细胞突变检测/倍性及纯度估计
Para_01 使用了 Strelka2(版本 2.4.7)和 Manta(版本 0.28.0)分别用于调用突变和结构变异(SVs)。 Manta 结合了配对读段和分裂读段的证据进行 SV 发现和评分。 对原始变异调用应用了以下过滤器:正常样本在变异断点两端之一或两者附近的深度比染色体平均深度高三倍的 SV;体细胞质量得分低于 30 的 SV;长度超过 10 kb 的体细胞缺失和重复;体细胞小变异(<1 kb)在变异断点两端的 MAPQ0 读段比例超过 0.4 的。 为了估计倍性,使用了来自 ref. 35 的 CakeTin 管道,适用于 9,141 个样本。 Calculation of wGII wGII 的计算
Para_01 wGII 分数计算为相对于中位数倍性水平的基因组异常拷贝数的比例,并按染色体加权。 中位数倍性和拷贝数段均从 CNVKit 软件的输出结果四舍五入到最近的整数拷贝状态。 SBS signature analysis SBS签名分析
Para_01 参考文献24量化了在多个全基因组测序队列(包括GEL)中每个96个三核苷酸上下文中发现的SBS的比例,并使用非负矩阵分解分析这些数据,推断出一组SBS特征。 然后我们使用这组参考SBS特征来推断我们队列中最可能的SBS特征。 利用样本级别的SBS暴露和SBS参考特征,通过将样本暴露权重乘以参考特征权重,为每个三核苷酸上下文分配一个似然值。 Timing of SBS signatures SBS特征的时间
Para_01 为了进行这项分析,我们使用了参考文献24中定义的SBS特征。 通过分析焦点扩增位点处单核苷酸变异(SNVs)的等位基因频率分布,可以评估ecDNA的形成时间和该基因组区域中发生的突变过程。 这一评估涉及计算突变多重性,这是由预测的ecDNA位点内SNV的拷贝数状态决定的。 根据SNV拷贝数是否等于该位点的总拷贝数,将SNVs分类为发生在ecDNA形成之前或之后。 Para_02 其中 VAF 表示变异等位基因频率,p 表示肿瘤纯度,CPNfocal 表示局灶性扩增拷贝数,CPNnorm 表示正常基因组中的局部拷贝数。 如果 CPNmut 大于 0.8 倍的 CPNfocal,则认为突变发生在 ecDNA 形成之前。 如果 CPNmut 小于 0.8 倍的 CPNfocal 且大于 CPNnorm 的一半,则将突变分类为 ecDNA 形成后发生的。 Para_03 通过汇总同一肿瘤内多个样本中的突变,使用最大似然函数来确定 ecDNA 是否倾向于发生在突变过程之前或之后。 这涉及创建一个突变目录,根据 96 个三核苷酸上下文通道及其在 ecDNA 形成前或后的状态对所有突变进行分类。 利用样本级别的 SBS 暴露和 SBS 参考特征,每个三核苷酸通道上下文通过将样本暴露权重乘以参考特征权重来分配一个似然值。 这使得可以估计每个突变最可能的突变过程,并识别在 ecDNA 形成背景下早期或晚期起作用的过程。 然后我们进行了 Wilcoxon 测试,比较每个样本中 ecDNA 位点内的突变是早期发生的概率与晚期发生的概率,并展示了两个类别的中位数差异。 Statistical analysis 统计分析
Para_01 相关性测试使用 cor.test 进行,具体方法为 Spearman 法或 Pearson 法,视情况而定。 比较分布的测试使用 wilcox.test 或 t.test 进行。 Para_02 对于患病率估计,使用 propCI 报告比例的 95% 置信区间。 使用 glm(outcome ~ exposure_variables, family = 'logit') 拟合逻辑回归模型,并报告比值比(ORs)和 95% 置信区间(CIs)。 在我们控制肿瘤类型的回归分析中,排除了样本少于五例的肿瘤类型。 GEL sample FISH GEL样本荧光原位杂交
Para_01 FISH 在 4 μM FFPE 组织切片上进行,根据 Agilent Technologies 协议(组织学 FISH 附件套件 K5799)和 Abbott 分子诊断 FISH 探针协议的组合方法。 简而言之,FFPE 切片在二甲苯中脱蜡 5 分钟,然后用 100%、80% 和 70% 的乙醇重新水化,并用 Agilent Technologies 洗涤缓冲液洗涤两次。 FFPE 组织在 Agilent Technologies 预处理溶液中于 98 °C 孵育 10 分钟。 将含有载玻片的 Coplin 罐从 98 °C 水浴中取出,让其缓慢冷却 15 分钟。 FFPE 载玻片用 Agilent 洗涤缓冲液洗涤两次。 将 Agilent 胃蛋白酶溶液涂在载玻片上,在 37 °C 下孵育 10 分钟。 FFPE 载玻片用 Agilent 洗涤缓冲液洗涤两次,然后用 70%、80% 和 100% 的乙醇脱水,再进行探针杂交。 含有染色体特异性着丝粒枚举探针(CEP)的基因特异性探针(MDM2(+对照 CEP12 谱绿色)(Vysis/Abbott),MDM2 和 CDK4(Empire Genomics),PDGFRA(+对照 CEP4 谱绿色)(Empire Genomics)和 MYC(Vysis/Abbott))直接应用于组织切片,并用橡胶溶液胶密封盖玻片。 Para_02 然后将载玻片在湿润盒中于37°C下孵育过夜16小时。 载玻片在73°C下用含0.3% Igepal(Sigma)的0.4× SSC洗涤10分钟,随后在室温下用含0.1% Igepal的2×盐酸钠柠檬酸盐(SSC)洗涤10分钟。 载玻片允许自然干燥,然后用含有4′,6-二氨基-2-苯基吲哚(DAPI;ThermoFisher)的Vectashield封片液进行复染。 图像使用Applied Precision DeltaVision显微镜捕获。 HER2 FISH HER2 荧光原位杂交
Para_01 FFPE 组织切片通过两次在 Histo-Clear (Electron Microscopy Sciences 64110) 中孵育 5 分钟进行脱蜡,然后在 100% 乙醇中孵育 5 分钟,在 70% 乙醇中孵育 5 分钟。 载玻片随后放置在 10 mM 抗原修复缓冲液 (10 mM 柠檬酸 pH 6.0) 中,并在蔬菜蒸锅 (90–95 °C) 中孵育 20 分钟。 载玻片在 2× SSC 中短暂洗涤,然后用蛋白酶 K 消化缓冲液 (蛋白酶 K NEB P8107 在 TE 缓冲液中的 1:100 稀释,每份样本 100–200 μl) 室温下处理 1 分钟。 载玻片通过在 70%、85% 和 100% 乙醇中各孵育 2 分钟进行脱水。 HER2 FISH 和 Chr. 17 控制中心体计数 FISH 探针 (Empire Genomics ERBB2-CHR17-20-ORGR) 以 1:5 的比例稀释在杂交缓冲液 (Empire Genomics) 中,加入每个载玻片,并覆盖盖玻片。 载玻片在 75 °C 下变性 5 分钟,然后在湿盒中 37 °C 下过夜杂交。 载玻片在 0.4× SSC + 0.3% Igepal630 (5 分钟,40–60 °C) 中洗涤两次,然后在 2× SSC + 0.1% Igepal630 (5 分钟,室温) 中洗涤。 载玻片用 TrueVIEW 自荧光淬灭试剂盒 (Vector laboratories SP-8400) 按照制造商的说明处理 2 分钟,然后在 2× SSC (5 分钟,室温) 中洗涤。 载玻片用 ProLong Gold 抗褪色剂与 DAPI (ThermoFisher P36931) 封片。 载玻片在蔡司 LSM880 共聚焦显微镜上成像,使用 0.45-μm Z 步长。 最大强度投影图使用 ZEN2.3 SP1 FP3 软件生成。 该研究的这一部分已获得斯坦福大学机构审查委员会 (编号 69198) 的批准。 Reporting summary 报告摘要
Data availability Para_01 请求原始测序数据、变异调用、生存数据、质量指标和提交给基因组学实验室中心的研究结果概要,可以通过 GEL 研究环境(一个安全的云工作空间)提出。 要访问此研究环境中的基因组和临床数据,研究人员必须首先申请成为 GEL 研究网络(以前称为 GEL 临床解释合作伙伴关系;https://www.genomicsengland.co.uk/research/academic)或发现论坛行业合作伙伴(https://www.genomicsengland.co.uk/research/research-environment)的一员。 申请将在十个个工作日内进行审查,之后机构必须验证研究人员的隶属关系。 批准后,在成功完成在线信息治理培训模块后,将授予访问 GEL 研究环境的权限。 有关可用数据类型(住院记录、生存和治疗数据)的更多详细信息,可以在 https://re-docs.genomicsengland.co.uk/data_overview/ 找到。 可以使用参与者浏览器(https://re-docs.genomicsengland.co.uk/pxa/)探索具有癌症和纵向临床信息(包括治疗和死亡率)的患者队列。 Code availability Para_01 用于运行 SBS 可能性分配、排列、突变时间以及生成图表的代码可在 GEL 研究环境中获取(https://re-docs.genomicsengland.co.uk/access/),路径为 /re_gecip/shared_allGeCIPs/pancancer_ecdna/code/。 成为 GEL 研究网络成员并获得访问权限的链接可以在 https://www.genomicsengland.co.uk/research/academic/join-gecip 找到。