专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物制品圈  ·  蛋白纯化:毕赤酵母蛋白表达系统全解析 ·  2 天前  
BioArt  ·  Nature | ... ·  2 天前  
BioArt  ·  Nature背靠背 | 郑宁/Brian ... ·  2 天前  
生信菜鸟团  ·  GSA受控数据下载 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

现在发在NG上的癌症全面基因组分析跟几年前的有什么不同?

生信菜鸟团  · 公众号  · 生物  · 2025-02-13 10:34

正文

Basic Information

  • 英文标题:Comprehensive genomic characterization of early-stage bladder cancer
  • 中文标题:早期膀胱癌的全面基因组特征分析
  • 发表日期:03 January 2025
  • 文章类型:Article
  • 所属期刊:Nature Genetics
  • 文章作者:Frederik Prip | Lars Dyrskjøt
  • 文章链接:https://www.nature.com/articles/s41588-024-02030-z

Abstract

Para_01
  1. 理解非肌层浸润性膀胱癌(NMIBC)的分子图谱对于改善风险评估和治疗方案至关重要。
  2. 我们使用全外显子测序(n = 438)、浅层全基因组测序(n = 362)和总RNA测序(n = 414)对NMIBC患者的基因组进行了全面分析。
  3. 在NMIBC中观察到大量的基因组变异,并与不同的分子亚型相关联。
  4. 在FGFR3突变的肿瘤中发现了FGFR3和17p(影响TP53)的频繁杂合性丢失。
  5. 在TP53突变的肿瘤中也发现了类似的杂合性丢失。
  6. 15%的肿瘤中观察到了整倍体加倍(WGD),并与较差的预后相关。
  7. 具有WGD的肿瘤表现出基因组不稳定,涉及细胞周期相关基因的改变以及免疫成分的变化。
  8. 最后,多组学数据的综合聚类突出了基因组不稳定性及免疫细胞耗竭在疾病侵袭性中的重要作用。
  9. 这些发现加深了我们对NMIBC中与疾病侵袭性相关的基因组差异的理解,并可能最终改善患者分层。

Main

Para_01
  1. 膀胱癌是全球男性中第六种最常见的恶性肿瘤1,且表现出高度异质性的分子谱和结果2。
  2. 大多数非肌肉浸润性膀胱癌(NMIBC;Ta、T1 和原位癌(CIS))患者预后良好,但高达40%的患者在5年内进展为肌肉浸润性膀胱癌(MIBC;T2+),这取决于临床风险组3。
  3. 因此,识别那些可能从NMIBC进展为MIBC的患者对于提供最佳治疗至关重要。
  4. 分期、分级以及伴随的CIS是重要的风险因素3。
  5. 然而,具有相似临床和病理风险特征的患者可能表现出显著不同的结果4。
  6. 因此,更好地理解NMIBC的基本分子图谱可能有助于识别最终会进展的肿瘤患者,并优化治疗策略。
Para_02
  1. 膀胱癌的转录组学景观已经得到了广泛的研究,特别是在MIBC中。
  2. 在NMIBC中,欧洲早期尿路上皮癌分子生物学(UROMOL)联合会进行了大型研究,在这些研究中识别出了四种NMIBC亚型(1类、2a类、2b类和3类)。
  3. 这些亚型具有高度的预后性,其中2a类显示出最高的进展风险。
  4. 2b类肿瘤具有高免疫细胞浸润和T细胞耗竭标志物的高表达。
  5. 最近的研究将T细胞耗竭和免疫抑制与使用卡介苗(BCG)治疗后的不良生存率联系起来。
  6. 1类和3类肿瘤表现出较低的进展风险,而3类肿瘤则表现为免疫耗竭表型,并且同时伴有FGFR3突变的富集。
Para_03
  1. NMIBC的基因组特征以前已经在较小的队列中进行了研究,揭示了FGFR3、PIK3CA和STAG2的频繁突变,以及染色质修饰基因中的突变10,11,12,13,14,15。
  2. NMIBC的拷贝数改变(CNA)图谱和基因组不稳定性程度在肿瘤之间高度可变,从主要在染色体(chr)9上的删除到高度改变的基因组都有6,13,14。
  3. 然而,由于先前应用的技术限制,尚未报道深入分析。
Para_04
  1. 我们对438名非肌层浸润性膀胱癌患者的肿瘤进行了全面的基因组特征分析。
  2. 我们的研究结果增进了对早期阶段膀胱癌疾病侵袭性的理解,并最终可能为新的治疗方法和监测方案铺平道路。

Results

Patient cohort

患者队列

Para_01
  1. 为了理解早期膀胱癌的疾病侵袭性,我们对来自欧洲UROMOL联盟(n = 296)和丹麦奥胡斯大学医院(n = 142)的438名NMIBC患者的肿瘤进行了基因组特征分析。
  2. 这些肿瘤代表了NMIBC的整个疾病谱,并且包括新发病例(n = 280)和现患病例(n = 158)。
  3. 共有414个肿瘤的总RNA测序(RNA-seq)数据可用(有关详细信息,请参见补充表1)。

The mutational landscape of NMIBC

NMIBC的突变图谱

Para_01
  1. 对438名NMIBC患者进行了全外显子测序(WES)。
  2. 肿瘤和匹配的胚系DNA分别被测序至平均覆盖度为132倍(范围=35-338倍)和128倍(范围=31-302倍)。
  3. 我们在外显子靶区域中识别出中位数为179个(范围=5-8,131个)单核苷酸变异(SNVs)和11个(范围=0-769个)插入和缺失(InDels)。
Para_02
  1. 肿瘤突变负荷(TMB;每百万碱基的非同义突变)在T1肿瘤中更高(中位数= 5.7),与Ta肿瘤相比(中位数= 3.9,P = 8.1 × 10^-6),并且在UROMOL2021转录组学分类中有所不同,其中2a类肿瘤具有最高的TMB(P = 4.5 × 10^-17;扩展数据图1a)。
  2. 高TMB与ERCC2中的突变密切相关(P = 5.2 × 10^-17;扩展数据图1b)。
Para_03
  1. 总共,该队列中有60个基因显著突变(mutsigCV;补充表2),其中33个基因在至少5%的肿瘤中发生了突变(图1a)。
  2. 在这33个基因中,最常发生突变的五个基因是FGFR3(58%),KDM6A(42%),KMT2D(36%),PIK3CA(31%)和STAG2(24%)。
  3. 几个被识别出的基因与表观遗传修饰有关(ARID1A、KDM6A、KMT2C、CREBBP、EP300和UTY)。
  4. 在33个基因中被调用的全部SNV中有88.3%存在于相应的转录组中(扩展数据图1c)。
  5. 有趣的是,我们观察到几个基因的替代等位基因显著过表达,特别是对于FGFR3(P = 1.5 × 10^-36)和HRAS(P = 0.0011),这两个基因都是RAS-丝裂原活化蛋白激酶通路的一部分(扩展数据图1d和补充表3)。
  6. Ta和T1肿瘤的突变频率列于补充表4。
  7. 除女性中KDM6A(位于chrX)突变的比例较高(扩展数据图1e;P = 0.017)外,突变在男性和女性中的分布相似,如先前所述13。
  8. 值得注意的是,STAG2和RBM10也位于chrX上,在男性和女性中以相似的频率发生突变。

Fig. 1: Genomic landscape of NMIBC.

  • 队列中33个显著突变基因的癌症图谱(MutSigCV;>5%的肿瘤中发生突变)。右侧的注释显示了UROMOL2021转录组学分类和具有WGD的肿瘤中突变的富集情况。通过Fisher精确检验确定突变与UROMOL2021分类和WGD之间的统计学显著关联。P值使用FDR方法进行校正。点表示P<0.05,星号表示P<0.01。
  • 来自60名患者的配对复发性肿瘤中的基因突变比较。只包括在至少十个最早期肿瘤中发生突变的基因。在x轴上,n表示具有该基因突变的最早期肿瘤数量。灰色条形图显示了在复发性肿瘤中发现给定基因突变的比例。
  • NMIBC和MIBC中突变频率的比较。选择的基因包括在UROMOL队列中显著突变的基因(NMIBC;如a中所示的33个基因)和在TCGA队列中显著突变的基因(MIBC)。左侧列出了在NMIBC和MIBC队列中均显著突变的基因集,中间列出了仅在NMIBC中显著突变的基因集,右侧列出了仅在MIBC中显著突变的基因集。进行了Fisher精确检验来评估NMIBC和MIBC之间突变频率的差异,星号表示具有显著不同突变频率的基因。颜色代表基因在NMIBC和MIBC中突变频率的比值(OR)。P值使用FDR方法进行校正。
  • 33个显著突变基因(如a所示)之间的共存程度(红点)和互斥性(蓝点)。P值和ORs列于补充表5。
  • 显著共存突变网络(OR>1且FDR<0.05,在d中)。线条的宽度表示相应关联的显著性水平(线条越粗表示FDR越低)。
  • 根据吸烟状态和ERCC2突变状态(ERCC2突变—15名当前吸烟者,20名前吸烟者和9名从未吸烟者;ERCC2野生型—111名当前吸烟者,107名前吸烟者和28名从未吸烟者)分层的SBS5特征突变百分比。箱线图表示中位数和下四分位数、上四分位数,须表示1.5倍四分位距。通过双侧Wilcoxon秩和检验确定组间统计学显著差异。数据来源
Para_04
  1. 大量突变出现在33个显著突变基因中(图1a),这些突变具有较高的推定癌症细胞分数(CCF;扩展数据图2a),表明它们是克隆性的。
  2. 通过来自60名患者的复发NMIBC配对WES分析,进一步记录了NMIBC的克隆行为和生物学特性。
  3. 在这种情况下,在复发性肿瘤中频繁重新发现了这些基因中的突变,特别是TP53(83%),KDM6A(79%)和FGFR3(77%;图1b)中的突变。
Para_05
  1. 我们观察到,在NMIBC中显著突变的基因中有70%(23/33)也在MIBC中显著突变(癌症基因组图谱(TCGA)16;图1c)。FGFR3、KDM6A、TP53和RB1等主要基因的突变频率存在一些差异,NMIBC中FGFR3的突变率为58%,MIBC中为14%(P = 9.8 × 10^-48);NMIBC中KDM6A的突变率为42%,MIBC中为25%(P = 6.5 × 10^-8);NMIBC中TP53的突变率为17%,MIBC中为49%(P = 2.2 × 10^-29);NMIBC中RB1的突变率为6%,MIBC中为19%(P = 7.5 × 10^-10)。
Para_06
  1. 非肌浸润性膀胱癌(NMIBC)中33个显著突变基因中的几个在转录组学UROMOL2021分类中有显著不同的突变频率(图1a和扩展数据图2b-e)。
  2. FGFR3突变在第1类和第3类肿瘤中更常见。
  3. 第3类肿瘤还经常在KMT2D和STAG2中发生突变。
  4. 第2a类肿瘤表现出与MIBC高度相似的突变谱,包括TP53和RB1突变的比例更高,而FGFR3突变较少(扩展数据图2d)。
  5. 与其它类别相比,ARID1A、FAT1、ERCC2、ERBB2和ZFP36L2在第2a类肿瘤中也更频繁地发生突变。
  6. 相比之下,第2b类肿瘤中没有基因富集突变(扩展数据图2e),而且与其他类别的两两比较也没有发现第2b类肿瘤特有的突变谱(扩展数据图2f-i)。
Para_07
  1. TP53是唯一一个突变与进展风险增加相关的基因(风险比(HR)= 5.2,95%置信区间(CI)= 2-14,P = 0.03;扩展数据图3a)。然而,在调整了肿瘤分期和级别后,这种关联不再显著(HR = 2.6,95%CI = 0.91-7.6,P = 0.075)。没有特定的突变与复发风险相关(扩展数据图3b)。
Para_08
  1. 几个显著突变的基因(n = 33)显示出强烈的互斥和共存模式(图1d、e和补充表5)。
  2. 大多数互斥的基因对可以归因于这些突变存在于不同的转录组类别中(图1a)。
  3. 然而,在第1类中经常突变的FGFR3和HRAS显示出了强烈的互斥分布(比值比(OR)= 0.03;95%置信区间(CI)= 0.00075–0.2),正如先前观察到的那样17。
  4. 相关性分析还表明,ERCC2与FBXW7之间的突变共存最为显著(OR = 13.0;95%CI = 5.3–35.6),主要出现在第2a类;ERCC2与FAT1之间的突变共存(OR = 7.0;95%CI = 3.4–14.1),主要出现在第2a类;FGFR3与STAG2之间的突变共存(OR = 3.5;95%CI = 2.1–6.1),主要出现在第1/3类;以及TP53与RB1之间的突变共存(OR = 8.9;95%CI = 3.6–23.4),主要出现在第2a类(图1e)。
  5. 只有FGFR3与STAG2以及TP53与RB1之间的突变共存先前被报道过12,16,18。
  6. ERCC2与FBXW7之间的突变也在MIBC(癌症基因组图谱队列)中显著共存(P = 0.006;OR = 3.69;95%CI = 1.32–9.41)。
Para_09
  1. 每个肿瘤的突变谱被分解为九种已知的Catalogue of Somatic Mutations in Cancer (COSMIC)单碱基替换(SBS)签名中的一个子集(SBS1、SBS2、SBS4、SBS5、SBS10b、SBS13、SBS15、SBS29和SBS31;图1a)。
  2. SBS5以及两种与apolipoprotein B mRNA编辑催化多肽样(APOBEC)相关的签名,SBS2和SBS13,在突变景观中显示出最高的贡献(图1a和扩展数据图3c)。
  3. APOBEC相关的诱变与NMIBC中的结果更差或更好有关联6,7,15。
  4. 在这里,当我们使用WES数据进行签名调用时,我们观察到APOBEC相关诱变与UROMOL2021类别或结果之间没有关联(补充说明——突变签名)。
  5. 当我们比较与患者吸烟状况相关的SBS5突变贡献时,在带有和不带有ERCC2突变的肿瘤之间,我们发现有吸烟史的患者的肿瘤中SBS5的贡献显著更高(图1f)。
  6. 先前的研究已经将吸烟和ERCC2突变与MIBC中的SBS5突变联系起来20,我们的研究结果支持当暴露于烟草致癌物时,ERCC2突变加速了SBS5相关的突变。

The CNA landscape of NMIBC

NMIBC的CNA景观

Para_01
  1. 总拷贝数改变(CNAs)是通过使用ichorCNA21对来自362个肿瘤的DNA进行浅层全基因组测序(sWGS)(平均覆盖度=2.14×(范围=1.24–9.01×))估算出来的。
  2. 此外,利用Battenberg22和相应的外显子组测序(WES)数据,通过常见杂合单核苷酸多态性(SNPs)的每个亲本等位基因计数来识别不平衡的拷贝数片段(图2a;方法部分)。
  3. 为了简化表达,我们将使用术语"全基因组加倍"(WGD)来指代具有高拷贝数的肿瘤。
  4. 如果超过50%的基因组拷贝数大于2,则将肿瘤分类为具有WGD(n = 54;15%;图2b)23。
  5. 在被分类为具有WGD的肿瘤中,四拷贝的拷贝数片段大多是平衡的,而与被分类为二倍体的肿瘤相比(扩展数据图4a、b),从而加强了各自分类的有效性。
  6. 使用类似的数据分析方法对MIBC(TCGA队列16)的数据进行分析,我们预期地发现具有WGD的肿瘤比例更高(58%;图2b)。
  7. NMIBC中具有WGD的肿瘤的中位倍性为3.5(范围=2.7–4.2)(扩展数据图4c)。
  8. MIBC中具有WGD的肿瘤的中位倍性为3.3(范围=2.3–4.8),反映了具有WGD的肿瘤中存在大量的删除(与四拷贝相比;扩展数据图4d、e)。
  9. 此外,具有WGD的肿瘤富集了拷贝数增加(扩展数据图4f、g)。

Fig. 2: WGD in NMIBC.

  • 362个肿瘤的拷贝数谱按基因组中拷贝数大于2的比例排列。左侧垂直注释(左侧);二倍体肿瘤的染色体臂级事件(与两个拷贝相比)和全基因组复制(WGD)肿瘤的染色体臂级事件(与四个拷贝相比;中间左侧);由GISTIC2计算的全基因组G评分,红色和蓝色条形图分别突出显示显著富集的局灶性获得或丢失的染色体区域(中间右侧);具有拷贝中性LOH的二倍体肿瘤所占百分比(右侧)。
  • NMIBC和MIBC中拷贝数高于两个的基因组比例(TCGA队列)。虚线表示用于定义具有全基因组复制(WGD)的肿瘤的截止值(50%)。
  • 未在疾病过程中接受BCG治疗且有可用基因组数据的226名患者的PFS概率Kaplan-Meier曲线(上部;206个二倍体肿瘤和20个具有WGD的肿瘤)以及仅包括32个被分类为UROMOL2021 2a类的肿瘤的亚分析(下部;25个二倍体肿瘤和7个具有WGD的肿瘤)。通过双侧对数秩检验评估各组之间的统计学显著差异。
  • 特定基因突变与全基因组复制(WGD)之间的关联。虚线代表FDR调整后的P值0.05。CN,拷贝数。来源数据
Para_02
  1. WGD 在 T1 肿瘤中观察到的频率更高(T1 与 Ta 相比,P = 6.2 × 10^-6),在高级别肿瘤中(高级别与低级别相比,P = 1 × 10^-8)以及在 UROMOL2021 分类的 2a 和 2b 类型肿瘤中(2a/2b 类型与 1/3 类型相比,P = 2.7 × 10^-6;扩展数据图 4h)。
  2. 相应地,患有 WGD 肿瘤的患者与具有二倍体肿瘤的患者相比,其无进展生存期(PFS)显著缩短(P = 2.7 × 10^-6;图 2c),且这一差异独立于肿瘤分期和等级(风险比 HR = 6.4,95% 置信区间 CI = 1.8–23,P = 0.0039)。
  3. 值得注意的是,当仅分析被分类为 UROMOL2021 2a 类型的肿瘤患者的亚组时,仍观察到了显著的关联性(P = 0.0025;图 2c)。
Para_03
  1. 具有全基因组复制(WGD)的肿瘤与二倍体肿瘤相比表现出显著更高的突变负荷(P = 3.6 × 10−8;扩展数据图4i)。
  2. 与二倍体肿瘤相比,WGD 肿瘤中的突变谱并不富集特定的突变特征(扩展数据图4j)。
  3. 与WGD相关的最强烈突变是TP53突变(P = 1.6 × 10−6),因为40%的WGD肿瘤携带TP53突变,而二倍体肿瘤中这一比例仅为9%(图2d)。
  4. 同样与WGD相关的突变包括ARID1A(P = 0.007)、ERBB2(P = 0.011)和RB1(P = 0.034)突变。
  5. 此外,即使在排除TP53突变状态的情况下,ARID1A和ERBB2突变仍然与WGD相关(ARID1A,P = 0.006;ERBB2,P = 0.007)。
  6. 相反,FGFR3(P = 1.1 × 10−5)和STAG2(P = 1.3 × 10−4)突变在二倍体肿瘤中显著富集(图2d).

CNAs in diploid tumors and tumors with WGD

二倍体肿瘤和全基因组复制肿瘤中的CNAs

Para_01
  1. 分析染色体臂水平事件(>70%的臂被改变)显示,9q的丢失在二倍体肿瘤(47%)和发生全基因组复制(WGD)的肿瘤(52%;图3a)中的频率相似。
  2. TSC1和SPTAN1(位于9q上)的突变与二倍体肿瘤中9q的丢失强烈相关(TSC1,P = 2.1 × 10^-5;SPTAN1,P = 7.1 × 10^-6;扩展数据图5a)。
  3. 在发生WGD的肿瘤中最频繁丢失的染色体臂是11p、8p、18q和17p(影响TP53;所有>50%)。
  4. 有趣的是,在这些区域中,拷贝数状态经常不平衡,并且存在杂合性丢失(LOH;图3b)。
  5. 17p和9q具有最高的LOH比例,主要是拷贝数2/0(表示丢失一个等位基因和剩余等位基因的复制),这表明染色体臂的丢失可能发生在WGD之前。
  6. TP53(17p)的突变与二倍体肿瘤(P = 0.00076)和WGD肿瘤(P = 0.00073;图3c)中该基因的LOH相关。
  7. 同样地,具有WGD的MIBC在17p上也显示出频繁的LOH(65%)。
  8. 在具有WGD的肿瘤中最常见的获得的染色体臂是20q(44%),这也观察到在二倍体肿瘤中,尽管程度较低(10%;图3a)。

Fig. 3: CNAs in diploid tumors and tumors with WGD.

  • 当与二倍体肿瘤的两个拷贝和具有WGD的肿瘤的四个拷贝相比时,染色体臂水平的获得和丢失占的比例。虚线表示斜率为1。
  • 具有WGD的肿瘤中具有丢失(拷贝数<4)和/或LOH的染色体百分比。
  • 根据TP53突变状态和倍性对TP53 LOH的肿瘤比例进行分层。组间统计显著关联通过卡方检验确定。
  • GISTIC2计算的G评分反映了在具有WGD和二倍体肿瘤中,一个区域受到局灶性获得影响的程度。
  • GISTIC2计算的G评分反映了在具有WGD和二倍体肿瘤中,一个区域受到局灶性丢失影响的程度。
  • 细胞周期调控中的核心蛋白质。在本研究中被发现经常受到功能获得型基因组改变(突变和/或获得)影响的基因编码的蛋白质用红色标记,被发现经常受到功能丧失型基因组改变(突变和/或丢失)影响的基因编码的蛋白质用蓝色标记。
  • 根据倍性状态分层的涉及细胞周期调控的基因中观察到的基因组改变。基因组改变的类型(即,突变、获得或丢失;左侧),以及具有选定基因的基因组改变的二倍体肿瘤(黄色)和具有WGD的肿瘤(紫色;右侧)的比例。
  • 在二倍体肿瘤中chr4上的拷贝中性LOH的百分比。
  • 根据FGFR3突变状态分层的二倍体肿瘤中影响FGFR3的拷贝中性LOH和获得的比例。组间统计显著关联通过卡方检验确定。
Para_02
  1. 基因组区域富集了局灶性CNA,使用GISTIC2(参考文献24;图3d、e和补充表6和7)进行鉴定。
  2. 选定基因的拷贝数频率列于补充表8中。
  3. 几个基因组区域在二倍体肿瘤和全基因组复制(WGD)肿瘤中均显著改变,包括11q13.3(CCND1)的扩增,12q15(MDM2)的扩增,8q22.3(GRHL2和YWAZ)的扩增,1q上不同区域的扩增,例如1q23.3(PVRL4/NECTIN4)以及9p21.3(CDKN2A/CDKN2B)的缺失,2q上的几个区域,包括2q34(IKZF2)和2q37.1(GIGYF2),以及11q上的区域,如11q23.3(KMT2A)。
  4. 在二倍体肿瘤中,4p16.3(FGFR3)和10p14(GATA3)是其中一些最显著的扩增区域,而在具有WGD的肿瘤中,观察到6p22.3(SOX4和E2F3)、20q13.12(MYBL2)的显著扩增和19q12(CCNE1)的缺失以及13q14.2(RB1)的丢失(图3d、e)。
  5. RB1的丢失与二倍体肿瘤和具有WGD的肿瘤中的RB1突变相关(扩展数据图5b)。
  6. 值得注意的是,在具有WGD但不在二倍体肿瘤中常见的许多基因组区域中,含有参与细胞周期调控的基因(RB1、E2F3、CCNE1和MYBL2;图3f、g)。
  7. 当考虑TP53和RB1的突变时,93%的具有WGD的肿瘤在参与细胞周期调控的基因中至少有一个基因组改变(超过一个的占85%;图3g)。
  8. 在具有WGD的肿瘤中,没有一个在具有WGD的肿瘤中显著更突变的基因(图2d),也没有参与细胞周期调控的基因在TP53野生型(WT)肿瘤中比在TP53突变肿瘤中显著更突变(扩展数据图5c)。
  9. 因此,我们没有发现任何可以解释TP53野生型肿瘤中WGD的具体改变。
Para_03
  1. 一些突出的重点CNAs在评估MIBC中的CNAs时也被识别出来(扩展数据图6a-c)。
  2. 有趣的是,许多主要在NMIBC中通过WGD改变的区域在二倍体MIBC中也很常见。
  3. 这可能可以用MIBC中携带TP53突变的二倍体肿瘤比例较高来解释(37%相比NMIBC中的9%)。
  4. 事实上,在MIBC中,具有二倍体基因组的TP53突变肿瘤富集了多个这些区域,包括6p22(SOX4和E2F3;30%)和13q14.2(RB1,43%;扩展数据图6d)。
  5. 这表明特定的CNAs在WGD肿瘤中富集并不是WGD的直接结果。
Para_04
  1. CNA评估以前主要集中在增益和损失上,因此错过了拷贝中性的LOH事件。这里我们评估了二倍体样本中的拷贝中性LOH(拷贝数2/0),并确定了4号染色体短臂16区域的一个频繁受影响区域,FGFR3基因位于该区域(样本的14%;图2a和图3h)。与野生型肿瘤相比,FGFR3突变肿瘤中FGFR3的拷贝中性LOH更为常见(P=0.016;图3i),这表明失去FGFR3的野生型等位基因可能是肿瘤发展的早期驱动因素。

Pathway enrichment analysis in tumors with WGD

具有全基因组加倍的肿瘤中的通路富集分析

Para_01
  1. 我们使用了重叠的RNA测序数据(n = 312)来评估WGD肿瘤中特定通路的富集情况。
  2. 我们发现了与细胞周期相关的基因组显著上调,特别是细胞周期检查点(P = 2 × 10−39;图4a和扩展数据图7a),这与在中心细胞周期调节因子中观察到的频繁基因组改变一致(图3f、g)。
  3. 对关键细胞周期调节因子的调控分析进一步支持了WGD肿瘤中总体较高的细胞周期活性,并显示p53通路受损的二倍体肿瘤(TP53突变和/或MDM2扩增)同样具有较高的细胞周期活性(图4b和扩展数据图7b)。
  4. G0(静息期)相关的RB1(P = 3.2 × 10−9)和RBL2(P = 8.3 × 10−17)调控活性在p53通路野生型的二倍体肿瘤中更高。
  5. 而无论是二倍体肿瘤还是WGD且p53通路受损的肿瘤,G1至M阶段的调控活性均较高,包括E2F1-E2F3、MYBL2和FOXM1(所有P < 0.001)。
  6. DNA修复途径,包括同源定向修复途径(P = 1.5 × 10−21),也属于WGD肿瘤中最上调的途径之一(扩展数据图7a),同时BRCA1(P = 1.5 × 10−11)、H2AX(P = 6.3 × 10−6)和RAD51(P = 8.7 × 10−10;图4a和扩展数据图7c)的表达也更高。
  7. 有趣的是,似乎p53通路的破坏和WGD状态独立地对细胞周期调控活性产生了相同的影响,而且当两者同时存在时,这种影响甚至更高(图4b)。

Fig. 4: Gene expression and immunological features associated with WGD.

  • a, 染色体倍性不同的肿瘤之间差异表达基因的火山图。
  • b, 参与细胞周期不同步骤(从G0期(衰老)到M期(有丝分裂))的基因调控活性,根据染色体倍性和p53通路(TP53突变和/或MDM2扩增)的参与情况进行分层分析(219个染色体倍性正常的野生型肿瘤;46个染色体倍性正常、p53通路改变的肿瘤;19个染色体加倍的野生型肿瘤;28个染色体加倍、p53通路改变的肿瘤)。使用Kruskal-Wallis检验确定各组之间的统计显著差异。
  • c, 根据染色体倍性状态(265个染色体倍性正常的肿瘤和47个染色体加倍的肿瘤)估计的基于RNA的细胞类型评分。使用双侧Wilcoxon秩和检验确定各组之间的统计显著差异。
  • d, 根据染色体倍性状态(265个染色体倍性正常的肿瘤和47个染色体加倍的肿瘤)估计的基于RNA的T细胞衰竭评分。使用双侧Wilcoxon秩和检验确定各组之间的统计显著差异。
  • e, 通过IHC评估的癌细胞区域PD-1阳性细胞百分比(排除间质区域),根据染色体倍性状态进行分层分析(103个染色体倍性正常的肿瘤和20个染色体加倍的肿瘤)。使用双侧Wilcoxon秩和检验确定各组之间的统计显著差异。
  • f, 蜘蛛图显示了参与抗原加工和呈递的基因表达的中位z分数,根据染色体倍性状态进行分层。星号表示在染色体倍性正常的肿瘤和染色体加倍的肿瘤之间基因表达有显著差异的基因。使用双侧Wilcoxon秩和检验确定各组之间的统计显著差异。P值采用FDR方法进行调整。
  • g, 染色体倍性正常的肿瘤和染色体加倍的肿瘤中HLA杂合性丢失的肿瘤比例。使用Fisher精确检验确定变量之间的统计显著关联。箱线图代表中位数和上下四分位数,须对应于1.5倍四分位距。
  • 源数据
Para_02
  1. 在具有全基因组复制的肿瘤与二倍体肿瘤相比,下调最严重的通路与翻译有关(扩展数据图7a),这可能反映了对由受损细胞周期调控所诱导的细胞应激(包括DNA损伤)的响应25。
  2. 一个例外是EIF4G1,在具有全基因组复制的肿瘤中的表达更高(P = 2.2 × 10−7;图4a)。
  3. eIF4G1是eIF4F复合物的一部分,参与依赖帽的翻译起始26,并且已被证明对于具有高度DNA损伤的癌细胞是必不可少的27。

Immune landscape of tumors with WGD

具有整倍体的肿瘤的免疫景观

Para_01
  1. 免疫细胞试图识别并消除异常细胞以阻止肿瘤的发展。
  2. 理论上,具有整倍体改变的肿瘤拥有大量的基因组改变,应该更容易被识别;然而,这些高度改变的肿瘤的发展及其倾向于进展为MIBC(图2c)表明,肿瘤已经发展出了免疫逃逸的机制。
Para_02
  1. RNA测序数据(n = 312)的解卷积分析显示,具有全基因组加倍(WGD)的肿瘤与二倍体肿瘤在推断的CD4 T细胞(P = 0.2)或细胞毒性T淋巴细胞(CTL;P = 0.16)浸润方面没有显著差异(图4c)。
  2. 然而,具有WGD的肿瘤显示出更高的T细胞衰竭评分(基于RNA的估算;P = 0.011;图4d)。
  3. 对一小部分样本(n = 149)进行免疫组织化学(IHC)评估T细胞衰竭标记物PD-1也显示,在具有WGD的肿瘤中PD-1阳性细胞的比例更高(P = 0.00051;图4e)。
  4. 解卷积分析进一步揭示,具有WGD的肿瘤富集了参与先天免疫反应的髓系细胞类型,尤其是中性粒细胞(P = 5.1 × 10^-7),但也包括肥大细胞(P = 0.0019)和树突状细胞(P = 0.03;图4c)。
  5. 具有WGD的肿瘤经常被分类为发炎的UROMOL2021类别2b(扩展数据图4h);然而,在类别2b内中性粒细胞浸润与WGD之间的关联也是显著的(P = 0.0012;扩展数据图7d)。
Para_03
  1. 研究抗原加工和呈递机器,发现通常具有全基因组加倍(WGD)的肿瘤在主要组织相容性复合体(MHC)-I肽加载复合物中的基因表达较高,但肽修剪基因ERAP1(P = 2.1×10^-7)和ERAP2(P = 0.0027;图4f)的表达较低。
  2. 在具有WGD的肿瘤中也观察到ERAP1/ERAP2的低表达(TCGA16;ERAP1,P = 0.0054;ERAP2,P = 0.0098),并且在高度基因组不稳定的肺癌中也报告了这种低表达现象(29)。
  3. 此外,我们还发现控制与MHC-I结合的肽质量的TAPBPL(P = 2.9×10^-5)和UGGT1(P = 0.0011)的表达较低(图4f)。
  4. 这些功能活性降低可能导致MHC-I上呈现的新抗原谱系发生变化。
  5. 只有3%的肿瘤发生人类白细胞抗原(HLA)位点的杂合性丢失,这可能会进一步改变抗原呈递。
  6. 然而,HLA杂合性丢失在具有WGD的肿瘤中更为富集(P = 0.002;图4g)。

Integrative clustering of multi-omics data

多组学数据的整合聚类

Para_01
  1. 我们使用整合聚类来描述NMIBC的生物学框架,以调查多组学数据的整合是否提供了肿瘤单层分层之外的额外生物学和预后价值。
  2. 对于230个具有重叠数据层的肿瘤,我们对体细胞突变、CNAs和基因表达数据进行了联合聚类,并确定了四个‘iCluster’,分别命名为iClus1–4(图5a)。
  3. 这些iCluster与UROMOL2021类别(P = 1.9×10^-42)和WGD状态(P = 9.5×10^-17)重叠。
  4. iClus4包括UROMOL2021类别2a和2b肿瘤的混合,其中包括所有类别2a肿瘤的70%(26/37)和所有类别2b肿瘤的38%(29/77),以及WGD肿瘤的93%(26/28)(图5a和扩展数据图8a)。
  5. 相应地,iCluster与PFS相关(P = 0.0021;图5b),iClus4肿瘤具有最高的进展风险,独立于肿瘤阶段(风险比= 4.6,95%置信区间= 1.4–14.6,P = 0.010)和UROMOL2021分类(风险比= 5.5,95%置信区间= 1.6–18.6,P = 0.006;补充表9)。
  6. iClus4肿瘤具有更高的类别2a加权虚拟病理(WISP)权重(估计批量肿瘤样本内不同亚型的比例;类别2a,P = 5×10^-4;类别2b,P = 9.4×10^-6;扩展数据图8b),更高的TMB(P = 9.5×10^-13;扩展数据图8c,d)并且在评估二倍体肿瘤时也表现出更高的基因组不稳定性(P = 1×10^-9;图5c)。

Fig. 5: Integrative clustering analysis.

  • 图1a中显示了33个基因的Oncoplot,涉及230个具有体细胞突变、拷贝数变异和基因表达数据的肿瘤。肿瘤根据四个iClusters进行分层。UROMOL2021类别2a的权重是使用WISP工具估算的。下部显示了选定基因特征的缩放平均表达值。
  • b,根据229名患者的iClusters(iClus1,n = 53;iClus2,n = 76;iClus3,n = 43;iClus4,n = 57)绘制的PFS概率Kaplan-Meier曲线。组间统计显著性差异是通过双侧对数秩检验确定的。
  • c,根据iClusters分层的二倍体肿瘤中处于异常状态的碱基比例(iClus1,n = 53;iClus2,n = 77;iClus3,n = 41;iClus4,n = 31)。异常定义为与二倍体或不平衡的二倍体拷贝数不同。组间统计显著性差异是通过Kruskal-Wallis检验确定的。
  • d,根据iClusters分层的基于RNA的细胞类型评分(iClus2,n = 77;iClus4,n = 57)。组间统计显著性差异是通过双侧Wilcoxon秩和检验确定的。
  • e,根据iClusters分层的ERAP1基因表达(iClus1,n = 53;iClus2,n = 77;iClus3,n = 43;iClus4,n = 57)。组间统计显著性差异是通过双侧Wilcoxon秩和检验确定的。
  • f,根据iClusters分层的ERAP2基因表达(iClus1,n = 53;iClus2,n = 77;iClus3,n = 43;iClus4,n = 57)。组间统计显著性差异是通过双侧Wilcoxon秩和检验确定的。
  • 箱线图表示中位数以及下四分位数和上四分位数,须对应于1.5倍四分位间距。数据来源
Para_02
  1. 在 iClus2 和 iClus4 中观察到更高的基于 RNA 的免疫浸润评分(P = 6 × 10−18;扩展数据图 8e)。
  2. 一致地,当使用工具 TcellExTRECT32 分析肿瘤 WES 数据时,在 iClus2 和 iClus4 中观察到更高的 T 细胞相对比例(P = 3 × 10−6;扩展数据图 8f)。
  3. 我们没有观察到 CD4 T 细胞(P = 0.38)和 CTLs(P = 0.43)之间的 RNA 基于评分差异,但在 iClus4 内的肿瘤与 iClus2 内的肿瘤相比,显示了更高的肥大细胞(P = 0.011)和中性粒细胞(P = 0.0014)评分(图 5d)。
  4. 鉴于 iClus4 中髓系细胞的富集以及 iClus4 中患者观察到的不良预后,我们假设 iClus4 特征为功能失调的免疫景观,具有更多的先天活性而非适应性抗肿瘤活性。
  5. 为了评估这一点,我们调查了适应性与先天免疫比率,并发现 iClus4 中的评分低于 iClus2,表明 iClus4 肿瘤具有更高的先天成分(P = 0.02;扩展数据图 8g)。
  6. 此外,我们在 iClus4 中观察到更高的 T 细胞衰竭(基于 RNA;P = 0.011;图 5d)和较低的 ERAP1(P < 0.001)和 ERAP2(P < 0.05)表达(图 5e,f),这表明 T 细胞衰竭和受损的肽呈递可能是肿瘤侵袭性和不良预后的关键驱动因素。
  7. 值得注意的是,无论是 iClusters 还是进展都没有与外周血中较低水平的 T 细胞或低 T 细胞受体(TCR)多样性相关(通过种系 WES 数据确定),这表明这些患者的免疫健康状态总体上相似(扩展数据图 8h–k)。
Para_03
  1. 详见补充说明(扩展数据图9和10以及补充表格10-12)。
  2. ,

Discussion

Para_01
  1. 总之,本研究加强了我们对NMIBC背后基因组框架的理解,以及不同转录组谱的存在。
  2. 我们证明了NMIBC是一种基因组异质性疾病,其中一部分肿瘤表现出高基因组不稳定性。
  3. 我们发现15%的肿瘤很可能经历了全基因组复制(WGD),这与进展风险增加相关。
  4. 这与先前的研究一致,这些研究显示基因组不稳定性与NMIBC不良结局之间存在联系,并且MIBC中全基因组复制的发生率较高(58%)。
Para_02
  1. WGD以前已被发现在多种癌症类型中与TP53突变相关。
  2. 最近一项关于胰腺癌小鼠模型的研究表明,Trp53(编码p53)突变会导致WGD,这是一个有序的过程,包括野生型Trp53等位基因的丢失。
  3. 我们在这里展示了TP53突变与WGD之间存在强烈关联,并且大多数具有WGD的TP53突变肿瘤主要表现出TP53杂合性缺失。
  4. 进一步观察TP53突变之外的情况(因为60%的WGD肿瘤是TP53野生型),超过90%的WGD肿瘤至少有一个中央细胞周期调节因子的基因组改变。
  5. 事实上,例如由细胞周期调节因子的基因组改变引起的复制压力已被证明会在p53功能正常的细胞系中诱导WGD。
  6. 然而,这些肿瘤中的细胞周期活动增加是否是WGD的原因还是结果尚不清楚。
Para_03
  1. 综合多组学数据的整合聚类确定了四种iCluster,这些iCluster捕获了NMIBC的生物学和分子框架,超越了肿瘤的单层分层。
  2. 总体而言,iCluster强调了基因组不稳定性、转录组亚型评分以及浸润免疫细胞的功能状态都是识别临床上高风险肿瘤的重要特征。
  3. iClus4构成了一组高度侵袭性的NMIBC,并包括几乎所有具有全基因组加倍(WGD)的肿瘤以及具有高基因组不稳定的二倍体肿瘤。
  4. 这些肿瘤属于UROMOL2021类别2a和2b,并且高表达与细胞周期活性相关的基因。
  5. iClus4肿瘤的侵袭性,以及一般具有WGD的肿瘤,可能表明尽管这些肿瘤具有较高的新抗原负荷(高突变负荷),它们已经成功逃避了免疫识别和消除。
  6. 我们的研究结果表明,一种逃避机制可能是由于ERAP1低表达导致的MHC-I呈现的免疫肽组谱系发生改变。
  7. ERAP1低表达已经在几种癌症类型中被报道37,并且与p53丢失和基因组不稳定性相关29,38。
  8. 此外,ERAP1被认为对于诱导强烈的CTL反应至关重要39。
Para_04
  1. iClus4肿瘤和发生全基因组复制(WGD)的肿瘤表现出免疫细胞组成的变化,例如中性粒细胞水平较高。
  2. 中性粒细胞在肿瘤微环境中具有双重作用,既有促肿瘤生长的作用也有抗肿瘤生长的作用。
  3. 虽然分子亚组之间估计的CTL水平相似,但在iClus4肿瘤和发生WGD的肿瘤中T细胞衰竭的水平更高,
  4. 这表明免疫功能受损可能是免疫逃逸的另一种潜在机制。
  5. 高新生抗原负荷可能由这些肿瘤中的基因组不稳定引起,可能会驱动T细胞衰竭,如先前所描述。
  6. 此外,T细胞衰竭与BCG治疗的NMIBC患者的疾病侵袭性有关,
  7. 我们在此证明它可能在NMIBC的整体肿瘤侵袭性中发挥作用,
  8. 这表明需要识别具有侵袭性肿瘤(iClus4和/或WGD)的患者以改进治疗分层。
  9. 目前有几个临床试验正在研究免疫检查点抑制剂在NMIBC中的影响,
  10. 这项研究表明这种癌症治疗方法的生物学合理性。

Methods

Patients

病人

Para_01
  1. 患有NMIBC的患者被纳入欧洲UROMOL项目(n = 296)以及丹麦奥胡斯大学医院(n = 142)。
  2. UROMOL队列的详细信息可以在参考文献6、7中找到,奥胡斯队列的信息描述在参考文献8中。
  3. 本研究符合所有相关的伦理规定。
  4. 所有患者均获得了书面知情同意,参与了研究项目,并且根据国家指南遵循了与人类参与者合作的所有伦理规定。
  5. 该研究得到了中央丹麦地区生物医学研究伦理委员会(1994/2920;Skejby, Aalborg, Frederiksberg)、丹麦国家健康研究伦理委员会(1906019;1708266)、埃尔兰根大学医院伦理委员会(3755)、慕尼黑工业大学伦理委员会(2792/10)、伊拉斯谟MC医学伦理委员会(MEC 168.922/1998/55,鹿特丹)、乌普萨拉地区生物医学研究伦理委员会(2008/252)、贝尔格莱德医学院伦理委员会(440/VI-7)以及巴塞罗那市立卫生局/圣保罗医院临床研究伦理委员会(2008/3296/I)和耶拿大学医院伦理委员会(4774-4/16)的批准。
  6. 患者未因参与获得任何补偿。
  7. 队列的临床特征总结见补充表1。

DNA extraction

DNA提取

Para_01
  1. 肿瘤组织在每个临床中心新鲜采集,并用Tissue-Tek O.C.T.包埋,在液氮中速冻后储存于-80°C。
  2. 在提取DNA之前,通过评估苏木精和伊红染色切片来评估癌细胞含量,这些切片是在用于提取的切片前后的立即切下的。
  3. 中位癌细胞含量为89%。
  4. 使用Puregene DNA纯化试剂盒(Gentra Systems)从Tissue-Tek O.C.T.化合物的切片中提取DNA。
  5. 所有患者的白细胞DNA则使用QIAsymphony DSP DNA midi试剂盒(Qiagen)从血清层中提取。
  6. 使用Qubit荧光计(Thermo Fisher Scientific)测量DNA浓度。

WES

WES

Para_01
  1. 使用 Twist 图书馆准备 EF 套件(Twist Bioscience)和 50 纳克 DNA 输入量制备了肿瘤和匹配的种系 DNA 文库。
  2. 对于血清 DNA 和来自新鲜冷冻肿瘤的 DNA,使用了 10 分钟的片段化时间。
  3. 该方案使用 xGEN UDI-UMI 适配器(Integrated DNA Technologies)进行了优化,并且在连接后进行了七个循环的 PCR 和捕获后进行了七个循环的 PCR。
  4. 奥胡斯队列中的文库也是使用 Twist 图书馆准备 EF 套件(Twist Bioscience),xGEN UDI-UMI 适配器和 50 纳克 DNA 输入量制备的,但是使用了 16 分钟的片段化时间和连接后十个循环的 PCR 和捕获后七个循环的 PCR。
  5. 奥胡斯队列中包含的少量 FFPE DNA 样品的文库是使用相同的条件制备的。
  6. 值得注意的是,少量的文库是使用 Illumina TruSeq DNA 套件和 NimbleGen SeqCap EZ v3.0 捕获制备的。

Mutation calling

突变检测

Para_01
  1. WES读段使用cutadapt(v3.7)去除接头序列和低质量碱基,然后使用bwa(v0.7.17)映射到hg38。
  2. 使用Picard工具MarkDuplicates(v2.27.00)标记重复读段。
  3. Mutect2(v2.2)用于调用体细胞突变和插入缺失。
  4. 随后运行Strelka(v2.9.10),过滤Mutect2检测到的突变,但由Strelka高置信度检测到的突变重新引入。
  5. 只保留WES目标区域内的基因组改变,并使用SnpEff(v.4.3t)进行功能注释。

Identification of significantly mutated genes

显著突变基因的识别

Para_01
  1. MutSigCV (v1)49 被用于识别基因,这些基因的非同义突变频率显著高于基于计算出的背景模型所预期的频率。
  2. 在分析之前,变异位点从 hg38 提升到了 hg19,使用了 R 包 GenomicRanges (v1.44.0) 和 rtracklayer (v1.52.0)。
  3. 只有那些 q 值低于 0.05 并且突变频率超过 5% 的基因被纳入(补充表 2)。

Mutation signatures

突变特征

Para_01
  1. 一个总结每个样本突变类型及其三核苷酸环境的矩阵被生成了,并使用了sigProfiler框架50,包括sigprofilerassignment(v0.0.11),sigprofilerextractor(v1.1.0),sigprofilermatrixgenerator(v1.2.9)和sigprofilerplotting(v1.2.2)来提取新生突变特征。
  2. 然后,这些新生特征被分解成一组已知的九个COSMIC SBS 96特征19:SBS1、SBS2、SBS4、SBS5、SBS10b、SBS13、SBS15、SBS29和SBS31。
  3. 只有包含至少100个突变的肿瘤才被纳入特征分解。

CCF

中国计算机学会

Para_01
  1. 对于每个突变,使用相应肿瘤中的估计 CCF 来推断携带该突变的癌细胞的比例。
  2. 为了确定 CCF,整合了变异等位基因频率(VAF)与使用 PurBayes(v1.3)51 估算的肿瘤纯度以及突变位点处的局部拷贝数,如参考文献 52 所述,根据以下公式:
Para_02
  1. CNt 是突变位点的局部拷贝数,CNn 是二倍体拷贝数状态。CCF大于1被分类为具有1的CCF。
  2. CCFs >1 被分类为具有1的 CCF。

sWGS

sWGS

Para_01
  1. sWGS是使用在外显子捕获前预留的文库部分进行的('WES')。
  2. 所有文库都是在NovaSeq 6000平台(Illumina)上使用S4流动池进行成对末端测序(2 × 150 bp)。
  3. 在测序之前,所有运行都在MiSeq Nano(2 × 150 bp)上进行了校准,以获得均匀的覆盖度。

Copy-number estimation

拷贝数估计

Para_01
  1. 片段化和初始倍性分析是通过ichorCNA(版本0.3.2)从sWGS数据中估算得出的。
  2. ichorCNA使用50kb的bin大小运行,并且针对男性和女性患者的肿瘤独立进行了bin计数标准化。
  3. 在进行标准化时,我们使用了来自15名女性和15名男性的种系样本作为参考(平均覆盖度=2.45倍,范围=0.38-4.30倍)。
Para_02
  1. 全基因组和均匀覆盖的简化基因组测序(sWGS)提供了比基于外显子组测序(WES)数据的估算更精确的拷贝数断点(分割)识别。
  2. 然而,sWGS缺乏提供关于等位基因特异性拷贝数分布的信息的能力,这阻碍了不平衡拷贝数区域的识别。
  3. 这对于准确估计倍性尤为重要,因为平衡区域应该表现出偶数拷贝数,通常是二倍体或四倍体。
  4. 为了解决这一局限性,使用了重叠的WES数据(肿瘤和种系)来使用Battenberg软件(v2.2.10)评估等位基因特异性拷贝数分布。
  5. 从Battenberg获得的不平衡区域信息被整合到ichorCNA的拷贝数估算中。
  6. 随后,每个样本由两人手动检查,以确保仅包含偶数拷贝数状态的平衡片段。
  7. 如果没有满足这一标准,则对倍性进行手动调整。
Para_03
  1. 拷贝数调用由Battenberg指导了倍性估算;然而,有些情况出现了偏差(补充图1a)。
  2. 例如,U0091被Battenberg分类为接近四倍体,但在我们的分析中被认为是接近二倍体。
  3. 这个样本展示了一个平衡的拷贝数状态,被两个较小的不平衡拷贝数状态所包围(补充图1b、c)。
  4. 我们没有找到充分的证据表明这三个状态不应是拷贝数为一、二和三。
  5. 另一个例子是U0457,在我们的分析中被分类为多倍体,但被Battenberg认为接近二倍体。
  6. 这个样本包含两个具有平衡拷贝数片段的拷贝数状态,它们之间由一个不平衡的拷贝数状态隔开(补充图1d、e)。
  7. 与先前提到的平衡拷贝数片段具有偶数拷贝数的概念一致,这两个平衡拷贝数状态必须分别至少有二和四个拷贝数。
  8. 这导致了3.6的倍性估计。
Para_04
  1. 对于19个样本,无法得出可信的拷贝数估算,导致它们被排除在进一步分析之外。

Definition of WGD

WGD的定义

Para_01
  1. 根据参考文献23,如果超过50%的基因组拷贝数高于二(n = 54;15%;图2b),则将肿瘤分类为具有整倍体。
  2. 大量基因组拷贝数高于二也可以通过频繁独立扩增来解释。
  3. 如果是这种情况,预期四倍体的片段将是不平衡的(主等位基因数= 3和次等位基因数= 1)与整倍体肿瘤不同,在整倍体肿瘤中,四倍体的片段主要是平衡的(主等位基因和次等位基因数= 2)。
  4. 事实上,在被分类为具有整倍体的肿瘤中,四倍体的片段主要表现为平衡(B-等位基因频率位于0.5附近),而在被分类为二倍体的肿瘤中,四倍体的片段则不然(扩展数据图4a,b)。

Identification of significant CNAs

显著CNAs的识别

Para_01
  1. 使用 GISTIC2.0(参考文献24)来识别富集的局灶性CNAs区域。
  2. GISTIC2.0 计算整个基因组的 G 值,这些值反映了该区域内事件的频率和这些事件的幅度。
  3. 首先对整个队列运行 GISTIC2.0 以识别显著改变的区域,然后分别对二倍体肿瘤和具有全基因组加倍的肿瘤进行运行,以比较这两组沿基因组的局灶性CNA(G 值)的程度。

Long-read sequencing

长读长测序

Para_01
  1. 测序文库根据Nanopore协议《基因组DNA通过连接》(SQK-LSK114)制备,输入了1.5 µg的DNA,并且将末端准备的孵育时间在20°C和60°C下均增加到10分钟。
  2. 我们使用了78-158 ng的DNA作为加载混合物的输入,目标是获得15 fmol的等量加载输入。
  3. 为了增加输出,我们在测序后一天和两天进行了流通池清洗,并重新加载了相同的文库。
  4. 每份样本产生了62至139 Gb的原始数据,血液样本的N50为13-17 kb,组织样本的N50为7-16 kb。
  5. 数据通过Guppy(v6)进行碱基识别,使用高精度模型,读取拆分以及5mC检测。
Para_02
  1. Fastq文件使用minimap2(v2.24)进行了映射。
  2. 使用SAMtools(v1.15.1)过滤出了非常低的映射质量读取和未映射的读取。
  3. 使用SAVANA(v0.2.3)调用了体细胞结构变异。
  4. 我们使用严格的VCF文件进行其余分析。
  5. 绘图使用了CIRCOS包(v1.3.5)。

TCGA data analysis

TCGA数据分析

Para_01
  1. 为了比较NMIBC与MIBC的基因组景观,我们研究了来自TCGA队列的MIBC的数据。
  2. 导入了包含注释的变异调用和临床信息的突变注解格式文件,使用了R包maftools。
  3. 从412个肿瘤中获取了等位基因特异性拷贝数片段。
  4. 这些数据是基于Affymetrix SNP6.0阵列数据通过ASCAT2计算得出的。

RNA-seq

RNA测序

Para_01
  1. 总RNA测序数据来自414个肿瘤样本,相关数据已在参考文献6和8中报告。
  2. 简而言之,使用RNeasy Mini和Micro Kits(Qiagen)从组织中提取RNA,并使用ScriptSeq(EpiCentre)或KAPA RNA HyperPrep Kit(RiboErase HMR;Roche)制备文库。
  3. 使用Salmon(v1.4)58对转录本进行定量分析,采用gencode v33和hg38。






请到「今天看啥」查看全文