专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Cell | ... ·  2 天前  
生信人  ·  单细胞聚焦微生物与免疫互作 ·  4 天前  
BioArt  ·  Nat Cell Biol | ... ·  3 天前  
生物制品圈  ·  疾病控制率达100%!明济生物癌症1类新药拟 ... ·  4 天前  
51好读  ›  专栏  ›  生信菜鸟团

27分的Nature子刊教你分析癌细胞基因组重排

生信菜鸟团  · 公众号  · 生物  · 2020-10-24 22:51

正文

今天跟大家分享的是2020年3月发表在 Nat.Genet. (IF:27.603) 杂志上的一篇文章 Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer ,作者通过泛癌全基因组分析,研究了染色体结构突变对拓扑结构域的影响。

Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer

在人体癌细胞中基因组重排破坏染色质折叠结构域

(分享者:科研菌-鳕鱼堡)


一.研究背景

基因组的三维结构是由拓扑相关结构域(TAD)基本单元构成,结构域的完整性对基因的正确调控十分重要,同一TAD中的基因表达和组蛋白修饰谱情况相似,而分隔不同结构域的边界对于增强这些特征的稳定性具有重要作用。

有研究表明,结构域边界的破环会导致相邻结构域之间的异位相互作用,并影响邻近基因的调控。但目前结构域破坏在癌症中的发生频率尚不清楚,是否有除基因座以外其他潜在的调控结构也并不明确。作者基于此全面研究了染色体结构变异(SV)对TAD的影响,以及基因在不同肿瘤类型中的表达模式。


二.分析流程


三.结果解读

1. 肿瘤基因组中不同类型的体细胞结构变异影响TAD边界

以往的研究表明,TAD是基因组结构中维持细胞类型恒定的主要因素,而TAD边界又对于TAD的稳定性具有重要意义。在这篇泛癌的分析中,作者试图在不同的细胞类型中发现一组共同的TAD边界。作者分析了来自三种胚胎生殖层的五种人类细胞系的高分辨率染色体构象(Hi-C)数据集,识别出不同细胞类型中的TAD边界(补充图1a)。

补充图1 a

作者按25kb对Hi-C数据进行分组,并计算每种细胞类型的互作隔绝指数来确定TAD边界,发现边界的数量在3926到4690之间。

计算互作隔绝指数:

对每一组,根据邻近的基因座计算出一个TAD信号得分,沿Hi-C矩阵的对角线并具有局部绝缘最小值的区域就是TAD边界。

随后作者比较了他们发现的TAD边界与先前的报道一致性,并显示了TAD边界的属性。以IMR90细胞为例,作者发现的边界与以报道的边界高度重叠(>84%,补充图1b),说明当前的边界区域与先前绘制的边界具有可比性,即使它们的Hi-C分辨率与检验算法并不相同。此外,作者还观察到每种细胞类型的TAD信号特征(补充图1c)。

补充图1 b-g

在所有细胞类型中,作者一共确定了2477个边界在所有细胞中有明显的重叠(补充表1,补充图1d)。这些共同边界的中位长度约为750kb,与先前报道的人类细胞中TAD大小的中位值一致(补充图1e)。接下来作者测试了癌细胞和非癌细胞染色质结构的相似度,将他们发现的边界与癌细胞系中发现的TAD边界进行比对。发现这些边界与白血病细胞系(K562,85%)和乳腺癌细胞系(MCF7,83.4%)的边界高度重叠(补充图1f、g),说明正常细胞和肿瘤细胞之间的具有一定比例的保守边界。

随后作者观察了CCCTC结合因子(CTCF)和DNase I的超敏感位点,以及各细胞类型的边界周围的活性转录起始位点和异染色质区的富集情况。结果显示在边界处,CTCF结合位点和活性启动子标记富集,而异染色质较少。此外,与侧翼位点相比,TAD信号在边界处最低(图1a),这与"TAD边界减少相邻区域之间的接触"的作用一致。

图1 a

接下来,为了了解体细胞结构变异对癌症TAD边界的影响,作者使用了大量体细胞突变的数据进行泛癌全基因组分析(PCAWG)。

数据:288457个高置信度的体细胞结构变异

PCAWG协会收集了ICGC和TCGA项目产生的38种肿瘤类型的2658种癌症的全基因组测序(WGS)数据。通过标准化、高精度pipeline重新分析,使其与人类基因组一致,并识别种系突变和体细胞突变。

作者使用SV断点方向作为度量来对缺失、倒位、重复或复杂重排进行分类,并根据变异的基因组长度将SV分为短程(<2Mb)和长程(>2Mb)两个亚组(补充图2a),大多数缺失、倒位和重复均为短程组,而复杂重排往往为长程组。

补充图2 a

图1 b

在本文中,由于长程组可能会影响多个边界,因此作者将研究重点放在短程组上,并将跨越了边界的SV定义为边界影响(BA)SV(图1b)。而与经随机排列的边界相比,BA缺失明显低于预期,而BA重复明显高于预期,这说明缺失倾向于发生在同一个TAD内,而重复则倾向于跨越不同的TAD区域(图1c)。

图1 c-e

在癌细胞中,由于染色体结构的改变,边界受到不同程度的影响,这说明一些机械上的差异可能会导致不同的SV类型。作者发现BA-SV的长度是均匀分布的(补充图2b),且大部分的BA-SV仅影响单个边界(图1d),受影响的边界数量也与SV的最小长度没有明显关系(补充图2c)。同时,大多数边界在癌症基因组中受到影响,但在健康人类基因组中影响较少(补充图2d)。

补充图2 b-d

由于种系中对大SV的阴性选择,种系突变的基因组长度比肿瘤的体细胞变异更短。因此,作者选择了基因组长度位于75-250kb之间的种系和体细胞缺失进行研究,发现相比于体细胞中的缺失,影响TAD边界的缺失在种系突变中非常罕见(图1e),说明TAD边界的种系突变的耐受性可能不如类似的体细胞突变。

2. 染色质折叠破坏为组织学亚型所特有

接下来,作者重点研究了BA-SV在38种不同组织学癌症亚型中的分布。分析显示,BA-SV数量与SV的总数有一定的正相关性(图2a),但中位SV长度与观察到的长度分布没有显著的相关性(补充图3a)。

图2

作者还发现BA-SV类型的差异可能与SV负担和机制的差异有关(图2b),并且单个样本的SV总数也会影响到BA-SV的数量(图2b,补充图3b)。

补充图3

由此可以得出结论,BA-SV在不同的肿瘤类型中有着较大的差异,并且与总体SV的负荷以及类型相关。


3. 在特定癌症中反复受累的边界

随后作者试图确定已知驱动基因附近的受影响边界,发现许多癌症驱动基因的边界在特定的组织学亚型中发生了改变(图3a)。

图3 a

而在反复受累的边界中,KIAA1549和BRAF之间的两个相邻边界在毛细胞星形细胞瘤中容易出现BA重复(图3b)。此外,在平滑肌肉瘤中,MDM2位点附近的边界受影响最大,且12号染色体有更高的突变负荷(图3b)。

图3 b

接下来作者调查了单个染色体上的BA-SV分布,发现其与染色体上的边界数目和基因密度呈正相关(补充图4c、d)。同时,每条染色体上的BA-SV分布通常与组织学亚型相关,如17号染色体主要受乳腺癌和食管腺癌样本中的BA复杂重排的影响(补充图5),这些结论强调了BA-SV的癌症特异性。

补充图4 c-d

补充图5

随后作者检查了发生在TAD内的SV,发现CTCF-CTCF染色质环容易被破坏。比如FOXC1附近的CTCF位点与食管癌、胃癌和结肠癌的重复性缺失重叠(图3c),肝细胞癌和乳腺癌中BCL6以及结直肠癌中的CLCN4附近的CTCF位点也被破坏(补充图6a、b)。

图3 c

补充图6

因此,染色质折叠破坏可以在不同尺度上产生,循环性改变的边界通常是癌症特异性的。


4. 大多数结构域的破坏不会导致明显的基因表达改变

接下来作者通过描述每个TAD内聚集的染色质状态来解释BA-SV对染色质结构域功能的潜在影响。作者计算了每个结构域中染色质状态富集的覆盖率,随后将其归一化并用k-均值聚类算法进行分组,一共识别出五组不同的TAD(图4a)。

图4 a

随后作者分析了各组域大小的分布,发现与活性结构域相比,抑制域的大小更大,覆盖了基因的大部分(补充图7a、b)。

补充图7 a-b

接下来作者分析了来自GTEx数据库的无癌样本以及ICGC数据库中的癌症患者样本各组域内的基因表达情况。表达水平分析显示,在抑制域或者核纤层组织(LAD)内的基因表达显著低于活性域或inter-LAD的基因(图4b,补充图7c)。

图4 b

补充图7 c-e

作者还利用TCGA数据库分析了各组的基因表达情况(补充图7d)以及复制时序分布(补充图7e),与之前的结果一致。

补充图8 a

随后作者分析了各类BA-SV在侧翼域的分布情况,发现大部分BA-SV会影响同种侧翼结构域类型,而不同结构域类型之间的BA-SV显著高于预期(补充图8a)。说明BA-SV在基因表达变化中具有潜在的作用,因此作者比较了位于SV两侧的基因表达值。

图4 c-d

由于有研究表明,融合的抑制-活性结构域可能导致其附近基因的上调,因此作者首先研究了抑制和活性结构域之间的BA缺失。发现位于缺失抑制侧的的基因显著上调(图4c)。如恶性淋巴瘤样本中的BA缺失使WNT4的表达水平增加了37倍(图4d),乳腺癌患者基因组中的BA缺失也与SLC22A2的26倍过表达相关(图4e)。然而,这种相关性并不普遍,在抑制-活性结构域间BA缺失的子宫腺癌样本中,SLC2A10表达的倍数变化仅为1.10(图4f),因此并不是每一个抑制-活性结构域间BA缺失都与基因表达有着显著相关性。

图4 e-f

而在抑制-抑制域或活性-活性域中没有观察到任何过表达的现象(补充图8b)。

补充图8 b

为了进一步的研究,作者根据之前的分组(图4a)将域划分为高(more)/低(less)转录活性两组,并研究这两类域之间的BA缺失与基因表达的相关性,结果显示没有显著的差异(图4g)。

图4 g

同样的,BA重复和BA复杂重排的基因表达也没有显著性差异(补充图8c)。

补充图8 c

接下来作者比较了与LAD相关的SV,以确定LAD的改变是否会影响肿瘤的基因表达,发现LAD内的缺失和inter-LAD的重复显著,而SV不太可能发生在LAD和inter-LAD之间(补充图8d)。

补充图8 d

虽然在黑色素瘤患者中,LAD内的复杂重排会导致期内的TRIM42表达上调7倍(图4h)。但总体而言与LAD相关的SV没有使基因表达发生显著的变化(图8e)。







请到「今天看啥」查看全文