专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
51好读  ›  专栏  ›  生信技能树

一文读懂3D基因组之Hi-C及其数据处理

生信技能树  · 公众号  ·  · 2017-12-15 12:13

正文


Hi-C的起源与发展


1953年,沃森和克里克发现DNA双螺旋结构,这标志着生物界进入基因组的研究时代。此后不久,胰岛素的氨基酸序列得以破解,DNA测序逐渐成为生物学家的重要目标。1975年Frederick Sanger等人发明了Sanger测序法,这一突破的性的工作为基因组学的发展甚至是整个生物学发展起到了推动作用。而后人类基因组计划的开启,人类基因草图的完成等一系列的重大科研项目的进行推进了生命科学的发展。



单分子实时测序,离子半导体测序以及454测序等二代测序的发展,使得测序通量下降成本降低,促进了基因组学的发展。


上图主要阐述了线性基因组学主要研究工作,随着研究深入以及科技发展,科学家已经不满足于在二维寻找基因的信息,尤其是发现染色质有较多有趣的现象时,二维基因组并不能很好解释染色质的这些现象,因而人们开始寻找空间结构也能影响基因表达的信息。




近年来,随着线性基因组的发展,研究者利用荧光原位杂交、染色质构象捕获(chromosome conformation capture,3C)等技术,更加深刻了解到细胞核中染色质的三维构象以及内容。之后研究者们将3C技术与基因芯片技术融合产生了4C、5C技术。09年Job Dekker等人将3C技术与二代测序技术结合起来发明Hi-C技术研究染色质DNA与DNA的交互,阮等人发明ChIA-PET技术研究蛋白与DNA交互信息。 基因组学的研究也从一维转变为三维。

从一维的基因组信息, 到二维的交互网络, 再到三维的染色质结构. (a) 一维基因组和表观遗传学数据, 以及 ChIA-PET 示例数据, 虚线表示两个 DNA 片段之间有连接; (b) RNAPII 参与的染色质交互网络、相应的双对数曲线图(典型的无尺度网络标志), n 表示染色质交互的数目, f 表示有 n 个交互的节点数目. 在放大的图中, 节点的颜色表示节点来自于不同的染色体; (c) 通过 ChIA-PET 数据重建的一个粗略的染色体在细胞核内的分布结构. 不同的颜色表示不同的染色体. 本图来自于 Sandhu 等人。



HiC的重要应用


1
Hi-C实验



01

甲醛交联,固定细胞核内染色质构象

02

酶切,并用生物素标记

03

成环

04

打断

05

钓取带有生物素标记的酶切片段


2
数据分析

01

数据过滤,筛选(二代测序通用 ^__^ )

02

比对;比对的方式主要分两种,一种判断每条reads是否含有酶切位点,有则去掉酶切位点之后的数据在进行bowtie2单端比对;另一种采用单端比对的策略,以25bp为起始长度,每次增加5bp直到该reads比对到基因组具有唯一性。

03

寻找酶切片段;比对寻找到reads pairs在基因组物理位置之后,通过插入片段大小的限制搜索reads pairs两端每条read所对应的最近的酶切片段。酶切片段的位置代表了DNA交互产生的大致位置。

04

筛选fragment pairs;



我们只需要Valid Pairs。

05

Binning;将Valid Pairs的交互信息mapping到 基因组的位置,最终转换成为每两个bin的交互强度。

06

交互矩阵标准化;标准化方法主要分为两类,一类是基于矩阵,进行数学上的标准化,例如迭代等,另一类是基于生物学意义(例如mappingability)上的标准化。

3
代码分析

分析代码会在博客(www.zilhua.com)以protocol的形式发表

4
HI-C分析工具包



3D基因组之Hi-C数据分析


1
数据过滤(质量筛选,NGS必做^_^)
2
分析HiC数据,得到自己设定分辨率(例如100kb)的热图(由于这部分需要下载基因组,网速较慢,下期介绍)
3
Hi-C数据可视化以及Find Topologically Associating Domains

(1)需要数据:Hi-C交互矩阵:N * N 的矩阵

由第二步得到的Hi-C数据是这样的格式(中间以tab分割)

(2)软件包: tadbit

https://github.com/zilhua/tadbit

官方网站: http://3dgenomes.github.io/TADbit/

(3)计算代码:

  1. #!/user/bin/python

  2. # -*- coding:UTF-8 -*-

  3. '''

  4. Created on ${date}







请到「今天看啥」查看全文