专栏名称: 23Plus
23Plus是首个专注于表观遗传学领域的网络社区平台,汇聚全球表观遗传领域专家、学者以及医疗实践者,致力于打造兼专业与科普为一体的的表观遗传互动阵地。
目录
相关文章推荐
BioArt  ·  Cell Metab | ... ·  2 天前  
BioArt  ·  Science | ... ·  3 天前  
51好读  ›  专栏  ›  23Plus

Plus推荐 | 哪个蛋白质调控我感兴趣的基因?怎样筛选?基于分析或实验的可行方案V2.1

23Plus  · 公众号  · 生物  · 2017-12-14 07:00

正文

小哈最近更新了一下脑中的ENCODE知识体系,得益于ENCODE的会议视频和小伙伴分享的国内培训班视频, 表观遗传小白逆袭之道:从这 19 个视频开始吧! 尤其是岳峰老师的两个视频,受益匪浅。


这次主要更新了ENCODE的查询方案。以前ENCODE自己的网站功能不强大,需要去UCSC上检索,而且数据量太少。现在,已经积累到7813套ChIP-seq数据,能从ENCODE网站www.encodeproject.org把100套以内的数据提交给UCSC,进行可视化。如果需要100套以上的数据,还能方便的批量下载。


本文关心的是直接调控,即哪个蛋白结合在我感兴趣的基因上游。研究哪个 蛋白质结合某段DNA ,介绍三种screen的有效方法:

  • Plan A:基于大量ChIP-seq公共数据挖掘

  • Plan B:motif分析预测

  • Plan C:ATAC-seq结合motif分析


Plan A:基于大量ChIP-seq公共数据

一套ChIP-seq数据只能看一个蛋白质调控哪个靶基因。 转录因子调控了谁?100%可行的完整解决方案V2.0 。如果有大量ChIP-seq数据,就能看到哪个蛋白质调控某个基因。


目前全世界已发表人和小鼠的2万多套ChIP-seq数据,包含800多个TF,把这些ChIP-seq数据放在一起,就能看到基因组的每个位置都结合了哪些TF。

大量的ChIP-seq数据去哪里找呢?


  1. 收录ChIP-seq数据最全的数据库Cistrome Data Browser,需要一点点linux基础,批量下载和处理Cistrome Data Browser数据;

  2. ChIP实验质量最好的ENCODE项目。


下面介绍这两个数据来源的检索方法:


1. Cistrome Data Browser


Cistrome Data Browser收录了目前已发表的2万多套人和小鼠的ChIP-seq、DNase-seq、ATAC-seq数据。可以单个查看某个转录因子调控的靶基因,详见 转录因子调控了谁


最近开始提供批量下载功能,http://cistrome.org/db/#/,我们就可以从大量的ChIP-seq数据里找到:哪套数据的Factor结合了我感兴趣的DNA区段。


点击右上角的“Batch download”,填写课题组信息,勾选要下载的数据类型

承诺提交的信息正确,不会把下载到的数据交给别人,发表文章的时候引用该论文。输入校验码,点击最下面的按钮,就开始下载了。

用bedtools找出感兴趣的基因附近有结合信号peak的ChIP-seq数据,对应到TF名字,就推测出哪些TF结合了感兴趣的基因。bedtools的用法满天飞,小哈在这里不啰嗦。其实只需要一点点linux基础,纸老虎,不用怕。


2. ENCODE


ENCODE项目进展到今天已经产生了7813套ChIP-seq数据,其中人的5568套,小鼠1086套。检索方法参考 表观遗传系列视频17 | Penn State 岳峰:ENCODE & Roadmap workshop(附PPT) 。另外,还有平行项目,例如模式生物modENCODE和modERN项目,以后小哈会发帖分享使用心得。

人,除组蛋白以外,转录因子等factor的ChIP-seq数据2191套,包含620个factor。


目前可以最多添加100套数据到UCSC genome browser里面查看某段DNA上的peak分布。


例如,在Biosample type里选择stem cell,一共86套数据


点击Visuallize

选择hg19,数据更全。后面再check一下GRCh38版本的基因组在你关心的区域上是否有更新。

打开后看到所有86套数据都展示出来了,在位置框里输入您想看的区段,或基因名字,例如sox2,然后zoom out 10x看更大的区域。好多小矩形的那行就是call出来的peak,下面紧挨着那行是原始信号强度。用眼睛看哪个factor在sox2 TSS附近有peak,推测该factor对sox2的转录有调控作用。


继续往下滚动页面,还能看到该区域存在哪些TF的motif,详见下文Plan B。


如果不想用眼睛看100套以内的数据,而是要从所有的ChIP-seq数据中找到结合某段DNA的factor,需要批量下载:

下载后的数据处理类似于前面讲的Cistrome Data Browser。


该方法的优点是,找到的TF跟DNA的结合关系是有 in vivo 实验证据的;缺点是,基因的转录调控有着组织特异性,在这套ChIP-seq数据的细胞类型和处理条件下不结合,不代表你关心的细胞类型或处理条件下也不结合,有可能真就能结合呢!反之亦然。


Plan B:基于motif预测


通过motif预测DNA上可能会有哪些转录因子结合。每个转录因子都有一个DNA结合结构域(DBD),喜欢结合在特定DNA序列上,也就是motif。如果我感兴趣的基因上游DNA有某个TF的motif,那么该TF就有可能结合这段DNA,从而调控下游基因表达。


书接上文Plan A的ENCODE数据检索。向下滚动鼠标,找到Regulation,点击TFBS Conserved,full,refresh

refresh后,那些段竖线就是该区域存在的TF的motif,TF名字在左侧

V$和_之间的就是TF名

点击名字,出现motif信息

该方法的缺点是, 就算在DNA序列上找到了TF对应的motif,该TF不一定真的就能 in vivo 结合这段DNA。不过,这起码提供了一条线索,让你有迹可循,看到了某个感兴趣的TF的motif,就做个ChIP-qPCR验证一下吧!


Plan C:ATAC-seq结合motif分析

调控蛋白所结合的DNA附近会形成open区域,产生DHS。2013年,Howard Y Chang发明了ATAC-seq。详见 从第一篇文章开始,讲讲ATAC-seq能干啥? 类似于DNase-seq,ATAC-seq能够找出基因组上的open区,根据这段区域上的motif,推测它上面可能结合的TF。ATAC-seq用的细胞数更少,500-50,000个细胞就能做,实验更稳定。有了ATAC-seq的加入,把motif预测出来的候选TF范围缩小到染色质开放区域,结果更准确。


还记得Howard Y Chang吗? 美帝国自然NIH资助啥? 一文中看到,他凭《lncRNA在癌症中的作用机制》一项拿到$724,705,相当于人民币400多万,该项目已经发表2篇paper,一篇Single cell,一篇CRISPR screen。我们站在大牛肩上,紧跟大牛节奏,就能赶在上升期,抓紧时间轻松发一区;否则,邻居大妈都知道 ATAC-seq 的时候。。。


本文转载自








请到「今天看啥」查看全文