专栏名称: 23Plus
23Plus是首个专注于表观遗传学领域的网络社区平台,汇聚全球表观遗传领域专家、学者以及医疗实践者,致力于打造兼专业与科普为一体的的表观遗传互动阵地。
目录
相关文章推荐
BioArt  ·  Cell Metab | ... ·  16 小时前  
生信菜鸟团  ·  算法测评 | 如何选择合适的 PPI ... ·  昨天  
BioArt  ·  专家点评Cell Research | ... ·  2 天前  
生物制品圈  ·  世界肥胖日,聊一聊下一代减肥新靶点 ·  2 天前  
51好读  ›  专栏  ›  23Plus

教你学会ChIP-seq分析 | 第八讲

23Plus  · 公众号  · 生物  · 2017-07-20 07:00

正文

写在前面

本次系列文章为大家带来的是生信菜鸟图案的经典文章合辑: 《教你学会ChIP-seq分析》 共九讲内容 带领你从相关文献解读、资料收集和公共数据下载开始,通过软件安装、数据比对、寻找并注释peak、寻找motif等ChIP-seq分析主要步骤入手学习,最后还会介绍相关可视化工具。


第八讲:寻找motif

motif是比较有特征的短序列,会多次出现的,一般认为它的生物学意义重大,做完CHIP-seq分析之后,一般都会寻找motif 。


查找有两种,一种是de novo的,要求的输入文件的fasta序列,一般是根据peak的区域的坐标提取好序列;另一种是依赖于数据库的搜寻匹配,很多课题组会将现有的ChIP-seq数据进行整合,提供更全面,更准确的motif数据库。


motif的定义如下:

motif: recurring pattern. eg, sequence motif, structure motif or network motif

DNA sequence motif: short, recurring patterns in DNA that are presumed to have a biological function.


从上边的定义可以看出,其实motif这个 单词 就是形容一种反复出现的模式,而 序列motif 往往是DNA上的反复出现的模式,并被假设拥有生物学功能。而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)。


摘抄自

http://blog.163.com/zju_whw/blog/static/225753129201532104815301/


motif最先是通过实验的方法发现的,换句话说,不是说有了ChIP-seq才有了motif分析,起始很早人们就开始研究motif了!例如, 'TATAAT’ box 在1975年就被pribnow发现了,它与上游的 ‘TTGACA’motif 是RNA聚合酶结合位点的特异性序列。而且,当时的人们就知道,不是所有的结合位点都一定完美地与motif匹配,大部分都只匹配了12个碱基中的7-9个。结合位点与motif的匹配程度往往也与蛋白质与DNA的结合强弱有关。


目前被人们识别出来的motif也越来越多,如TRANSFAC和JASPAR数据库都有着大量转录因子的motif。而随着ChIP-seq数据的大量产出,motif的研究会进一步深入,有一些课题组会将现有的ChIP-seq数据进行整合,提供更全面,更准确的motif数据库。


从算法上来讲,这是很复杂的,我就不多说了,我这里主要讲best practice:


一篇文献列出了2014年以前的近乎所有知名的A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data 链接见: https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-9-4


最常用的是 MEME工具套件 :

http://meme-suite.org/ 输入文件是fasta序列,需要对peaks进行转换,根据bed的基因坐标从基因组里面提取对应的序列咯: http://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html


它里面集成了4个寻找motif 的工具,每个工具都是一篇文章,里面有详细描述具体原理,但是整个网页给人的感觉是too busy,让初学者无从下手。


把自己的fasta序列上传上去即可,还是选取我们本次系列教程的数据


  1. $ ls -lh  *fasta

  2. - rw-r--r-- 1 Jimmy 197121 18M Jul 7 19 : 40 GSM1278641_Xu_MUT_rep1_BAF155_MUT_sequence.fasta

  3. - rw-r--r-- 1 Jimmy 197121 9.9M Jul 7 19 : 38 GSM1278643_Xu_MUT_rep2_BAF155_MUT_sequence.fasta

  4. - rw-r--r-- 1 Jimmy 197121 26M Jul 7 19 : 41 GSM1278645_Xu_WT_rep1_BAF155_sequence.fasta

  5. - rw-r--r-- 1 Jimmy 197121 14M Jul 7 19 : 41 GSM1278647_Xu_WT_rep2_BAF155_sequence.fasta


然后就可以看到所有结果啦,大家可以试试看。

最后值得一提的是现在流行的R的bioconductor系列包,也可以寻找motif:

一般的R包都可以直接从BED文件里面记录的基因坐标来找motif,有点需要输入fasta序列,就需要自己根据bed的基因坐标从基因组里面提取对应的序列咯:


rGADEM (motif discovery): http://bioconductor.org/packages/devel/bioc/html/rGADEM.html


MotIV (motif validation): http://bioconductor.org/packages/devel/bioc/html/MotIV.html


http://lgsun.grc.nia.nih.gov/CisFinder/

http://bioinfo.cs.technion.ac.il/drim/

http://www.ncbi.nlm.nih.gov/pubmed/20736340


还有一个PICS (ChIP-seq): 虽然不是bioconductor的包 http://www.rglab.org/pics-probabilistic-inference-for-chip-seq/ 貌似国内被墙了,无法打开。


本系列历史文章列表

1 教你学会ChIP-seq分析 | 第一讲

2 教你学会ChIP-seq分析 | 第二讲

3 教你学会ChIP-seq分析 | 第三讲

4 教你学会ChIP-seq分析 | 第四讲

5 教你学会ChIP-seq分析 | 第五讲

6 教你学会ChIP-seq分析 | 第六讲

7 教你学会ChIP-seq分析 | 第七讲


本文转载自


“生信技能树”公众号

初与大家分享自己的生信学习笔记及心得体会。促进生信的学习和交流,构建出完整的生信技能树。搭建生信技术人员联盟,从入门到进阶帮助到每一位生信人。最期待看到团队成员的成长,以及论坛稳健发展和各版块完善。带领团队和论坛成员完善生信技能树的同时,自己也收获前所未有的锻炼,希望自己不忘初心。


"生信技能树"论坛

生信技能树创建于2016年8月,是中国第一家专注于生信知识体系完善、促进生信学习交流的论坛。我们通过收集国内外生信学习资源,邀请大神分享的领域专业知识,发布菜鸟的真实学习笔记,搭建生信技术人员联盟,从入门到进阶帮助每一位生信人。







请到「今天看啥」查看全文