专栏名称: 23Plus
23Plus是首个专注于表观遗传学领域的网络社区平台,汇聚全球表观遗传领域专家、学者以及医疗实践者,致力于打造兼专业与科普为一体的的表观遗传互动阵地。
目录
相关文章推荐
生信人  ·  !!!游离 DNA 连发Nature! ·  6 天前  
生物制品圈  ·  六大生研所——中国生物制品的“国家队” ·  5 天前  
华大集团BGI  ·  蛇年说蛇,基因探秘植物“蛇”世界! ·  5 天前  
51好读  ›  专栏  ›  23Plus

教你学会ChIP-seq分析 | 第七讲

23Plus  · 公众号  · 生物  · 2017-07-17 07:00

正文

写在前面

本次系列文章为大家带来的是生信菜鸟图案的经典文章合辑:《教你学会ChIP-seq分析》共九讲内容带领你从相关文献解读、资料收集和公共数据下载开始,通过软件安装、数据比对、寻找并注释peak、寻找motif等ChIP-seq分析主要步骤入手学习,最后还会介绍相关可视化工具。


第七讲: peaks注释

经过前面的ChIP-seq测序数据处理的常规分析,我们已经成功的把测序仪下机数据变成了BED格式的peaks记录文件,我选取的这篇文章里面做了4次ChIP-seq实验,分别是两个重复的野生型MCF7细胞系的 BAF155 immun =oprecipitates和两个重复的突变型MCF7细胞系的 BAF155 immunoprecipitates,这样通过比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的不同结果就知道该细胞系的BAF155 突变,对它在全基因组的结合功能的影响。


  1. #我这里直接从GEO里面下载了peaks结果,它们详情如下:wc -l *bed

  2. 6768 GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed

  3. 3660 GSM1278643_Xu_MUT_rep2_BAF155_MUT.peaks.bed

  4. 11022 GSM1278645_Xu_WT_rep1_BAF155.peaks.bed

  5. 5260 GSM1278647_Xu_WT_rep2_BAF155.peaks.bed

  6. 49458 GSM601398_Ini1HeLa-peaks.bed

  7. 24477 GSM601398_Ini1HeLa-peaks-stringent.bed

  8. 12725 GSM601399_Brg1HeLa-peaks.bed

  9. 12316 GSM601399_Brg1HeLa-peaks-stringent.bed

  10. 46412 GSM601400_BAF155HeLa-peaks.bed

  11. 37920 GSM601400_BAF155HeLa-peaks-stringent.bed

  12. 30136 GSM601401_BAF170HeLa-peaks.bed

  13. 25432 GSM601401_BAF170HeLa-peaks-stringent.bed


每个BED的peaks记录,本质是就3列是需要我们注意的,就是染色体,以及在该染色体上面的起始和终止坐标,如下


  1. #PeakID chr start end strand Normalized Tag Count region size findPeaks Score Clonal Fold Change

  2. chr20 52221388 52856380 chr20-8088 41141 +

  3. chr20 45796362 46384917 chr20-5152 31612 +

  4. chr17 59287502 59741943 chr17-2332 29994 +

  5. chr17 59755459 59989069 chr17-667 19943 +

  6. chr20 52993293 53369574 chr20-7059 12642 +

  7. chr1 121482722 121485861 chr1-995 9070 +

  8. chr20 55675229 55855175 chr20-6524 7592 +

  9. chr3 64531319 64762040 chr3-4022 7213 +

  10. chr20 49286444 49384563 chr20-4482 6165 +


我们所谓的peaks注释,就是想看看该peaks在基因组的哪一个区段,看看它们在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子,外显子,基因间区域,microRNA区域)分布情况,但是一般的peaks都有近万个,所以需要批量注释,如果脚本学的好,自己下载参考基因组的GFF注释文件,完全可以自己写一个,我这里会介绍一个R的bioconductor包ChIPpeakAnno来做CHIP-seq的peaks注释,下面的包自带的示例


  1. library(ChIPpeakAnno)

  2. bed "extdata", "MACS_output.bed", package="ChIPpeakAnno")

  3. gr1 "BED", header=FALSE)

  4. ## one can also try import from rtracklayer

  5. library(rtracklayer)

  6. gr1.import import(bed, format="BED")

  7. identical(start(gr1), start(gr1.import))

  8. gr1[1:2]

  9. gr1.import[1:2] #note the name slot is different from gr1

  10. gff "extdata", "GFF_peaks.gff", package="ChIPpeakAnno")

  11. gr2 "GFF", header=FALSE, skip=3)

  12. ol

  13. makeVennDiagram(ol)

  14. ##还可以用binOverFeature来根据特定的GRanges对象(通常是TSS)来画分布图

  15. ## Distribution of aggregated peak scores or peak numbers around transcript start sites.


可以看到这个包使用起来非常简单,只需要把我们做好的peaks文件(GSM1278641XuMUTrep1BAF155_MUT.peaks.bed等等)用  toGRanges或者 import读进去,成一个GRanges对象即可,上面的代码是比较两个peaks文件的overlap。然后还可以根据R很多包都自带的数据来注释基因组特征


  1. data(TSS.human.GRCh37) ## 主要是借助于这个GRanges对象来做注释,也可以用getAnnotation来获取其它GRanges对象来做注释

  2. ## featureType : TSS, miRNA, Exon, 5'UTR, 3'UTR, transcript or Exon plus UTR

  3. peaks=MUT_rep1_peaks

  4. macs.anno AnnotationData=TSS.human.GRCh37,

  5. output="overlapping", maxgap=5000L)

  6. ## 得到的macs.anno对象就是已经注释好了的,每个peaks是否在基因上,或者距离基因多远,都是写的清清楚楚

  7. if(require(TxDb.Hsapiens.UCSC.hg19.knownGene)){

  8. aCR

  9. precedence=c("Promoters", "immediateDownstream",

  10. "fiveUTRs", "threeUTRs",

  11. "Exons", "Introns"),

  12. TxDb=TxDb.Hsapiens.UCSC.hg19.knownGene)

  13. barplot(aCR$percentage)

  14. }


得到的条形图如下,虽然很丑,但这就是peaks注释的精髓,搞清楚每个peaks在基因组的位置特征:



同理,对每个peaks文件,都可以做类似的分析!


但是对多个peaks文件,比如本文中的,想比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同,就需要做peaks之间的差异分析,已经后续的差异基因注释啦


当然,值得一提的是peaks注释我更喜欢网页版工具,反正peaks文件非常小,直接上传到别人做好的web tools,就可立即出一大堆可视化图表分析结果啦,大家可以去试试看:


http://chipseek.cgu.edu.tw/

http://bejerano.stanford.edu/great/public/html/

http://liulab.dfci.harvard.edu/CEAS/


虽然我花费了大部分篇幅来描述ChIPpeakAnno这个包的用法,但是真正的重点是你得明白peaks记录了什么,要注释什么,以及把这3个网页工具的可视化图表分析结果全部看懂,这网页版工具才是重点!


本系列历史文章列表

教你学会ChIP-seq分析 | 第一讲

教你学会ChIP-seq分析 | 第二讲

教你学会ChIP-seq分析 | 第三讲

教你学会ChIP-seq分析 | 第四讲

教你学会ChIP-seq分析 | 第五讲

教你学会ChIP-seq分析 | 第六讲


本文转载自


“生信技能树”公众号

初与大家分享自己的生信学习笔记及心得体会。促进生信的学习和交流,构建出完整的生信技能树。搭建生信技术人员联盟,从入门到进阶帮助到每一位生信人。最期待看到团队成员的成长,以及论坛稳健发展和各版块完善。带领团队和论坛成员完善生信技能树的同时,自己也收获前所未有的锻炼,希望自己不忘初心。


"生信技能树"论坛

生信技能树创建于2016年8月,是中国第一家专注于生信知识体系完善、促进生信学习交流的论坛。我们通过收集国内外生信学习资源,邀请大神分享的领域专业知识,发布菜鸟的真实学习笔记,搭建生信技术人员联盟,从入门到进阶帮助每一位生信人。

欢迎点击文末“阅读原文”了解“生信技能树”论坛,上面有本文作者jimmy原创的一千多篇教程


23Plus欢迎表观遗传领域的同行们投稿,分享学术成果、学术见解和学术故事。

投稿请联系:

[email protected]

微信添加23Plus小秘书:

plus23_sec

拉您入群参加更深入的讨论。


23Plus: 首个专注于表观遗传学领域的网络社区

微信号:epi23plus