专栏名称: 23Plus
23Plus是首个专注于表观遗传学领域的网络社区平台,汇聚全球表观遗传领域专家、学者以及医疗实践者,致力于打造兼专业与科普为一体的的表观遗传互动阵地。
目录
相关文章推荐
生物探索  ·  Nature Methods | ... ·  2 天前  
生物学霸  ·  33 ... ·  昨天  
生信菜鸟团  ·  cellranger ... ·  2 天前  
生信菜鸟团  ·  raincloud云雨图:一图囊括小提琴+箱 ... ·  4 天前  
51好读  ›  专栏  ›  23Plus

教你学会ChIP-seq分析 | 第三讲

23Plus  · 公众号  · 生物  · 2017-07-03 07:01

正文

写在前面

本次系列文章为大家带来的是生信菜鸟图案的经典文章合辑: 《教你学会ChIP-seq分析》 共九讲内容 带领你从相关文献解读、资料收集和公共数据下载开始,通过软件安装、数据比对、寻找并注释peak、寻找motif等ChIP-seq分析主要步骤入手学习,最后还会介绍相关可视化工具。


第三讲:公共数据下载

这一步跟自学其它高通量测序数据处理一样,就是仔细研读paper,在里面找到作者把原始测序数据放在了哪个公共数据库里面,一般是NCBI的GEO,SRA,本文也不例外, 然后解析样本数,找到下载链接规律。


  1. ## step1 : download raw data

  2. > cd ~

  3. > mkdir CHIPseq_test && cd CHIPseq_test

  4. > mkdir rawData && cd rawData

  5. > ## batch download the raw data by shell script :

  6. > for ((i= 593 ;i< 601 ;i++)) ; do wget [ftp: //ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042](ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042)$i/SRR1042$i.sra;done


很容易就下载了8个测序文件,每个样本的数据大小,测序量如下


  1. > 621M Jun 27 14 : 03 SRR1042593.sra ( 16.9M reads)

  2. > 2.2G Jun 27 15 : 58 SRR1042594.sra ( 60.6M reads)

  3. > 541M Jun 27 16 : 26 SRR1042595.sra ( 14.6M reads)

  4. > 2.4G Jun 27 18 : 24 SRR1042596.sra ( 65.9M reads)

  5. > 814M Jun 27 18 : 59 SRR1042597.sra ( 22.2M reads)

  6. > 2.1G Jun 27 20 : 30 SRR1042598.sra ( 58.1M reads)

  7. > 883M Jun 27 21 : 08 SRR1042599.sra ( 24.0M reads)

  8. > 2.8G Jun 28 11 : 53 SRR1042600.sra ( 76.4M reads)








请到「今天看啥」查看全文