生信草堂
将会与更多的优秀微信公众号合作,把最优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!
号外,号外,号外
你想和生信分析大神做好朋友么?
你想认识更多爱好生信分析的小伙伴么?
你想让自己的生信分析走上快车道么?
那就赶快加入我们的生信交流微信群吧!
正确加入我们的模式是:
添加我们的微信bioinformatics88为好友
标注“加入生信草堂交流群”
在群里请大家注明自己本名,单位,研究领域
便于小编管理
前面为大家介绍了tophat2的使用,但是我们在得到了tophat2的输出结果之后应该怎么进入下一步分析呢?本期为大家介绍的是比较常见的和tophat2搭配的软件包cufflinks的使用。
cufflinks软件包包括众多的子软件,本次主要介绍cufflinks、cuffmerge和cuffdiff的使用,这三个软件依次运行下来,我们就可以得到想要的转录组差异表达数据。
用tophat2做了两个样本的三个重复,分别为L1、L2、L3、H1、H2和H3,经过tophat2运行后得到了六个输出目录L1_out、 L2_out、L3_out、H1_out、H2_out和H3_out。
cufflinks可以通过tophat2生成的accepted_hits.bam文件计算isoform的FPKM值。笔者的习惯是先cd进入tophat2的结果文件目录内,如:cd ./L1_out,然后使用cufflinks命令:
cufflinks –p 10 accepted_hits.bam
其中线程-p后面为CPU线程数量,根据服务器配置设定大小。
其输出文件名为transcripts.gtf,保存在当前目录下。
首先退回到上一层目录:cd ..
创建txt命令为:vi assembies.txt
创建后,按i键进入编辑模式,在编辑模式下输入
./L1_out/transcripts.gtf
./ L2_out/transcripts.gtf
./L3_out/transcripts.gtf
./H1_out/transcripts.gtf
./H2_out/transcripts.gtf
./ H3_out/ transcripts.gtf
按Esc键,输入:wq,回车即可退出并保存文本。
cuffmerge的作用是将cufflinks生成的transcripts.gtf文件整合成一个文件,方便后面cuffdiff的进一步分析。
cuffmerge –p 20 –g genes.gtf –s genome.fa assemblie.txt
默认输出目录为merged_asm,该目录下生成由transcripts.gtf 整合成的merged.gtf文件。
cuffdiff可以发现转录本的差异表达基因,如果输入的样本量比较多,这一步也是最费时的一步。
cuffdiff –o diff_out –p 20 --lables lable1,lable2 –b genome.fa –u ./ merged_asm/merged.gtf ./ L1_out/accepted_hits.bam,./L2_out/ accepted_hits.bam,./ L3_out/ accepted_hits.bam H1_out/accepted_hits.bam,./H2_out/ accepted_hits.bam,./ H3_out/ accepted_hits.bam
-o输出目录,-p为CPU线程,考虑到这一步比较耗时,所以如果服务器端有较多的空余,建议-p参数越大越好。
--lables为两组比对的标签,默认q1和q2。
样本重复之间用“,”隔开。
cuffdiff的输出结果比较多,主要归为四类:cds,gene,isoform,tss_group。
可用grep命令查看差异表达基因,比如
cat gene_exp.diff | grep ‘yes’
既可得到所有默认FDR小于0.05的差异基因。
当然,cufflinks的这三个软件每个都有很多详细参数,这里就不具体讲了,有需求的同学可以自行百度学习。
以上就是cufflinks的学习笔记,希望大家喜欢。