专栏名称: 生信草堂
最权威生信服务,最前沿的生信咨询~
目录
相关文章推荐
出彩写作  ·  为什么大家都怕“推材料”? ·  3 天前  
出彩写作  ·  写材料搭框架速查模板96个+常用词句2000个 ·  3 天前  
出彩写作  ·  写材料列小标题搭框架常用共性词语2000个 ·  4 天前  
出彩写作  ·  如何引导材料新手快速上路 ·  1 周前  
出彩写作  ·  写材料列小标题搭框架常用共性词语2000个 ·  1 周前  
51好读  ›  专栏  ›  生信草堂

cufflinks学习笔记

生信草堂  · 公众号  ·  · 2017-09-25 17:00

正文


生信草堂

将会与更多的优秀微信公众号合作,把最优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的生信交流微信群吧!

正确加入我们的模式是:

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理



前言

       

前面为大家介绍了tophat2的使用,但是我们在得到了tophat2的输出结果之后应该怎么进入下一步分析呢?本期为大家介绍的是比较常见的和tophat2搭配的软件包cufflinks的使用。

cufflinks软件包包括众多的子软件,本次主要介绍cufflinkscuffmergecuffdiff的使用,这三个软件依次运行下来,我们就可以得到想要的转录组差异表达数据。

首先,我们假设

用tophat2做了两个样本的三个重复,分别为L1、L2、L3、H1、H2和H3,经过tophat2运行后得到了六个输出目录L1_out、 L2_out、L3_out、H1_out、H2_out和H3_out。


1
cufflinks的使用

cufflinks可以通过tophat2生成的accepted_hits.bam文件计算isoformFPKM值。笔者的习惯是先cd进入tophat2的结果文件目录内,如:cd ./L1_out,然后使用cufflinks命令:

cufflinks –p 10 accepted_hits.bam

其中线程-p后面为CPU线程数量,根据服务器配置设定大小。

其输出文件名为transcripts.gtf,保存在当前目录下。


2
通过vi命令来创建txt文本

首先退回到上一层目录:cd ..

创建txt命令为:vi assembies.txt

创建后,按i键进入编辑模式,在编辑模式下输入

./L1_out/transcripts.gtf

./ L2_out/transcripts.gtf

./L3_out/transcripts.gtf

./H1_out/transcripts.gtf

./H2_out/transcripts.gtf

./ H3_out/ transcripts.gtf

Esc键,输入:wq,回车即可退出并保存文本。


3
cuffmerge的使用

 cuffmerge的作用是将cufflinks生成的transcripts.gtf文件整合成一个文件,方便后面cuffdiff的进一步分析。

 cuffmerge –p 20 –g genes.gtf –s genome.fa assemblie.txt

 默认输出目录为merged_asm,该目录下生成由transcripts.gtf 整合成的merged.gtf文件。


4
cuffdiff的使用

cuffdiff可以发现转录本的差异表达基因,如果输入的样本量比较多,这一步也是最费时的一步。

cuffdiff –o diff_out –p 20 --lables lable1,lable2 –b genome.fa –u ./ merged_asm/merged.gtf ./ L1_out/accepted_hits.bam,./L2_out/ accepted_hits.bam,./ L3_out/ accepted_hits.bam H1_out/accepted_hits.bam,./H2_out/ accepted_hits.bam,./ H3_out/ accepted_hits.bam

-o输出目录,-pCPU线程,考虑到这一步比较耗时,所以如果服务器端有较多的空余,建议-p参数越大越好。

--lables为两组比对的标签,默认q1q2

样本重复之间用“,”隔开。

cuffdiff的输出结果比较多,主要归为四类:cdsgeneisoformtss_group

可用grep命令查看差异表达基因,比如
     cat gene_exp.diff | grep ‘yes’

 既可得到所有默认FDR小于0.05的差异基因。


当然,cufflinks的这三个软件每个都有很多详细参数,这里就不具体讲了,有需求的同学可以自行百度学习。

以上就是cufflinks的学习笔记,希望大家喜欢。