专栏名称: 生信草堂

最权威生信服务，最前沿的生信咨询~

cufflinks学习笔记

生信草堂 · 公众号 · · 2017-09-25 17:00

正文

图片1.png

“

生信草堂

将会与更多的优秀微信公众号合作，把最优秀的微信推文呈现给大家，希望可以帮助读者更多的了解生信技术，培养和提高读者的生信分析能力！

号外，号外，号外

你想和生信分析大神做好朋友么？

你想认识更多爱好生信分析的小伙伴么？

你想让自己的生信分析走上快车道么？

那就赶快加入我们的生信交流微信群吧！

正确加入我们的模式是：

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群”

在群里请大家注明自己本名，单位，研究领域

便于小编管理

前言

前面为大家介绍了tophat2的使用，但是我们在得到了tophat2的输出结果之后应该怎么进入下一步分析呢？本期为大家介绍的是比较常见的和tophat2搭配的软件包cufflinks的使用。

cufflinks软件包包括众多的子软件，本次主要介绍cufflinks、cuffmerge和cuffdiff的使用，这三个软件依次运行下来，我们就可以得到想要的转录组差异表达数据。

首先，我们假设

用tophat2做了两个样本的三个重复，分别为L1、L2、L3、H1、H2和H3，经过tophat2运行后得到了六个输出目录L1_out、 L2_out、L3_out、H1_out、H2_out和H3_out。

cufflinks的使用

cufflinks可以通过tophat2生成的accepted_hits.bam文件计算isoform的FPKM值。笔者的习惯是先cd进入tophat2的结果文件目录内，如：cd ./L1_out，然后使用cufflinks命令：

cufflinks –p 10 accepted_hits.bam

其中线程-p后面为CPU线程数量，根据服务器配置设定大小。

其输出文件名为transcripts.gtf，保存在当前目录下。

通过vi命令来创建txt文本

首先退回到上一层目录：cd ..

创建txt命令为：vi assembies.txt

创建后，按i键进入编辑模式，在编辑模式下输入

./L1_out/transcripts.gtf

./ L2_out/transcripts.gtf

./L3_out/transcripts.gtf

./H1_out/transcripts.gtf

./H2_out/transcripts.gtf

./ H3_out/ transcripts.gtf

按Esc键，输入：wq，回车即可退出并保存文本。

cuffmerge的使用

cuffmerge的作用是将cufflinks生成的transcripts.gtf文件整合成一个文件，方便后面cuffdiff的进一步分析。

cuffmerge –p 20 –g genes.gtf –s genome.fa assemblie.txt

默认输出目录为merged_asm，该目录下生成由transcripts.gtf 整合成的merged.gtf文件。

cuffdiff的使用

cuffdiff可以发现转录本的差异表达基因，如果输入的样本量比较多，这一步也是最费时的一步。

cuffdiff –o diff_out –p 20 --lables lable1,lable2 –b genome.fa –u ./ merged_asm/merged.gtf ./ L1_out/accepted_hits.bam,./L2_out/ accepted_hits.bam,./ L3_out/ accepted_hits.bam H1_out/accepted_hits.bam,./H2_out/ accepted_hits.bam,./ H3_out/ accepted_hits.bam

-o输出目录，-p为CPU线程，考虑到这一步比较耗时，所以如果服务器端有较多的空余，建议-p参数越大越好。

--lables为两组比对的标签，默认q1和q2。

样本重复之间用“,”隔开。

cuffdiff的输出结果比较多，主要归为四类：cds，gene，isoform，tss_group。

可用grep命令查看差异表达基因，比如
cat gene_exp.diff | grep ‘yes’

既可得到所有默认FDR小于0.05的差异基因。

当然，cufflinks的这三个软件每个都有很多详细参数，这里就不具体讲了，有需求的同学可以自行百度学习。

以上就是cufflinks的学习笔记，希望大家喜欢。