对于
RNA-seq
来说,获得转录本的结构与丰度是很关键的。新工具
TACO
采用新颖的
change-point
探测法来区分转录起点和终点,大幅提高了转录本组装的精度。目前,人和小鼠等多种参考基因组的注释都不完整,
TACO
(
Transcriptome Assemblies Combined into One
)是发现新的
isoform
和新基因的好工具。
TACO
还能很容易的嵌入其他分析流程。
TACO
组装转录本的流程
第一,
各个样本的
reads
分别
map
到基因组上(如
STAR
软件)。
第二,
各个样本分别组装转录本,产生
GTF
文件(如
StringTie
软件)。
第三,
TACO
将上述多个样本的
GTF
文件进行合并,输出一个
GTF
文件。其实,
TACO
的作用类似于
HISAT+StringTie+Ballgown
套餐中的
StringTie–merge
。
TACO
的命令
第一步,转录本组装
./taco_run
注意,
gtf_files.txt
里面包含着
ab initio assembler
软件(如
StringTie
)产生的
gtf
文件及文件路径,每行一个
gtf
文件。格式如下,
/path/to/my/assemblies/mcf7.gtf
/path/to/my/assemblies/bt474.gtf
/path/to/my/assemblies/hela.gtf
第二步,与
reference
比较
./taco_ref_comp -o
-r
-t
--cpat (optionalflag to run coding potential prediction)
TACO
与Cuffmerge/StringTie的比较
当样本较少的时候(少于10个),TACO与Cuffmerge/StringTie在敏感性(Recall)、精确度(precision)和调和平均数(F-measure:harmonicmean of precision and recall)三个指标上十分接近;然而,当样本量较大,尤其是多余50个样本时,TACO的优势就很明显了。