对于RNA-seq来说,获得转录本的结构与丰度是很关键的。新工具TACO采用新颖的change-point探测法来区分转录起点和终点,大幅提高了转录本组装的精度。目前,人和小鼠等多种参考基因组的注释都不完整,TACO(Transcriptome Assemblies Combined into One)是发现新的isoform和新基因的好工具。TACO还能很容易的嵌入其他分析流程。
TACO组装转录本的流程
第一, 各个样本的reads分别map到基因组上(如STAR软件)。
第二, 各个样本分别组装转录本,产生GTF文件(如StringTie软件)。
第三, TACO将上述多个样本的GTF文件进行合并,输出一个GTF文件。其实,TACO的作用类似于HISAT+StringTie+Ballgown套餐中的StringTie–merge。
TACO的命令
第一步,转录本组装
./taco_run
注意,gtf_files.txt里面包含着ab initio assembler软件(如StringTie)产生的gtf文件及文件路径,每行一个gtf文件。格式如下,
/path/to/my/assemblies/mcf7.gtf
/path/to/my/assemblies/bt474.gtf
/path/to/my/assemblies/hela.gtf
第二步,与reference比较
./taco_ref_comp -o -r -t --cpat (optionalflag to run coding potential prediction)
TACO与Cuffmerge/StringTie的比较
当样本较少的时候(少于10个),TACO与Cuffmerge/StringTie在敏感性(Recall)、精确度(precision)和调和平均数(F-measure:harmonicmean of precision and recall)三个指标上十分接近;然而,当样本量较大,尤其是多余50个样本时,TACO的优势就很明显了。
举个例子
没有对比就没有伤害,50,100,500,随着样本量的增多,TACO组装转录本的准确性越发明显。遥遥领先另外两个软件。
该文章能发在Nature Methods上,也说明了TACO是个不错的工具。
TACO produces robust multi-sample transcriptome assemblies from RNA-seq. Nature methods. 2017;14(1):68-70.