专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
医谷  ·  超60亿,国产Biotech再卖出一大单 ·  昨天  
赛柏蓝  ·  医保资金,已追回1100亿! ·  昨天  
医学影像沙龙  ·  有一种屁股痛叫梨状肌综合征 ·  5 天前  
丁香园  ·  为什么越来越多的主任拒绝返聘了? ·  5 天前  
51好读  ›  专栏  ›  生信百科

TACO:多样本转录本组装的利器

生信百科  · 公众号  · 医学  · 2017-07-09 09:00

正文

对于RNA-seq来说,获得转录本的结构与丰度是很关键的。新工具TACO采用新颖的change-point探测法来区分转录起点和终点,大幅提高了转录本组装的精度。目前,人和小鼠等多种参考基因组的注释都不完整,TACOTranscriptome Assemblies Combined into One)是发现新的isoform和新基因的好工具。TACO还能很容易的嵌入其他分析流程。

 

TACO组装转录本的流程

第一,  各个样本的reads分别map到基因组上(如STAR软件)。

第二,  各个样本分别组装转录本,产生GTF文件(如StringTie软件)。

第三,  TACO将上述多个样本的GTF文件进行合并,输出一个GTF文件。其实,TACO的作用类似于HISAT+StringTie+Ballgown套餐中的StringTie–merge

 



TACO的命令

第一步,转录本组装

./taco_run

注意,gtf_files.txt里面包含着ab initio assembler软件(如StringTie)产生的gtf文件及文件路径,每行一个gtf文件。格式如下,

/path/to/my/assemblies/mcf7.gtf

/path/to/my/assemblies/bt474.gtf

/path/to/my/assemblies/hela.gtf


第二步,与reference比较

./taco_ref_comp -o -r -t --cpat (optionalflag to run coding potential prediction)

 

TACO与Cuffmerge/StringTie的比较

当样本较少的时候(少于10个),TACO与Cuffmerge/StringTie在敏感性(Recall)、精确度(precision)和调和平均数(F-measure:harmonicmean of precision and recall)三个指标上十分接近;然而,当样本量较大,尤其是多余50个样本时,TACO的优势就很明显了。

 

举个例子

没有对比就没有伤害,50100500,随着样本量的增多,TACO组装转录本的准确性越发明显。遥遥领先另外两个软件。


该文章能发在Nature Methods上,也说明了TACO是个不错的工具。


TACO produces robust multi-sample transcriptome assemblies from RNA-seq. Nature methods. 2017;14(1):68-70.