专栏名称: 生信草堂
最权威生信服务,最前沿的生信咨询~
目录
相关文章推荐
芝士起源  ·  几百元换几百万,想想都划算! ·  22 小时前  
芝士起源  ·  几百元换几百万,想想都划算! ·  22 小时前  
中金固定收益研究  ·  【中金固收】经济数据仍待更多政策提振,债牛延 ... ·  昨天  
中金固定收益研究  ·  【中金固收·信用】中国信用债评级调整周报 ·  5 天前  
中金固定收益研究  ·  【中金固收·重磅推荐】中美债牛二阶段——牛平 ... ·  1 周前  
中金固定收益研究  ·  【中金固收】通胀继续走低,仍需引导实际利率下 ... ·  1 周前  
51好读  ›  专栏  ›  生信草堂

影响实验精确度的RNA分析套路及优化

生信草堂  · 公众号  ·  · 2017-08-23 17:00

正文

RNA测序分析有万般套路,比如tophat+cuffLinks,star+htseq+deseq2,hisat2+stringtie等等,但是对于这些组合得到的结果哪个更可靠,恐怕我们没有足够的精力和技术去深入研究。但是在今年七月份,一群美国人在Nature Communications上发表一篇足够有分量的文章,在精确度、效率和一致性三个层次上评估了当前主流的39个工具的120个组合,并选出了最优的工具套装。这篇文章名为《Gaining comprehensive biological insight into the

transcriptome by performing a broad-spectrum RNA-seq analysis》,下面就由小编来为大家解读下文章里关于short-read(二代测序结果)有参比对部分的内容。

1

分析样本,如下表格所示,一共有15个样本,其中short-read测序样本12个,有100bp和300bp两种测序结果。



2

作者使用不同的软件在回帖、组装、定量以及差异计算方面分别作了测试,如下图流程所示:


3

在回帖软件方面,作者主要选择了ToHhat、STARHISAT2这三个最流行的软件以及RASER

       软件速度如下表所示,数值的单位为小时。HISAT2的回帖速度最快,其次是STAR,最慢的是TopHat,和前两者相比TopHat的速度是让人无法忍受的。

       对回帖的结果进行分析,在junctions评估方面,我们可以看到TopHatSTAR虽然在数量上高于HISAT2,但是HISAT2的自己特有的junctions却是最少的。将junctions放在dbEST database检验可信度,发现HISAT2有最高的表现达到了80%,通过两步法mapping的STAR虽然得到的junctions数量众多,但是其可信的junctions比例却是最低的。


4

作者选取了两个最常见的软件CufflinksStringTie进行组装(这里针对有参,无参组装小编这里就不讲述了),从速度上看,StringTie比Cufflinks要快很多,其中Cufflinks+STAR这对组合是最慢的,StringTie和上游的三个软件的组合在速度方非常接近。

       在转录本的组装数目方面,StringTie组装的转录本比Cufflinks得到的转录本在数量量多出近一倍。在100bp长度read组装方面,三个mapping软件对两个组装软件结果数量的影响相对于在300bp样本(又数第二列)下的影响小很多。

       红色是敏感度,蓝色是精准度,可以发现在Gene层面上,Cufflinks是稍微优于StringTie的,但是在Transcipt层面上,StringTieCufflinks无论是敏感度和准确度上都是大幅领先的。有个例外就是300bp长度read组装上,StringTie并没有表现出在100bp read组装上的优势。

       考虑到目前常规的测序长度为150bp,所以StringTie是一个更好的选择。


5

在转录本定量方面,作者既测试了StringTieCufflinks自带的定量结果,又加入了其他定量软件,如下表所示:

       在Spearman rank correlation的热聚图上,StringTie相对于Cufflinks与其他软件的一致性更好一点。

       针对同一组织两个不同测序长度MCF7-100100bp)和MCF7-300300bp)样本的定量结果进行分析发现,STAR作为回帖软件得到的结果在两个测序长度下的表达量计算结果(左2和左5)并不稳定。kallisto Salmon-SMEM的一致性最好,cufflinks在一致性上稍微优于StringTie,但转录本数量远少于StringTie(参考第四部分),HISAT2TopHat优于STAR


6

在差异计算软件的挑选上,作者除了使用Cufflinks套装自带的软件Cuffdiff外,还使用了下表所示软件。

       通过三个方面的分析发现DESeq2的结果一致性是最好的,另外edgeRlimma略逊于DESeq2BallgownCuffdiff的表现让人很失望。


7

作者最终得到的最优选择如下图所示,回帖用HISAT2,组装和定量用StingTie,差异计算选择DESeq2


       通过这篇文章我们可以发现,不同的mapping软件得到的结果差异还是很大的,在junctions精确度上HISAT表现最优。虽然在定量上Cufflinks并不逊色于StringTie,但在组装上Cufflinks相对于StringTie在转录本数量上的弱势是很明显的,并且StrignTie的速度相比cufflinks要快一些。原本与StringTie搭配的差异计算R包Ballgown表现并不尽人意,DESeq2有着最好的差异计算表现,可以搭配StringTieHISAT组成我们RNA分析的首选套餐。


      

这篇文章除了以上的分析优化外,还做了SNP分析优化、long-read流程优化和无参组装优化,这里小编就不一一说了,有需要同学可以找这篇文章仔细分析下。 在看了这篇文章后,我终于可以放心的选择合适的软件搭配了 


生信草堂

将会与更多的优秀微信公众号合作,把最优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的微信群吧:生信草堂交流群

或者加我们的微信,我们会把您拉入我们的社区:mly-1800; Edison686868