专栏名称: 生信草堂
最权威生信服务,最前沿的生信咨询~
目录
相关文章推荐
成都天府中学附属小学  ·  云朵餐厅 | ... ·  2 天前  
51好读  ›  专栏  ›  生信草堂

我们得到的差异基因的FDR都是错的?

生信草堂  · 公众号  ·  · 2017-10-04 17:00

正文

生信草堂

将会与更多的优秀微信公众号合作,把最优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的生信交流微信群吧!

正确加入我们的模式是:

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理



很多RNA-seq上的好软件都被发表在NATURE METHODS上,今天小编为大家带来的是今年六月份发表在该刊上的一个R包软件sleuth,github地址是http://pachterlab.github.io/sleuth,文章名:Differential analysis of RNA-seq incorporating quantifcation uncertainty; Nature Methods, VOL.14 NO.7, JULY 2017。


sleuth是一个专注于基因和转录本差异计算的软件,和其配套的定量软件是kallisto,两者搭配比其他软件如voom和DESeq2等有着更加精确地结果。

首先作者解释了下误差的两个来源,一个是和reads组装、差异计算有关Inferential Variance,另一个是样本间自身的差异Biological Variance(下图a图)。作者挑选了两个siRNA用不同的软件去计算其样本间的差异性,结果发现DESeq2和voom的结果显示这些基因是差异显著的,但是用sleuth得到的结果显示其并没有显著差异(下图b图)。相比于Biological Variance的影响,Inferential Variance部分对结果的影响要大得多(下图c图)。


图d和图e分别是基因水平和转录本水平的FDR和sensitivity关系图,在d图基因水平上,sleuth黑线相比其他工具更好一点的结果,即假设FDR为0.05时sleuth能找到的差异基因更多。在e图中sleuth的表现远胜于其他软件组合,说明在转录本分析上sleuth有着巨大的优势。


sleuth不但能提高差异计算的敏感性,作者还发现很多软件都低估了自己计算的到的FDR,甚至有些软件计算出的FDR为0.01的基因其实际FDR可能达到了0.1。图f和g分别是转录本和基因水平的报道FDR和真是FDR的差距,我们可以看到f图中,sleuth和voom比较接近真是的FDR,而cuffdiff2、DESeq2、DESeq 、EBseq和edgeR的真是FDR远高于标称的FDR。在图g基因水平上sleuth和voom依旧有着最好的表现,其他五个个软件的表现要比转录本上好一些,但是也远高出了其各自标称的FDR。


作者也针对kallisto等不同软件作为差异计算的输入数据做了研究,综合起来作者最终的结论是:

1.sleuth无论在基因水平还是转录水平上的差异计算都是最好的;

2.sleuth的到的FDR值是准确并且可靠的;

3.基于kallisto作为输入数据的sleuth是一个快速、准确和通用的RNA-seq分析工具。


文章讲完了,但是小编内心有点不淡定了。我们一般会说差异表达计算主要是针对基因水平上的,在转录水平上因为有可变剪切的存在,某个处在中间的reads到底是属于哪一个可变剪切是没法确定的,所以现在还有什么很好的办法去解决这个问题。我们暂且只讨论基因差异上的计算,现在最流行的工具应该是DESeq2了,当然cuffdiff,edgeR也是很常见的工具,如果这三个软件的FDR真如文章作者所示,那么我们因此得到的很多FDR<0.05的显著基因其真实FDR可能达到了0.1,甚至在cuffdiff2中其真实FDR可能达到了0.3左右(图g),这是我们谁都不想看到的。很多基于DESeq2、cuffdiff和edgeR等软件发表的文章其可信度大大降低,不准确的计算也会导致后续验证上的困难。


但是无论如何,技术在进步,我们对生命的测量只会更加准确。