我们得到的差异基因的FDR都是错的？

生信草堂 · 公众号 · · 2017-10-04 17:00

正文

图片1.png

“

生信草堂

将会与更多的优秀微信公众号合作，把最优秀的微信推文呈现给大家，希望可以帮助读者更多的了解生信技术，培养和提高读者的生信分析能力！

号外，号外，号外

你想和生信分析大神做好朋友么？

你想认识更多爱好生信分析的小伙伴么？

你想让自己的生信分析走上快车道么？

那就赶快加入我们的生信交流微信群吧！

正确加入我们的模式是：

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群”

在群里请大家注明自己本名，单位，研究领域

便于小编管理

很多RNA-seq上的好软件都被发表在NATURE METHODS上，今天小编为大家带来的是今年六月份发表在该刊上的一个R包软件sleuth，github地址是http://pachterlab.github.io/sleuth，文章名：Differential analysis of RNA-seq incorporating quantifcation uncertainty; Nature Methods, VOL.14 NO.7, JULY 2017。

sleuth是一个专注于基因和转录本差异计算的软件，和其配套的定量软件是kallisto，两者搭配比其他软件如voom和DESeq2等有着更加精确地结果。

首先作者解释了下误差的两个来源，一个是和reads组装、差异计算有关Inferential Variance，另一个是样本间自身的差异Biological Variance（下图a图）。作者挑选了两个siRNA用不同的软件去计算其样本间的差异性，结果发现DESeq2和voom的结果显示这些基因是差异显著的，但是用sleuth得到的结果显示其并没有显著差异（下图b图）。相比于Biological Variance的影响，Inferential Variance部分对结果的影响要大得多（下图c图）。

图d和图e分别是基因水平和转录本水平的FDR和sensitivity关系图，在d图基因水平上，sleuth黑线相比其他工具更好一点的结果，即假设FDR为0.05时sleuth能找到的差异基因更多。在e图中sleuth的表现远胜于其他软件组合，说明在转录本分析上sleuth有着巨大的优势。

sleuth不但能提高差异计算的敏感性，作者还发现很多软件都低估了自己计算的到的FDR，甚至有些软件计算出的FDR为0.01的基因其实际FDR可能达到了0.1。图f和g分别是转录本和基因水平的报道FDR和真是FDR的差距，我们可以看到f图中，sleuth和voom比较接近真是的FDR，而cuffdiff2、DESeq2、DESeq 、EBseq和edgeR的真是FDR远高于标称的FDR。在图g基因水平上sleuth和voom依旧有着最好的表现，其他五个个软件的表现要比转录本上好一些，但是也远高出了其各自标称的FDR。

作者也针对kallisto等不同软件作为差异计算的输入数据做了研究，综合起来作者最终的结论是：

1.sleuth无论在基因水平还是转录水平上的差异计算都是最好的；

2.sleuth的到的FDR值是准确并且可靠的；

3.基于kallisto作为输入数据的sleuth是一个快速、准确和通用的RNA-seq分析工具。

文章讲完了，但是小编内心有点不淡定了。我们一般会说差异表达计算主要是针对基因水平上的，在转录水平上因为有可变剪切的存在，某个处在中间的reads到底是属于哪一个可变剪切是没法确定的，所以现在还有什么很好的办法去解决这个问题。我们暂且只讨论基因差异上的计算，现在最流行的工具应该是DESeq2了，当然cuffdiff，edgeR也是很常见的工具，如果这三个软件的FDR真如文章作者所示，那么我们因此得到的很多FDR<0.05的显著基因其真实FDR可能达到了0.1，甚至在cuffdiff2中其真实FDR可能达到了0.3左右（图g），这是我们谁都不想看到的。很多基于DESeq2、cuffdiff和edgeR等软件发表的文章其可信度大大降低，不准确的计算也会导致后续验证上的困难。

但是无论如何，技术在进步，我们对生命的测量只会更加准确。