基于RNA-seq的转录本重建方法的评估

生信百科 · 公众号 · 医学 · 2017-07-10 08:00

正文

请到「今天看啥」查看全文

二代测序的读长比较短，而 mRNA 长度较长，短 read 需要经过计算来重建全长 mRNA ，进而定量基因表达或发现新的可变剪接。本文将评估 12 种依赖参考基因组的方法（ Augustus, Cufflinks, Exonerate, GSTRUCT, iReckon, mGene, mTim,NextGeneid, SLIDE, Transomics, Trembly ， Tromer ）和两种不依赖参考基因组的从头重建方法（ Oases ， Velvet ）。由于模式或参数的不同，这 14 种方法具体分为 25 种不同的 protocols 。

外显子核酸序列的鉴定

（敏感性：有多少比例的已知外显子核酸序列被重建，精确度：有多少比例的重建 RNA 核酸序列属于已知外显子。） Augustus, mGene 和 Transomics 在线虫中有很高的敏感性，但精确度一般；在人和果蝇中，它们的表现则有明显的下降。 SLIDE 在三个物种中都有优异的表现。 Tromer 和 iReckon 虽有很高的敏感性，但精确度不高。对人而言， Augustus, Exonerate, GSTRUCT, NextGeneid, Trembly 和 Velvet 的敏感性与精确度都高于 0.6 。

外显子个数的鉴定

大多数 protocols 在人中的精确度要低于其他两个物种， iReckon 和 SLIDE 在线虫和果蝇中整体表现突出。

测序深度和内含子长度的影响

Augustus, mGene 和 Transomics 可以在极低丰度或测序深度时较好的鉴定出外显子，而其他 protocols 则有最低测序深度的限制。大多数 protocols 的敏感性与测序深度有简单的线性关系，直到平台期； Tromer 是个例外； Oases 与 Velvet 在较高测序深度时，效果也会下降。

Augustus, mGene 和 Transomics 有最高的内含子发现率。内含子的发现率会随着其长度的增加而降低， Tromer 又是个例外。

鉴定出的内含子与已知内含子的比较

大多数 protocols 能较好的鉴定出已知内含子； mGene, Transomics, Tromer, Velvet 和 Augustus 会鉴定出大量的新 junctions 。

Isoforms 拼接能力的比较

外显子缺失是所有 protocols 共有的缺陷，在线虫中平均 30% ，而在人中可高达 60% 。 Trembly 在人中拼接出了数量最多的完整的 isoforms 。 Augustus, mGene 和 Transomics 则鉴定出了最多数量的 isoforms 。

Assessment of transcript reconstruction methods for RNA-seq. Nature methods. 2013;10(12)