专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
蒲公英Ouryao  ·  玻璃包装,凭什么无法撼动 ·  19 小时前  
蒲公英Ouryao  ·  生物制药1000个常用术语 ·  2 天前  
蒲公英Ouryao  ·  李怡鑫推荐 | ... ·  3 天前  
51好读  ›  专栏  ›  生信百科

CNCI:利用序列特征鉴定lncRNA

生信百科  · 公众号  · 医学  · 2017-07-16 10:00

正文

>70%的人基因组序列会转录产生RNAmRNA仅占小部分,大多数为lncRNA。由于lncRN的复杂性和多样性,鉴定或预测lncRNA充满挑战,尤其是对无参考基因组的物种。本文介绍一种不依赖参考基因组序列比对、简单好用的工具:CNCICodingNon-CodingIndex)。CNCI通过分析临近核酸三联体(adjoining nucleotide tripletsANT)的特征,来有效区分蛋白编码序列和非编码序列。CNCI在脊椎动物中的表现要由于非脊椎动物和植物。

 

CNCI工作流程

CNCI采用滑动窗口法(Sliding Window)对每一个待鉴定的RNA扫描6次,每次产生一个阅读框(ReandingFrame),用动态规划算法找出每个阅读框中的MLCDS(最像CDS的subsequence),并打分(S-score),从6个MLCDS中选取得分最高的,即Best MLCDS。通过支持向量机(SVM),根据编码序列和非编码序列的特征,来判断Best MLCDS属于哪一类。概括起来就是:最像CDS的subsequence都不是编码区,则整个RNA就是lncRNA。



CNCICPC/phyloCSF的比较

对于人的RNA序列,CNCI在不同长度上的准确性都优于CPCphyloCSF,特别是长RNA


CNCICPCphyloCSF的最小平均误差(minimumaverage errorMAE)分别为0.050.110.28CNCI的敏感性和特异性更胜一筹。



不同物种比较

12个不同物种比较发现,CNCI在脊椎动物中的表现最好,MAE<0.1。在非脊椎动物和植物中表现稍次,MAE分别为0.180.24 

 

CNCI的安装:

tar zxvf CNCI_versionX.tar.gz

cd CNCI_package

unzip libsvm-X.zip

cd libsvm-X

make

cd ..

 

 





请到「今天看啥」查看全文