专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
51好读  ›  专栏  ›  生信百科

CNCI:利用序列特征鉴定lncRNA

生信百科  · 公众号  · 医学  · 2017-07-16 10:00

正文

>70%的人基因组序列会转录产生RNAmRNA仅占小部分,大多数为lncRNA。由于lncRN的复杂性和多样性,鉴定或预测lncRNA充满挑战,尤其是对无参考基因组的物种。本文介绍一种不依赖参考基因组序列比对、简单好用的工具:CNCICodingNon-CodingIndex)。CNCI通过分析临近核酸三联体(adjoining nucleotide tripletsANT)的特征,来有效区分蛋白编码序列和非编码序列。CNCI在脊椎动物中的表现要由于非脊椎动物和植物。

 

CNCI工作流程

CNCI采用滑动窗口法(Sliding Window)对每一个待鉴定的RNA扫描6次,每次产生一个阅读框(ReandingFrame),用动态规划算法找出每个阅读框中的MLCDS(最像CDS的subsequence),并打分(S-score),从6个MLCDS中选取得分最高的,即Best MLCDS。通过支持向量机(SVM),根据编码序列和非编码序列的特征,来判断Best MLCDS属于哪一类。概括起来就是:最像CDS的subsequence都不是编码区,则整个RNA就是lncRNA。



CNCICPC/phyloCSF的比较

对于人的RNA序列,CNCI在不同长度上的准确性都优于CPCphyloCSF,特别是长RNA


CNCICPCphyloCSF的最小平均误差(minimumaverage errorMAE)分别为0.050.110.28CNCI的敏感性和特异性更胜一筹。



不同物种比较

12个不同物种比较发现,CNCI在脊椎动物中的表现最好,MAE<0.1。在非脊椎动物和植物中表现稍次,MAE分别为0.180.24 

 

CNCI的安装:

tar zxvf CNCI_versionX.tar.gz

cd CNCI_package

unzip libsvm-X.zip

cd libsvm-X

make

cd ..

 

 

CNCI的运行

python CNCI_package/CNCI.py  -f input.fasta  -o output  -m ve  -p 6

-f 需要鉴定的RNA序列(“>”开头的那一行不要有空格), -o 指定输出目录, -m 运行模式:脊椎动物选择ve,植物选择pl  -p 指定CPU核数, 还可以使用 –g 参数输入GTF文件,但是同时需要使用 –d参数指定参考基因组的目录。

注意:CNCI的运行目录一定要在CNCI所在目录。

 

Sun L, Luo H, Bu D, et al. Utilizingsequence intrinsic composition to classify protein-coding and long non-codingtranscripts. Nucleic Acids Research, 2013, 41(17):e166-e166.