>70%的人基因组序列会转录产生RNA,mRNA仅占小部分,大多数为lncRNA。由于lncRN的复杂性和多样性,鉴定或预测lncRNA充满挑战,尤其是对无参考基因组的物种。本文介绍一种不依赖参考基因组序列比对、简单好用的工具:CNCI(CodingNon-CodingIndex)。CNCI通过分析临近核酸三联体(adjoining nucleotide triplets,ANT)的特征,来有效区分蛋白编码序列和非编码序列。CNCI在脊椎动物中的表现要由于非脊椎动物和植物。
CNCI工作流程
CNCI采用滑动窗口法(Sliding Window)对每一个待鉴定的RNA扫描6次,每次产生一个阅读框(ReandingFrame),用动态规划算法找出每个阅读框中的MLCDS(最像CDS的subsequence),并打分(S-score),从6个MLCDS中选取得分最高的,即Best MLCDS。通过支持向量机(SVM),根据编码序列和非编码序列的特征,来判断Best MLCDS属于哪一类。概括起来就是:最像CDS的subsequence都不是编码区,则整个RNA就是lncRNA。
CNCI与CPC/phyloCSF的比较
对于人的RNA序列,CNCI在不同长度上的准确性都优于CPC和phyloCSF,特别是长RNA。
CNCI、CPC、phyloCSF的最小平均误差(minimumaverage error,MAE)分别为0.05、0.11、0.28,CNCI的敏感性和特异性更胜一筹。
不同物种比较
12个不同物种比较发现,CNCI在脊椎动物中的表现最好,MAE<0.1。在非脊椎动物和植物中表现稍次,MAE分别为0.18和0.24。
CNCI的安装:
tar zxvf CNCI_versionX.tar.gz
cd CNCI_package
unzip libsvm-X.zip
cd libsvm-X
make
cd ..
CNCI的运行
python CNCI_package/CNCI.py -f input.fasta -o output -m ve -p 6
-f 需要鉴定的RNA序列(“>”开头的那一行不要有空格), -o 指定输出目录, -m 运行模式:脊椎动物选择ve,植物选择pl, -p 指定CPU核数, 还可以使用 –g 参数输入GTF文件,但是同时需要使用 –d参数指定参考基因组的目录。
注意:CNCI的运行目录一定要在CNCI所在目录。
Sun L, Luo H, Bu D, et al. Utilizingsequence intrinsic composition to classify protein-coding and long non-codingtranscripts. Nucleic Acids Research, 2013, 41(17):e166-e166.