在上期的微信推送中,小编为大家介绍了宏基因组基因预测的原理和操作。本期,将在预测得到的非冗余的基因序列基础上,为大家介绍物种注释和功能注释等分析
。
宏基因组物种注释主要有两种策略,即基于组装和基于reads mapping的方式,且两种方法的应用都很广泛。基于组装的物种注释能够用于发现新物种、挖掘新基因、获得基因的物种来源;而基于reads mapping方法能够避免组装错误,注释过程不依赖于组装和基因预测结果从而避免复杂环境的组装难度。基于序列比对的物种注释,就是将测序数据比对到参考基因组,具体操作步骤这里将不做介绍。
基于组装的物种注释步骤:
注:LCA方法的物种注释可以通过MEGAN软件实现,即基于NR数据库的比对结果,匹配到NCBI Taxonomy。MEGAN还能够接收其他多种格式的输入文件,包括SAM, SILVA, RDP, QIIME等。所以,MEGAN同样能够用于功能等注释,且基本步骤包括:去冗余后的 Unique Genes 与KEGG等数据库比对、MEGAN实现功能注释。
1)软件
2)输入文件
-
微生物NR数据库:下载NCBI NR数据库,下载地址为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz。根据acc号,提取细菌、古细菌序列,最终获得微生物NR文件micronr.fa。
-
去冗余后的基因序列文件NonRundant.gene.fasta, 见上期推送稿。
3)实现
A. NR库比对(如果做功能注释,则与功能数据库比对,如KEGG):
标准化NR数据库
:
diamond makedb --in micronr.fa -d nr
比对
:
diamond blastx -d nr -q NonRundant.gene.fasta -a matches
输出m8格式
:
diamond view -a matches.daa -o matches.m8
makedb 创建适合DIAMOND格式的参考数据库
Blastx 将核酸序列比对到蛋白质序列
View 将daa格式的文件转为m8格式
结果文件matches.m8,如图所示
共有12列,每一列代表: