专栏名称: 生信圈
关注生物医学大数据、以及数据分析方法在转化医学研究中的应用进展,讨论与生物信息相关的一切话题。
51好读  ›  专栏  ›  生信圈

宏基因组分析——对比和注释篇

生信圈  · 公众号  ·  · 2017-12-05 21:00

正文

本章导读

在上期的微信推送中,小编为大家介绍了宏基因组基因预测的原理和操作。本期,将在预测得到的非冗余的基因序列基础上,为大家介绍物种注释和功能注释等分析

原理

宏基因组物种注释主要有两种策略,即基于组装和基于reads mapping的方式,且两种方法的应用都很广泛。基于组装的物种注释能够用于发现新物种、挖掘新基因、获得基因的物种来源;而基于reads mapping方法能够避免组装错误,注释过程不依赖于组装和基因预测结果从而避免复杂环境的组装难度。基于序列比对的物种注释,就是将测序数据比对到参考基因组,具体操作步骤这里将不做介绍。

基于组装的物种注释步骤:


注:LCA方法的物种注释可以通过MEGAN软件实现,即基于NR数据库的比对结果,匹配到NCBI Taxonomy。MEGAN还能够接收其他多种格式的输入文件,包括SAM, SILVA, RDP, QIIME等。所以,MEGAN同样能够用于功能等注释,且基本步骤包括:去冗余后的 Unique Genes 与KEGG等数据库比对、MEGAN实现功能注释。


操作

1)软件

  • 比对工具DIAMOND(http://ab.inf.uni-tuebingen.de/software/diamond/)比对速度比blast快,且持续更新。

  • 物种注释工具MEGAN(http://ab.inf.uni-tuebingen.de/data/software/megan6/download/welcome.html),基于LCA算法,能够进行物种注释和功能注释,可视化分析等。

2)输入文件

  • 微生物NR数据库:下载NCBI NR数据库,下载地址为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz。根据acc号,提取细菌、古细菌序列,最终获得微生物NR文件micronr.fa。

  • 去冗余后的基因序列文件NonRundant.gene.fasta, 见上期推送稿。

3)实现

A. NR库比对(如果做功能注释,则与功能数据库比对,如KEGG):

标准化NR数据库

 diamond makedb --in micronr.fa -d nr

比对

 diamond blastx -d nr -q NonRundant.gene.fasta -a matches

输出m8格式

 diamond view -a matches.daa -o matches.m8

参数说明

makedb 创建适合DIAMOND格式的参考数据库

Blastx   将核酸序列比对到蛋白质序列

View    将daa格式的文件转为m8格式

结果文件matches.m8,如图所示


共有12列,每一列代表:








请到「今天看啥」查看全文