专栏名称: 生信圈

关注生物医学大数据、以及数据分析方法在转化医学研究中的应用进展，讨论与生物信息相关的一切话题。

宏基因组分析——对比和注释篇

生信圈 · 公众号 · · 2017-12-05 21:00

正文

本章导读

在上期的微信推送中，小编为大家介绍了宏基因组基因预测的原理和操作。本期，将在预测得到的非冗余的基因序列基础上，为大家介绍物种注释和功能注释等分析。

壹

原理

宏基因组物种注释主要有两种策略，即基于组装和基于reads mapping的方式，且两种方法的应用都很广泛。基于组装的物种注释能够用于发现新物种、挖掘新基因、获得基因的物种来源；而基于reads mapping方法能够避免组装错误，注释过程不依赖于组装和基因预测结果从而避免复杂环境的组装难度。基于序列比对的物种注释，就是将测序数据比对到参考基因组，具体操作步骤这里将不做介绍。

fanfan_117/2017-12-04-16-55-55-8765.png

基于组装的物种注释步骤：

fanfan_117/2017-12-04-16-56-32-8124.png

注：LCA方法的物种注释可以通过MEGAN软件实现，即基于NR数据库的比对结果，匹配到NCBI Taxonomy。MEGAN还能够接收其他多种格式的输入文件，包括SAM, SILVA, RDP, QIIME等。所以，MEGAN同样能够用于功能等注释，且基本步骤包括：去冗余后的 Unique Genes 与KEGG等数据库比对、MEGAN实现功能注释。

贰

操作

1）软件

比对工具DIAMOND（http://ab.inf.uni-tuebingen.de/software/diamond/）比对速度比blast快，且持续更新。
物种注释工具MEGAN（http://ab.inf.uni-tuebingen.de/data/software/megan6/download/welcome.html），基于LCA算法，能够进行物种注释和功能注释，可视化分析等。

2）输入文件

微生物NR数据库：下载NCBI NR数据库，下载地址为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz。根据acc号，提取细菌、古细菌序列，最终获得微生物NR文件micronr.fa。
去冗余后的基因序列文件NonRundant.gene.fasta, 见上期推送稿。

3）实现

A. NR库比对(如果做功能注释，则与功能数据库比对，如KEGG)：

标准化NR数据库 ：

 diamond makedb --in micronr.fa -d nr

比对：

 diamond blastx -d nr -q NonRundant.gene.fasta -a matches

输出m8格式 ：

 diamond view -a matches.daa -o matches.m8

参数说明 ：

makedb 创建适合DIAMOND格式的参考数据库

Blastx 将核酸序列比对到蛋白质序列

View 将daa格式的文件转为m8格式

结果文件matches.m8，如图所示

共有12列，每一列代表：

fanfan_117/2017-12-04-16-58-33-6108.png

请到「今天看啥」查看全文

推荐文章

军武次位面 · 在新能源领域，有这样的中国科研新生代

昨天

台海一线 · 美国州长窜台施压，跟着赖清德要掉脑袋，岛内聪明人已经弃暗投明！

2 天前

军武次位面 · 每日囧图｜台湾立法委说：未来打麻将讲五筒，会被军法处置

4 天前

军武次位面 · 这位射箭百发百中的文状元，文胜苏轼，武胜大辽将军，却默默无名

3 天前

杭州网 · 一科研人员设计“谍战剧本”，投敌叛国，向境外间谍机构出卖大量国家秘密，被判死刑！国安部披露细节

2 天前

年糕妈妈 · 高大上 | “爸爸去哪儿”和“爸爸回来了”，都在用同一款餐椅

8 年前

中国税务报 · 【本报专稿】不动产纳税抵押难实现？税务局这个尝试提供了新思路

7 年前

科创通 · 关注丨成都高新区发布电子信息产业专项政策设500亿元产业基金打造7000亿IT集群

7 年前

金融霸主 · 惊天内幕！美国控制世界，谁操纵美国？万万没想到！

7 年前

环球物理 · 【科学指南】原来这才叫休息！科学家揭示真正的“假期休息模式”

7 年前