(1)
软件
MetaGeneMark(预测的范围是细菌和古菌),下载地址:
http://exon.gatech.edu/license_download.cgi。
CD-HIT去除冗余序列,下载地址:http://www.bioinformatics.org/cd-hit。
(
2
)输入文件
SOAPdenovo-63mer
对单个样本进行组装后,筛选出长度不小于
500bp
的
scaftigs
,得到结果文件
sample1.cut500.scafSeq
,
sample2.cut500.scafSeq
,
sample3.cut500.scafSeq
;
SOAPdenovo-63mer
对所有样本进行混合组装,筛选出长度不小于
500bp
的
scaftigs
,得到结果文件
mix.cut500.scafSeq
。文件格式如图所示,包括
scaffold
编号,长度及序列信息。
(3)
基因预测
基于单个样本的基因预测
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod
sample1.cut500.scafSeq -A sample1_protein.fasta -D sample1_nucleotide.fasta
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod
sample2.cut500.scafSeq -A sample2_protein.fasta -D sample2_nucleotide.fasta
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod
sample3.cut500.scafSeq -A sample3_protein.fasta -D sample3_nucleotide.fasta
基于混合组装的基因预测
gmhmmp -a -d -f G -m MetaGeneMark_v1.mod
mix.cut500.scafSeq -A mix_protein.fasta -D mix_nucleotide.fasta
参数说明:
-a
显示预测得到的基因的蛋白序列
-A
蛋白序列输出文件
-d
显示预测得到的基因的核酸序列
-D
核酸序列输出文件
-f
显示输出格式,
L=LST
,
G=GFF
-m
用于基因预测的模型文件,
MetaGeneMark
提供的
MetaGeneMark_v1.mod
适用于宏基因组预测
(4)
基因去冗余
A.
将上一步得到的所有核酸序列(
sample1_nucleotide.fasta
,
sample2_nucleotide.fasta
,
sample3_nucleotide.fasta
,
mix_nucleotide.fasta
)合并成一个核酸序列
total.gene.nucl.fasta;
将所有蛋白序列合并成一个
total.gene.prot.fasta
。
B.
蛋白质序列去冗余:
cd-hit
-c 0.9 -n 5 -M 1600 -d 0 -T 8 -i total.gene.prot.fasta -o NonRundant.gene.prot.fasta
参数说明:
-c 相似性阈值,默认值为0.9
-n word长度值,基于word filter方法使用不同word长度值产生的去冗余水平不同,例如长度为2的word得到相似性在50%以上的序列,长度为3的word得到相似性在66.7%以上的序列
-M 分配的内存
-d 聚类信息文件中序列名长度,0代表显示完整序列名。
-T 线程数
-i 输入文件,fasta格式