在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。本期小编为大家带来的是NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。
NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。
NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的(如下图所示),将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。
NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:
表1 Taxnomoy数据库物种数目统计表
下载文件:
https://ftp.ncbi.nih.gov/pub/taxonomy 下载gi_taxid.nucl.dmp.gz(NT记录ID号与taxid对应关系),gi_taxid.prot.dmp.gz(NR记录ID号与taxid对应关系)和taxdump.tar.gz三个文件;
taxdump.tar.gz里包含两个重要文件,即names.dmp和nodes.dmp;
names.dmp
names.dmp文件共包含4列,以“|”分割,各列描述如下:
其中tax_id即为taxonomy的记录号,name_txt即对应tax_id号的物种名称。
nodes.dmp