专栏名称: 生信圈
关注生物医学大数据、以及数据分析方法在转化医学研究中的应用进展,讨论与生物信息相关的一切话题。
目录
相关文章推荐
山西广播电视台  ·  不满物业?电话来了→ ·  2 天前  
山西广播电视台  ·  不满物业?电话来了→ ·  2 天前  
山西省生态环境厅  ·  我们获奖啦! ·  3 天前  
山西省生态环境厅  ·  我们获奖啦! ·  3 天前  
山西省生态环境厅  ·  山西:生物多样性家谱不断丰富 ·  3 天前  
51好读  ›  专栏  ›  生信圈

速来围观!——三种NCBI常见数据库

生信圈  · 公众号  ·  · 2017-12-29 21:00

正文

在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。本期小编为大家带来的是NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。



NR/NT 数据库




NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。

NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的(如下图所示),将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。



Taxonomy 数据库



NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:

表1 Taxnomoy数据库物种数目统计表

下载文件:

https://ftp.ncbi.nih.gov/pub/taxonomy  下载gi_taxid.nucl.dmp.gz(NT记录ID号与taxid对应关系),gi_taxid.prot.dmp.gz(NR记录ID号与taxid对应关系)和taxdump.tar.gz三个文件;

taxdump.tar.gz里包含两个重要文件,即names.dmp和nodes.dmp;

names.dmp

names.dmp文件共包含4列,以“|”分割,各列描述如下:

其中tax_id即为taxonomy的记录号,name_txt即对应tax_id号的物种名称。

nodes.dmp







请到「今天看啥」查看全文


推荐文章
山西广播电视台  ·  不满物业?电话来了→
2 天前
山西广播电视台  ·  不满物业?电话来了→
2 天前
山西省生态环境厅  ·  我们获奖啦!
3 天前
山西省生态环境厅  ·  我们获奖啦!
3 天前
山西省生态环境厅  ·  山西:生物多样性家谱不断丰富
3 天前