专栏名称: 实验老司机

关注老司机，实验不死机。实验老司机分享生命科学实验知识，通过短视频、在线讲座、直播演示帮助新手实验操作者完成从0到1的入门学习。

手把手教学｜一文讲清如何使用NCBI获得小鼠的基因、RNA、蛋白质序列信息

实验老司机 · 公众号 · · 2025-01-26 07:00

正文

在开展基因功能研究的初期阶段，对目标基因的基本信息进行审查是至关重要的。本篇文章将详细介绍如何通过NCBI数据库来研究特定基因。

NCBI，全称为美国国家生物技术信息中心（National Center for Biotechnology Information），是一个在全球范围内广受认可的生物技术信息数据库。该数据库提供了广泛的生物信息资源，涵盖了基因、RNA、蛋白质序列等多个领域。与专注于基因组检索的Ensembl数据库相比，NCBI的数据库内容更为广泛和综合。NCBI提供了多达36种不同的数据检索及分析工具，其中包括广为人知的PubMed文献数据库。在定位和研究目标序列的过程中，我们主要依赖的是NCBI的RefSeq数据库，即参考序列数据库。

这次我的演示会以最近偶然看到的一个基因 Spp1 为例，物种我们选择小鼠。

具体操作步骤如下：

1 . 1. 进入NCBI网站，搜索基因

打开NCBI主页，选择需要查询的数据库，选择”gene”,并在搜索框内输入查询内容，输入“SPP1”，点击search。

可以看到最明显的并不是小鼠的，但好在下面和右边都可以进行其他物种的筛选。我们就选下面这个点进去。

2.找到目标基因

打开后的界面是很长的，包含我们需要的基因序列和氨基酸序列。

这张图片里面显示了基因的ID，其他数据库的编号还有这个基因的其他叫法。

再往下展示了基因在染色体上的位置。

然后是基因的序列版本、转录本信息和SNP信息。

这个基因在不同组织的表达情况。

这个基因在PubMed中的相关文献以及研究了基因功能的文章。还有其他突变信息、互作信息、参与通路信息等等。

3.找到 “NCBI Reference Sequences (RefSeq)”

从.1 .2 .3等等可以看到这个基因有不同的转录本， mRNA一般是NM开头 ，非编码RNA一般以NR开头，还有一种XM开头是生物信息预测的转录本。 NP开头表示蛋白质，NC开头表示基因。

点击下面三个“ GenBank , FASTA , Sequence Viewer (Graphics) ”就可以查看基因的信息和序列了。

有时在更下方能找到一些由研究人员自己提交的序列信息。

4.选择转录本

根据我搜集到的资料，选择转录本有两种思路。

第一种认为一般每个基因的转录本1是研究最多的，可以从转录本编号后边的“.几”来判断该转录本更新的次数，更新的次数越多代表该转录本研究的越多。比如下面这个红框中的转录本。

第二种则是选择众多mRNA转录本中最长的转录本（longest isoform）。

以最长的转录本为例，继续搜索，页面会跳转到 核苷酸数据库 ，如下

可以看到这个基因来自小鼠的NM_001204201染色体，长度是1475bp。基因序列信息可以通过点击“FASTA”跳转页面获得。

如果你只想获得序列（例如去设计PCR引物的时候），就可以选择FASTA，没有其他数字和格式的干扰。

当然把界面往下拉，可以获得更多信息，比如多个外显子序列和CDS区序列，CDS区这里就能看到蛋白质序列。

可以看出编码区位于105-1040号核苷酸。

直接点击exon或者CDS能在下方高亮显示出来，右下角也给出了翻译的蛋白质的序列。

从核苷酸数据库看到的蛋白质序列和我们点击“NP”开头的序列跳转到蛋白质数据库的结果是一样的。

5. 只知道ID时搜索基因

有时，我们在阅读文献的时候没有发现基因的名称，只找到了这个基因在NCBI的ID号，这个时候我们直接在NCBI主页“All Databases”选项的下拉框中选择Nucleotide，search基因 ID号就可以了。

这里我选择一串ID 16151096，进行搜索。

同样能够获得想要的信息。

最后再额外跟大家说一种特殊情况，那就是在一段序列仅被GenBank收录，而未被RefSeq收录时，就没法用上文介绍的方法进行查找了。这种情况下，可以下载全基因组序列，然后找到参考基因组的编号，在完整基因组中搜索基因名即可。这部分我个人感觉还是非常少见的，就不进行演示了。

看到这里，使用NCBI数据库查找基因、mRNA、蛋白序列的方法就介绍完了。本次分享就到这里。

本文作者是"Algernon"同学，在获得授权后，实验老司机将本文发表于公众号。

文稿：Algernon

校对：煲仔饭

参考资料：

Bill R, Wirapati P, Messemaker M, et al. CXCL9:SPP1 macrophage polarity identifies a network of cellular programs that control human cancers. Science. 2023;381(6657):515-524. doi:10.1126/science.ade2292
https://ncbiinsights.ncbi.nlm.nih.gov/2023/03/16/homologene-datasets/

往期文章推荐