专栏名称: 实验老司机
关注老司机,实验不死机。实验老司机分享生命科学实验知识,通过短视频、在线讲座、直播演示帮助新手实验操作者完成从0到1的入门学习。
51好读  ›  专栏  ›  实验老司机

手把手教学|一文讲清如何使用NCBI获得小鼠的基因、RNA、蛋白质序列信息

实验老司机  · 公众号  ·  · 2025-01-26 07:00

正文


在开展基因功能研究的初期阶段,对目标基因的基本信息进行审查是至关重要的。本篇文章将详细介绍如何通过NCBI数据库来研究特定基因。

NCBI,全称为美国国家生物技术信息中心(National Center for Biotechnology Information),是一个在全球范围内广受认可的生物技术信息数据库。该数据库提供了广泛的生物信息资源,涵盖了基因、RNA、蛋白质序列等多个领域。与专注于基因组检索的Ensembl数据库相比,NCBI的数据库内容更为广泛和综合。NCBI提供了多达36种不同的数据检索及分析工具,其中包括广为人知的PubMed文献数据库。在定位和研究目标序列的过程中,我们主要依赖的是NCBI的RefSeq数据库,即参考序列数据库。

这次我的演示会以最近偶然看到的一个基因 Spp1 为例,物种我们选择 小鼠


具体操作步骤如下:

1 . 1. 进入NCBI网站,搜索基因

打开NCBI主页,选择需要查询的数据库,选择”gene”,并在搜索框内输入查询内容,输入“SPP1”,点击search。

可以看到最明显的并不是小鼠的,但好在下面和右边都可以进行其他物种的筛选。我们就选下面这个点进去。


2.找到目标基因

打开后的界面是很长的,包含我们需要的基因序列和氨基酸序列。

这张图片里面显示了基因的ID,其他数据库的编号还有这个基因的其他叫法。

再往下展示了基因在染色体上的位置。

然后是基因的序列版本、转录本信息和SNP信息。

这个基因在不同组织的表达情况。

这个基因在PubMed中的相关文献以及研究了基因功能的文章。 还有其他突变信息、互作信息、参与通路信息等等。

3.找到 “NCBI Reference Sequences (RefSeq)”

从.1 .2 .3等等可以看到这个基因有不同的转录本, mRNA一般是NM开头 ,非编码RNA一般以NR开头,还有一种XM开头是生物信息预测的转录本。 NP开头表示蛋白质,NC开头表示基因。

点击下面三个“ GenBank , FASTA , Sequence Viewer (Graphics) ”就可以查看基因的信息和序列了。

有时在更下方能找到一些由研究人员自己提交的序列信息。


4.选择转录本

根据我搜集到的资料,选择转录本有两种思路。

第一种认为一般每个基因的转录本1是研究最多的,可以从转录本编号后边的“.几”来判断该转录本更新的次数,更新的次数越多代表该转录本研究的越多。比如下面这个红框中的转录本。

第二种则是选择众多mRNA转录本中最长的转录本(longest isoform)。

以最长的转录本为例,继续搜索,页面会跳转到 核苷酸数据库 ,如下

可以看到这个基因来自小鼠的NM_001204201染色体,长度是1475bp。基因序列信息可以通过点击“FASTA”跳转页面获得。

如果你只想获得序列(例如去设计PCR引物的时候),就可以选择FASTA,没有其他数字和格式的干扰。

当然把界面往下拉,可以获得更多信息,比如多个外显子序列和CDS区序列,CDS区这里就能看到蛋白质序列。

可以看出编码区位于105-1040号核苷酸。

直接点击exon或者CDS能在下方高亮显示出来,右下角也给出了翻译的蛋白质的序列。

从核苷酸数据库看到的蛋白质序列和我们点击“NP”开头的序列跳转到蛋白质数据库的结果是一样的。


5. 只知道ID时搜索基因

有时,我们在阅读文献的时候没有发现基因的名称,只找到了这个基因在NCBI的ID号,这个时候我们直接在NCBI主页“All Databases”选项的下拉框中选择Nucleotide,search基因 ID号就可以了。

这里我选择一串ID 16151096,进行搜索。

同样能够获得想要的信息。

最后再额外跟大家说一种特殊情况,那就是在一段序列仅被GenBank收录,而未被RefSeq收录时,就没法用上文介绍的方法进行查找了。这种情况下,可以下载全基因组序列,然后找到参考基因组的编号,在完整基因组中搜索基因名即可。这部分我个人感觉还是非常少见的,就不进行演示了。


看到这里,使用NCBI数据库查找基因、mRNA、蛋白序列的方法就介绍完了。本次分享就到这里。







本文作者是"Algernon"同学,在获得授权后,实验老司机将本文发表于公众号。

文稿:Algernon

校对:煲仔饭

参考资料:

  • Bill R, Wirapati P, Messemaker M, et al. CXCL9:SPP1 macrophage polarity identifies a network of cellular programs that control human cancers. Science. 2023;381(6657):515-524. doi:10.1126/science.ade2292

  • https://ncbiinsights.ncbi.nlm.nih.gov/2023/03/16/homologene-datasets/




往期文章推荐






请到「今天看啥」查看全文