在开展基因功能研究的初期阶段,对目标基因的基本信息进行审查是至关重要的。本篇文章将详细介绍如何通过NCBI数据库来研究特定基因。
NCBI,全称为美国国家生物技术信息中心(National Center for Biotechnology Information),是一个在全球范围内广受认可的生物技术信息数据库。该数据库提供了广泛的生物信息资源,涵盖了基因、RNA、蛋白质序列等多个领域。与专注于基因组检索的Ensembl数据库相比,NCBI的数据库内容更为广泛和综合。NCBI提供了多达36种不同的数据检索及分析工具,其中包括广为人知的PubMed文献数据库。在定位和研究目标序列的过程中,我们主要依赖的是NCBI的RefSeq数据库,即参考序列数据库。
这次我的演示会以最近偶然看到的一个基因
Spp1
为例,物种我们选择
小鼠
。
具体操作步骤如下:
1
. 1.
进入NCBI网站,搜索基因
打开NCBI主页,选择需要查询的数据库,选择”gene”,并在搜索框内输入查询内容,输入“SPP1”,点击search。
可以看到最明显的并不是小鼠的,但好在下面和右边都可以进行其他物种的筛选。我们就选下面这个点进去。
2.找到目标基因
打开后的界面是很长的,包含我们需要的基因序列和氨基酸序列。
这张图片里面显示了基因的ID,其他数据库的编号还有这个基因的其他叫法。
再往下展示了基因在染色体上的位置。
然后是基因的序列版本、转录本信息和SNP信息。
这个基因在不同组织的表达情况。
这个基因在PubMed中的相关文献以及研究了基因功能的文章。
还有其他突变信息、互作信息、参与通路信息等等。
3.找到
“NCBI Reference Sequences (RefSeq)”
从.1 .2 .3等等可以看到这个基因有不同的转录本,
mRNA一般是NM开头
,非编码RNA一般以NR开头,还有一种XM开头是生物信息预测的转录本。
NP开头表示蛋白质,NC开头表示基因。
点击下面三个“
GenBank
,
FASTA
,
Sequence Viewer (Graphics)
”就可以查看基因的信息和序列了。
有时在更下方能找到一些由研究人员自己提交的序列信息。
4.选择转录本
根据我搜集到的资料,选择转录本有两种思路。
第一种认为一般每个基因的转录本1是研究最多的,可以从转录本编号后边的“.几”来判断该转录本更新的次数,更新的次数越多代表该转录本研究的越多。比如下面这个红框中的转录本。
第二种则是选择众多mRNA转录本中最长的转录本(longest isoform)。
以最长的转录本为例,继续搜索,页面会跳转到
核苷酸数据库
,如下
可以看到这个基因来自小鼠的NM_001204201染色体,长度是1475bp。基因序列信息可以通过点击“FASTA”跳转页面获得。
如果你只想获得序列(例如去设计PCR引物的时候),就可以选择FASTA,没有其他数字和格式的干扰。
当然把界面往下拉,可以获得更多信息,比如多个外显子序列和CDS区序列,CDS区这里就能看到蛋白质序列。
可以看出编码区位于105-1040号核苷酸。
直接点击exon或者CDS能在下方高亮显示出来,右下角也给出了翻译的蛋白质的序列。
从核苷酸数据库看到的蛋白质序列和我们点击“NP”开头的序列跳转到蛋白质数据库的结果是一样的。
5.
只知道ID时搜索基因
有时,我们在阅读文献的时候没有发现基因的名称,只找到了这个基因在NCBI的ID号,这个时候我们直接在NCBI主页“All Databases”选项的下拉框中选择Nucleotide,search基因 ID号就可以了。
这里我选择一串ID 16151096,进行搜索。
同样能够获得想要的信息。
最后再额外跟大家说一种特殊情况,那就是在一段序列仅被GenBank收录,而未被RefSeq收录时,就没法用上文介绍的方法进行查找了。这种情况下,可以下载全基因组序列,然后找到参考基因组的编号,在完整基因组中搜索基因名即可。这部分我个人感觉还是非常少见的,就不进行演示了。
看到这里,使用NCBI数据库查找基因、mRNA、蛋白序列的方法就介绍完了。本次分享就到这里。
本文作者是"Algernon"同学,在获得授权后,实验老司机将本文发表于公众号。
文稿:Algernon
校对:煲仔饭
参考资料:
-
Bill R, Wirapati P, Messemaker M, et al. CXCL9:SPP1 macrophage polarity identifies a network of cellular programs that control human cancers. Science. 2023;381(6657):515-524. doi:10.1126/science.ade2292
-
https://ncbiinsights.ncbi.nlm.nih.gov/2023/03/16/homologene-datasets/