自从中国有嘻哈大火之后,“你有FreeStyle吗?”成了许多人的口头禅,连玩个“农药”都要先要来段FreeStyle才能拿到蓝BUFF。
所谓FreeStyle就是嘻哈中的即兴说唱,问你有没有FreeStyle就是差不多问你没有实力,有实力就来Show一段,没实力就果断认怂。
在生物学领域中,有实力你同样也可以来一段FreeStyle。Gm3556(predicted gene 3556)这基因你见过没?没见过?!
那就跟我念,GM-3-5-5-6,测序新发现,我就是能干,科研小能手,说的就是我,之前没见过,那就跟我念!Yo! Check it out!
也不知你们看懂了没有,反正大致就是说,这基因是我测序新发现的,数据库里都搜不到,我就是辣么腻害。这时候你一定很烦:怎么能这么轻易的就让你装逼成功呢?数据库里就真的搜不到么?那么像Gm3556这样的基因名称数据库里到底有没有记录呢?Talk is cheap! Show you the data!
下面我们测评4个可以查询基因信息的网站,分别是
1、NCBI的基因数据库(https://www.ncbi.nlm.nih.gov/gene/)
2、EMBL-EBI的基因数据库Vega(http://vega.archive.ensembl.org/index.html/)
3、HGNC(http://www.genenames.org/)
4、GeneCards(http://www.genecards.org/)
5、Ensembl数据库(http://www.ensembl.org/)
测评的基因名称包括以下mRNA和lncRNA:NR_015407、ENST00000453878、XM_002343322、CTD-2336O2.1、RP11-21L23.3、XLOC_009783、Gm3088
NR_015407
NCBI数据库中显示基因信息的最初来源是HGNC,然而在HGNC中直接搜索NR_015407却并没有检索到,只能说HGNC的虽说提供了最权威和标准的人类基因命名,但是检索起来似乎并没有那么方便。
该基因在Vega数据库中有记录,然而在GeneCards中并没有记录
ENST00000453878
该基因在GeneCards、Ensembl和Vega中有记录
在NCBI的数据库中没有记录
虽然大家都纷纷表示,数据源于HCGC,但是HCGC中还是搜不到~
考虑到HGNC这位选手不给力,下面就不给他表演的机会了。
XM_002343322
这一轮Vega一枝独秀
CTD-2336O2.1
GeneCards和Ensembl有数据,但是Ensembl有一千多条结果,而相比而言GeneCards就匹配得比较精确些了。
Vega数据库没有记录,不论是用CTD-2336O2.1还是LOC101927752
而NCBI数据库中用CTD-2336O2.1检索没有结果,用LOC101927752还是能搜到的,这说明搜基因信息的时候用什么名称搜还是有点讲究的
RP11-21L23.3
同样的,GeneCards最为干净利落地显示了唯一一条条目
而Vega和Ensembl则匹配了更多的转录本信息,Ensembl中还能通过黄色标注中完全匹配的字段,Vega中就不太行了。
最弱的是NCBI的,完全匹配不到准确的条目
XLOC_009783
这个名称四个数据库都匹配不到,但是我知道有一个数据库可以匹配得到,文末再告诉你们。
GeneCards由于仅包括人类基因,所以下面测试别的物种的基因就不让它上场了。
Gm3088
前面在人类基因中NCBI基因数据库的表现都不太好,但是到了小鼠中,它一下子雄起了,Vega和Esembl中都没有,就它有~
小结:人类基因的话,还是首选GeneCards,然后是Vega、Ensembl,最后是NCBI;小鼠基因如果看到是GM开头就直接用NCBI试吧,可能Vega和Ensembl里也有,但NCBI的更全一些;文章中介绍了这么多数据库,最后还是有可能找不到这个基因的信息的,所以有的时候也没有必要太过耿直了。
上文提到的哪里可以查到XLOC_009783这种名称,答案是lncPedia(https://lncipedia.org/)
今晚8点,中科院专家聊CRISPR基因编辑,阅读全文
长按二维码识别关注“小张聊科研”
关注后获取《科研修炼手册》1、2、3、4、5,基金篇、生信特辑