专栏名称: 科研猫
小平台,大功能。本公众号旨在传播生物医学科研技能和生物信息学基础知识及应用技巧,助您在大数据时代精准挖掘科研数据,让您轻轻松松学知识,顺顺利利发文章。
目录
相关文章推荐
反垄断前沿  ·  节后机票低至一折,机票售价不得低于200元? ... ·  16 小时前  
反垄断前沿  ·  节后机票低至一折,机票售价不得低于200元? ... ·  16 小时前  
滴滴代驾服务订阅平台  ·  限时开启|滴滴代驾司服合作伙伴招募 ·  昨天  
惠济发布  ·  玩转元宵节,郑州交警送上观灯指南→ ·  昨天  
惠济发布  ·  玩转元宵节,郑州交警送上观灯指南→ ·  昨天  
51好读  ›  专栏  ›  科研猫

【基因ID转换】工具大测评,给你最好的选择

科研猫  · 公众号  ·  · 2020-10-20 07:08

正文

戳上面的蓝字关注我们哦!


好久不写推文,小猎豹再次回归! 今天,我们来讲一个大家在科研过程中都会遇到的一个问题。


不管是基础实验还是数据分析中,我们经常会遇到这样一个问题。别人告诉你一个基因的名字或者编号,又或者你从文献当中看到一个基因的编号,你想要进一步了解这些基因的染色体定位、功能、编码的蛋白等等信息,于是乎你就去各式各样的数据库里面进行查询。


比如,最简单的,就说是最直接的基因名字(gene symbol)吧,我们已TP53基因为例,当你拿到这个基因的名字时,你想要去不同数据库里面检索TP53的信息,你一定会发现,在不同数据库中,存在着多个TP53。比如在NCBI的entrez数据库,他的编号ID就是7157,然后在著名的ENSEMBL数据库中,他的编号又变了,变成了ENSG00000141510;而在最知名的蛋白数据库Uniprot中,他的编号又变成了K7PPA8,虽然同是一个人,但名字总是变来变去,也是够烦了;烦也就算了,关键是很多时候,我们不知道他的另外一个名字!


总而言之,目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,转换起来实在是一个很大的工作,给我们的研究工作带来巨大的困扰,遇到这样的问题,我们该怎么办?如果是你遇到这样的问题,你平时又是怎么操作的呢?


在这里,我们给大家介绍几个好用的基因ID转换工具:

BioDBnet

网址:

https://biodbnet-abcc.ncifcrf.gov/db/db2db.php



我们以单个基因TP53为例,进行了测试。测试结果:网站打开速度中等,支持的ID种类较多,支持多物种,多ID类型同时转换,运行速度较慢。结果页面如下:



可以看出,结果页面的可读性一般,没有比较好的表格输出。


Retrieve/ID mapping(Uniprot)


网址:

https://www.uniprot.org/uploadlists/


由知名蛋白数据库Uniprot官方出品,页面如下:



首先,页面给人的感觉比上一个要好得多,美观,加分!其次,页面打开速度较慢,可能是跟国内的网速有关,等了1分钟,浏览器一直在转圈圈,options选项这里,长时间无法显示,焦急等待数分钟才显示出来,差点放弃。毕竟时间就是生命。在options选项中,可用的选项很多,大致数了一下,不低于50种(见下图),毕竟是大数据库,数据质量和规模上还是很让人放心的。



DAVID

The Database for Annotation, Visualization and Integrated Discover

网址:

http://david.abcc.ncifcrf.gov/conversion.jsp




挺强大的一个工具,之前教大家做功能富集分析的时候推荐的网站,不过可能就是速度非常慢,而且经常打不开,个人认为是国内的网络连接问题。页面整体上给人的感觉介于第一个工具和第二个工具之间,比较平庸,没有眼前一亮,但是也还能用的感觉。使用方法很简单,三步走:1.输入基因名称;2.选择输入的名称类型;3.点击提交即可。整体来说,如果满分5分,DAVID只能打2.5分。因为它还有一个最大的缺点,那就是数据不能及时更新。据我所知,DAVID数据库的数据已经多年没有更新了,要知道,几乎每天各大数据库都在更新,诸如Genbank, Ensembl, UCSC, Uniprot等,更不要说几年了,一年都要变一个样儿!所以,DAVID输出的结果很多时候是不准确,且不可信的。


Biomart


网址:

http://asia.ensembl.org/info/data/biomart/index.html


也是大厂出品,Ensembl数据库官方推出。这是一个绝对不错的工具,定期发布新版本,而且可以将数据下载到本地进行操作,非常值得推荐。而且,由于Ensembl 在全世界各地都有镜像站,访问起来的速度稍微要快上那么一些。



使用方法也比较简单,首先是在左边栏(标注1)的地方选择你想要的ID,右边(2)中就会进行展示,不过用户体验上来说,这种操作方式不如前面几个好。不过好的一点是,Biomart对程序员的支持是非常不错的,通过编程的方式,我们可以选择R包、Perl语言的API或者RESTful接口进行调用,非常方便进行批量操作。




Hyperlink Management System (HMS)


网址:

http://biodb.jp/



这是一个神奇的网站,各个物种,各个数据库都糅杂在一起了,可以进行全库的搜索。不过界面上给人比较杂乱的感觉,对于一个只想赶紧把基因名称进行转换的人儿来说,不够直接,不够简洁。


BridgeDB


网址:

http://www.bridgedb.org/


结果不理想,测评进行不顺利,网站直接没打开,所以这里就暂且不讲了。如果需要进一步了解的,可以参考发表的文献:

http://www.biomedcentral.com/1471-2105/11/5



小结


以上的这些工具中,各有优缺,有的页面设计比较丑,有的网页反应慢,有的数据库万年不更新。如果说非要排个序,那就推荐第1和第2个工具吧,毕竟还是可以用的。








请到「今天看啥」查看全文