人可能会有许多名字,比如曾用名、小名、昵称、外号等等,举个栗子吧~김정은=Kim Jong-un=金正银=金正恩=金三胖=鑫胖。
基因也一样,基因ID就相当于人的名字,目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,所以一个会出现N个ID。但是基因的ID就没有人的名字看上去那么直观,它们只是冰冷的代号而已。举个p53的栗子,P53 =TP53= BCC7 =ENSG00000141510 =OTTHUMG00000162125。前三个还能接受,看到后面的两个是不是头大的不行?
一般来说,还是Official
Gene Symbol(比如TP53)的接受程度最高,看上去最为直观,但是不同的基因ID可能适用于不同的地方,所以今天本宫就给大家推荐两款Gene ID的转换工具(测试了十来款,选了这两款!)。
第一款是就是大名鼎鼎的DAVID (https://david.ncifcrf.gov/)。
DAVID我们之前介绍过它的GO和KEGG分析功能,这里介绍一下它的基因ID转换功能。
我们来测试一组比较高难度的数据
(相信你们是猜不出这是什么ID的~~)
可以在菜单栏直接打开基因ID转换工具
也可以直接输入Gene List,将Selected Identifier设置成Not Sure就能自动跳转基因ID转换工具
打开基因ID转换工具之后,选择输出的ID类型为Official
Gene Symbol
提交后我们可以看到转换结果,是Affymetrix的外显子芯片结果(咳咳,素质~~~),300个结果只能转换出192个。
选择Convert All之后我们看到还有37个可以转换成Entrez Gene ID
二次转换结果如下
两次转换之后,还是有大几十个基因漏掉了,不过这样的结果已经算不错了,毕竟芯片测序结果中也就只有197个基因有Official
Gene Symbol。
总的来说,DAVID的转换效率还是比较高的,不过当基因数量较大(超过2000)的时候,DAVID的运行速度可能会比较捉急,另外,DAVID数据库一般一年更新一次(上次更新是2016年10月),导致有些数据不是最新的。
接下来再推荐一款比较傻瓜的——
Absolute Gene ID Conversion Tools(http://bioinformatics.louisville.edu/abid/)
一般我们只需要用到红框所示的两个工具,第一个用于检测输入的基因ID类型(如果你已经知道基因ID类型,直接用第二个工具即可),第二个用于基因ID转化。
同样的还是用之前的数据
结果~~~就是没有结果。。。看来这个数据的段数可能太高了。。。
那我们换一组稍微简单点的
(呃~相信你们还是不能知道是些什么鬼)
先检测一下是什么数据类型,原来是illuminaProbesAlign~
然后选第二个工具,运行格式如下图所示。提交后点右边的Process Input。
点击Gene Symbol即可查看转换结果
结果如下图,点击保存按钮即可保存该表
这个工具可能不及DAVID全面,但绝大多数情况下还是够用的,并且更加快速和简便。
好了~今天就介绍到这里了,希望大家用了这两款神器之后,看到基因ID不再茫然不知所措!
长按二维码识别关注“小张聊科研”
关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集