专栏名称: 小张聊科研
聊聊跟科研有关的感想心得,如基金,文章和实验。
目录
相关文章推荐
实验万事屋  ·  我严重怀疑我博士生导师看不懂这25.5分的C ... ·  昨天  
研之成理  ·  中国科大路军岭/刘进勋/王恒伟团队,Natu ... ·  2 天前  
弗雷赛斯  ·  最高影响因子51.27,价格却只有市场价1/ ... ·  5 天前  
51好读  ›  专栏  ›  小张聊科研

这些基因ID我完全看不懂怎么办?

小张聊科研  · 公众号  · 科研  · 2017-06-16 12:39

正文

人可能会有许多名字,比如曾用名、小名、昵称、外号等等,举个栗子吧~김정은=Kim Jong-un=金正银=金正恩=金三胖=鑫胖

基因也一样,基因ID就相当于人的名字,目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,所以一个会出现N个ID。但是基因的ID就没有人的名字看上去那么直观,它们只是冰冷的代号而已。举个p53的栗子,P53 =TP53= BCC7 =ENSG00000141510 =OTTHUMG00000162125。前三个还能接受,看到后面的两个是不是头大的不行?

一般来说,还是Official Gene Symbol(比如TP53)的接受程度最高,看上去最为直观,但是不同的基因ID可能适用于不同的地方,所以今天本宫就给大家推荐两款Gene ID的转换工具(测试了十来款,选了这两款!)。


第一款是就是大名鼎鼎的DAVID (https://david.ncifcrf.gov/)。

DAVID我们之前介绍过它的GO和KEGG分析功能,这里介绍一下它的基因ID转换功能。


我们来测试一组比较高难度的数据

(相信你们是猜不出这是什么ID的~~)


可以在菜单栏直接打开基因ID转换工具

也可以直接输入Gene List,将Selected Identifier设置成Not Sure就能自动跳转基因ID转换工具

打开基因ID转换工具之后,选择输出的ID类型为Official Gene Symbol

提交后我们可以看到转换结果,是Affymetrix的外显子芯片结果(咳咳,素质~~~),300个结果只能转换出192个。

选择Convert All之后我们看到还有37个可以转换成Entrez Gene ID

二次转换结果如下


两次转换之后,还是有大几十个基因漏掉了,不过这样的结果已经算不错了,毕竟芯片测序结果中也就只有197个基因有Official Gene Symbol。


总的来说,DAVID的转换效率还是比较高的,不过当基因数量较大(超过2000)的时候,DAVID的运行速度可能会比较捉急,另外,DAVID数据库一般一年更新一次(上次更新是2016年10月),导致有些数据不是最新的。




机智的分割线





接下来再推荐一款比较傻瓜的——

Absolute Gene ID Conversion Tools(http://bioinformatics.louisville.edu/abid/)

一般我们只需要用到红框所示的两个工具,第一个用于检测输入的基因ID类型(如果你已经知道基因ID类型,直接用第二个工具即可),第二个用于基因ID转化

同样的还是用之前的数据


结果~~~就是没有结果。。。看来这个数据的段数可能太高了。。。

那我们换一组稍微简单点的

(呃~相信你们还是不能知道是些什么鬼)

先检测一下是什么数据类型,原来是illuminaProbesAlign~

然后选第二个工具,运行格式如下图所示。提交后点右边的Process Input。

点击Gene Symbol即可查看转换结果

结果如下图,点击保存按钮即可保存该表

这个工具可能不及DAVID全面,但绝大多数情况下还是够用的,并且更加快速和简便。


好了~今天就介绍到这里了,希望大家用了这两款神器之后,看到基因ID不再茫然不知所措!


长按二维码识别关注“小张聊科研”

关注后获取《科研修炼手册》1.0、2.0、3.0、4.0、基金篇精华合集