专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

从Uniprot获取对应的拟南芥基因ID

生信媛  · 公众号  · 生物  · 2020-01-02 15:34

主要观点总结

文章主要描述了在知道蛋白质ID号的情况下,如何通过Uniport网站和其他资源找到对应的基因ID。重点介绍了在R操作中如何利用Uniport提供的ID mapping文件,针对拟南芥的基因组ID进行转换。

关键观点总结

关键观点1: 蛋白质ID与基因ID的转换需求。

文章开头提到需要知道蛋白质ID对应的基因是什么,例如O49397这个蛋白质ID。

关键观点2: Uniport网站ID转换服务的问题。

作者尝试使用Uniport网站的ID转换服务,但遇到了两个问题:一是需要转换的蛋白质ID较多,不便手动复制粘贴;二是网站不提供转换成Araport的服务。

关键观点3: 寻找其他转换方法的过程和结果。

作者通过搜索找到了Uniport提供的ID mapping文件下载地址,并成功下载完整的文件。导入到R语言后,通过筛选得到了所需的Araport对应的基因ID。

关键观点4: 具体如何在R中实现转换操作。

介绍了使用read.table函数读取ID mapping文件,然后使用subset函数筛选得到Araport对应的基因ID。最后展示了转换结果的格式。


正文

请到「今天看啥」查看全文


最近有个需求,就是给定一个蛋白质的ID号,就知道它是什么基因。 比如说 O49397 但有个问题是,我并不知道这是个什么东西,于是我就去搜了下。

发现这其实是Uniport网站的蛋白质ID。

然后发现网站还提供了ID转换的服务(https://www.uniprot.org/uploadlists/),但发现了几个问题

一个问题是我的蛋白质ID有很多且来自于R操作中的中间步骤,所以不想复制粘贴到那个框里面,其次是To那里实际上不提供转换成Araport的服务(植物没人权╮(╯_╰)╭)。所以不得不去寻找其他方法。

我想到Uniport应该是提供了ID mapping的文件下载的,就去搜索了下,果然找到了。

3702其实就是拟南芥的基因组ID。下载地址(ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/by_organism/)

这里可以选select也可以选没有完整的。我这里选了完整的。下完了之后就可以导入到R里面进行操作了。

  1. # 因为我们只想转Araport对应的基因ID,所以只要选择Araport那里就行

  2. uniport_map read.table("~/reference/annoation/Athaliana/uniport/ARATH_3702_idmapping.dat",

  3. header = F,

  4. fill = T,

  5. stringsAsFactors = F)

  6. uniport_map subset(uniport_map,V2 == "Araport")


  7. # 出来的格式就是

  8. > head(uniport_map)

  9. V1 V2 V3

  10. 50 P48347 Araport AT1G22300

  11. 106 Q9S9Z8 Araport AT1G34760

  12. 149 Q9C5W6 Araport AT1G26480

  13. 205 P42643 Araport AT4G09000

  14. 256 Q01525 Araport AT1G78300

  15. 324 P42644 Araport AT5G38480

这样我们就可以根据蛋白ID批量提取拟南芥基因ID了。








请到「今天看啥」查看全文