老板最近让小妹我做一个缺氧相关的课题,研究一下和缺氧有关的lncRNA,小妹我把293T细胞放在低氧环境中造成缺氧,加上正常的293T,分别抽提了RNA,找了一家公司做了下RNA-seq,然后他们就给了我一堆数据,就像这样子,
光是看倍数变化以及P值
,依然有好几百个啊。
万里挑一偶买噶,研究哪一个?
这种情况相信很多童鞋也遇到过,想再进一步缩小目标的话,最流行的方法莫过于
GO、KEGG功能分析
了,恰好小妹朋友里有一个女性朋友小A,她是
相亲狂魔,至少相过50多个了,每次不是因为各种不满意拒绝了,小妹
不知怎么一琢磨,发现这相亲过程和
GO、KEGG注释
有几分相似之处,给你开开脑洞。
首先还是来再了解一下GO、KEGG功能注释是什么鬼?怎么就和相亲扯上边了。
(一)给每个分子贴上标签,便于检索
相亲的时候,
小A比较感兴趣的是
他有几套房、几部车、父母是否健康、癖好、年收入等,而
职场上HR想要挖掘人才的时候,都会想了解那些信息呢?最基本就是他(她)的姓名、住哪里、什么专业、211 or 985、户口、婚姻状况、任职经历、业务能力等
,
研究的领域不一样,关心的分子属性也会不同。
同样的,这么多lncRNA不可能全部研究,只能万里挑一,结合你所擅长的领域或者方向去挑选几个lncRNA研究下去。
(1) GO给每个分子贴上标签,帮助我们快速寻找到目标分子
GO中最基本的概念是“标签(term)”。
GO是用一套统一的词汇表来描述生物学中的分子功能、生物过程和细胞成分。
其思想大概过程:对于一个基因产品(蛋白质或RNA),用某些词汇来描述它是干什么的或位于细胞哪里、或者参与了哪个生物过程,而这些词汇就是来自GO的“标签”。比如"cell", "fibroblast growth factor receptorbinding",或者"signal transduction"。
这些标签总共有可以分为三个类别:
-
细胞组分(CellularComponent, CC)
:一般用来描述基因作用的位置,比如说高尔基体,内质网这样的,就好比一个人的家庭住址一样;
-
生物学过程(biologicalprocess)
:描述的是细胞中不同活动现象,比如说蛋白质磷酸化,细胞粘附都是生物学过程,这就好比一个人是在投资银行还是在腾讯工作呢?
-
分子功能(MolecularFunction)
:可以描述为分子水平的活性,如催化或结合活性,描述的是分子具体的作用职能,就好比说你在投资银行干保洁工作呢还是高管啊;
最后就形成了诸如此类的描述:
①HOTAIR出没于胞核(CC),参与了组蛋白甲基化调控引发癌基因沉默(BP),具体是结合PRC2复合物以及LSD1(MF)。
②某相亲对象家住朝阳区、就职于某大型咨询公司,岗位是贺函或者老谭,外貌什么的其实已经不重要了。
(2)KEGG功能注释
其实和GO的作用是类似的,只是KEGG里面最知名的是代谢通路(pathway)的注释,它是查询差异基因参与的信号通路比较权威的数据库,KEGG Pathway对差异基因进行pathway分析,可以了解实验条件下显著改变的代谢通路,在机制研究中非常重要。
GO分析好比是将基因分门别类放入一个个功能类群的篮子,而pathway则是将基因一个个具体放到代谢网络中的指定位置。
(二)DAVID、PANTHER是常用的分析工具
GO、KEGG只是数据库并不能直接作出文章中那么好看的炫酷图,可以通过DAVID或者PANTHER分析后,在excel里面来实现。
DAVID:
https://david.ncifcrf.gov
(使用方法见
《基因功能通路和GO分析,你用什么软件做?》
)
PANTHER:
http://www.pantherdb.org/
--------分割线--------
最后,利用GO、KEGG注释原理,小A相亲成功了,她看上了一个学医的。