专栏名称: 小张聊科研
聊聊跟科研有关的感想心得,如基金,文章和实验。
目录
相关文章推荐
研之成理  ·  苏州大学,Nature Materials! ·  昨天  
小张聊科研  ·  小张聊科研祝大家 韶华长在,岁岁年年 ·  昨天  
51好读  ›  专栏  ›  小张聊科研

GSEA富集到某条通路,就能说A基因激活/抑制这条通路吗?

小张聊科研  · 公众号  · 科研  · 2025-01-26 21:00

正文

在研究和项目中,GSEA是很常见的一个图,一般长这样:

我想做基础研究的同学或多或少都见过吧,GSEA最早主要分析这样的基因集或者通路:当某个基因集里面的基因大部分变化都比较小,比如大部分倍数为1.11.2倍,由于变化倍数小于一般我们筛选差异基因的标准(倍数的绝对值>2P值、P.adj<0.05),所以这些这些基因就不能被一般的标准筛选出来但是呢,一条通路里面的这么多基因都发生改变,你总不能说这个通路不重要吧。

所以我们看到上面的图中曲线是富集在左上角的,说明左侧分组(比如疾病vs对照中左侧是疾病,右侧是对照;或者左侧是A基因高表达,右侧是A基因低表达)中细胞周期的基因集活性是高的

那这样基因集有意义吗?当然是有的,可能大家看组学的数据不多,其实在很多疾病(特别是炎症、损伤等特征比较强的疾病)的组学数据中,升高倍数最明显的基因一般都是与免疫应答、细胞因子等有关的基因,反倒是很多人关注的调控基因(比如转录因子)升高倍数并不高(说个背景知识:转录因子活化的方式比较多样,并不一定需要高表达才体现出来,比如蛋白磷酸化这种常见的翻译后修饰、蛋白的入核障碍和异常核滞留等);另外一个问题是在某些方向(比如神经生物学领域),mRNA的表达变化并不会呈现出很高的变化,这是很早之前GSEA开发者提到的一个痛点

当然,现在大家做GSEA分析的应用场景一般有几个:

1. 当把某个基因A沉默或者过表达后做RNA-Seq,通过GSEA判断A基因沉默后对通路的影响,所以当看到左侧A基因过表达组(或者对照组)通路活性升高时,一般可以推测A基因高表达的时候通路活化,反之A低表达的时候通路被抑制药物处理或者干预的逻辑也是这样;

2. 用公共数据分析A基因与通路的关系大致分析思路是根据A的表达量把样本分为A highA low两组,然后比较high vs low两组的通路活性,这样也能得到上面的这个图,一般情况下A基因高在左侧,A基因低在右侧,借此说明A基因高与通路活性有关。

好,关键的地方来了。

1这种情况下,我们对A(或者药物)进行了沉默或者过表达(干预),通过观察下游通路的变化确定A或者药物对通路的影响,是存在因果关系的:就像往池塘里面扔了一块石头,通过波纹的变化推测石头的大小等信息;但是在2的情况下,我们并没有对A进行干预,只是分析A的高低(甚至不是表达量)两组下通路的活化情况,所以最多只能说A与通路活性相关,并不能说A调控这条通路(主要区别是相关性vs因果关系),所以理论上存在A调控通路、通路调控A、以及A与通路只是偶然相关这几种可能性。

之所以说这个问题,是因为有不少文章里面直接基于2这个情况下的GSEA图就下结论说A基因激活或者抑制通路活性,实际上是不合适的。

那如果要进一步确定A在通路上游、A在通路下游还是A与通路只是偶然先关,就要通过实验验证了:如果A干预后通路指标以及下游指标有变化,(一般)可以说明A影响通路;反之如果干预通路(抑制剂、激活剂)等,发现A改变,(一般)可以说明通路影响A,当然不排除A与通路互相影响以及A和通路不影响的情况。

最后,大家如果有类似的困惑或者问题可以留言给我,祝大家新年快乐!