我们的马拉松授课第二单元是GEO数据库里面的表达量芯片数据处理,已经是非常稳定的流程了。其中差异分析和富集分析是最重要的两个环节,而且它们是环环相扣的:
在基因表达差异分析中,挑选上调和下调基因通常涉及到设置特定的阈值来确定哪些基因的表达变化是显著的。以下是一些常用的方法和步骤:
-
-
使用适当的统计测试来比较不同样本或组之间的基因表达差异,如t检验、ANOVA、Wilcoxon秩和检验或limma包中的统计方法。
-
确定一个P值阈值来决定统计显著性。常见的阈值包括0.05、0.01或更严格的0.001。
计算折叠变化(Fold Change, FC)
:
-
折叠变化是基因在两个条件或样本组之间表达水平的比值。通常,上调基因的折叠变化大于1(例如,设置为>2或>1.5),下调基因的折叠变化小于1(例如,设置为<0.5或<0.667)。
-
在多重比较的情况下,使用如Bonferroni校正、FDR(False Discovery Rate)校正等方法调整P值。
-
火山图是一种用于可视化基因差异表达的图形,其中x轴表示折叠变化,y轴表示负对数P值(-log10(P值))。火山图可以帮助快速识别显著上调和下调的基因。
确定下来了统计学显著的上下调基因后,就可以进行生物学功能数据库注释,最常用的统计学方法就是超几何分布检验啦。因为上下调基因列表各自独立去做功能注释,大家会有一个常见的误区, 就是两次注释不应该是有重叠的生物学功能,如下所示:
image-20240907131030692
为什么会有这样的误区呢,是因为大家根据变化倍数来区分了上下调基因,它们直接是没有任何重叠的!类似的,我们在人类社会可以按照金钱地位把人进行财富值的排序,最穷的那些人是不可能跟最富的有重叠,一个人不可能说又穷又富,逻辑上说不通!
但是对上下调基因进行独立的生物学注释的时候,这个有重叠是有可能发生的,而且大概率会发生。类比来说,我们对最穷的那些人以及最富的那些人也是做独立的职业注释,就会发现富有的通常是医生律师公务员等等,穷的说清洁工洗碗工等等,它们确实是不会重叠。同理,我们注释这些人的教育水平也很难重叠,穷人大概率上是没什么文凭,但是有钱人可能是硕博士在读!那,什么时候会重叠呢,我们对这两类人注释性别或者地域的时候,就会重叠了啊。穷人富人都可以是男性或者女性,可以是各个城市的,这个注释重叠了是正常的!
上下调基因都可以注释到同一个通路,比如上面的淋巴细胞分化通路,这个通路有几十个或者上百个基因,里面就有一些基因是显著的上调有一些下调,是完全合理的!
但是,这个时候大家就会有一个问题了,如果淋巴细胞分化这样的通路确实是在我们的上下调基因里面都被富集了,那我们该如何去判断这个淋巴细胞分化这样的通路到底是激活还是被抑制呢?
其实是需要换一个统计学方法,比如gsea分析,它会全局的考虑这个上下调的排序。
判断一个生物学条件的改变是否导致了某个生物学功能通路的激活或抑制,通常涉及以下步骤:
-
-
首先,通过比较不同条件下的基因表达数据,识别差异表达基因。这通常涉及统计测试和多重比较校正。
-
将差异表达基因列表输入到通路富集分析工具中,如KEGG、Reactome、GO、DAVID或专门的软件如Metascape、GSEA等。
-
这些工具会计算你的基因列表中富集特定生物学通路的显著性。
-
检查富集分析的P值或FDR值,以确定哪些通路在统计上显著富集。通常,P值小于0.05或FDR小于0.1被认为是显著的。
-
考虑通路的生物学背景和功能,以及它们与研究条件的相关性。
-
利用通路图或网络图来可视化富集的通路,这有助于理解基因如何在通路中相互作用。
-
除了统计显著性,还应考虑差异表达基因在通路中的效应大小(如折叠变化)。
-
观察通路中基因的上调或下调趋势,以判断通路是被激活还是抑制。
-
如果可能,通过实验方法(如qPCR、Western blot等)验证关键基因的表达变化。
-
查阅文献和数据库,了解已知的生物学知识,以支持你的分析结果。