富集分析是组学研究中必不可少的一个分析点,
一方面
它可以宏观预测在处理条件下的有变化的基因具有哪些功能或在哪些通路中起作用,辅助验证自己的实验猜想;
另一方面
,它可以帮助缩小目标基因的寻找范围,比如对某性状强相关的基因集进行富集分析后,将范围再缩小到目标通路的基因集中。
鉴于富集分析的重要性,小编精心整理了三
类富集分析常见问题:
一、如何进行富集分析?
二、遇到问题怎么调整参数来解决?
三、获得结果后,下一步可以做啥?
那本期推送,小编先来为大家解答第一类问题——如何进行富集分析。这类问题主要包含四个小问题:
一般,我们会选择用
全部的差异基因
做GO/KEGG/Reactom富集分析,来宏观的查看处理条件下表达有变化基因都被富集在了哪些通路。
但组学分析的目的,除了了解基因在哪些功能上可能起作用,很多时候,还想找到影响表型变化的关键基因,因此,我们还可以对感兴趣的
目标基因
进行富集分析。这些目标基因可以来源于:
韦恩图中有交集的基因、差异上调或者下调的的基因、趋势分析中某一个模块内的基因、WGCNA分析中与某些性状强相关的模块基因等
(图1)。相比于用全部差异基因来做富集,目标基因的富集分析会更有针对性,筛出来的通路以及通路中的基因可能与处理更相关。
图1. 目标基因集的来源
这个问题可分两种情况:1.有感兴趣的通路;2.没有感兴趣通路。
如果我们组学分析的
出发点是为了验证实验猜想
,那对于基因应该富集在哪些通路,心中可能早有答案,就只用看结果里有没有这些通路,如果有就可以单独在图中单独标注出来并在文章
[1]
中对通路进行一些显著性、作用等的描述即可(如图3)。
图3.已发表文章对感兴趣的通路的展示及表述
(基迪奥客户2024年9月发表的文章,图形源自omicsmart在线报告)
但如果我们
出发点是探究某一条件下的未知变化
,那得到富集结果后我们可能并不知道哪些是值得我们关注的,这时候我们可能更偏向于整体描述富集结果
[2]
,并找到一些显著富集排在靠前的一些通路进行描述(如图4)。
图4.已发表文章对整体富集结果的展示及表述
(基迪奥客户2024年9月发表的文章,图形源自omicsmart在线报告)
实际上,p值和FDR值≤0.05都能说明通路被显著富集。我们在分析的时候,如果想要查看所有被显著富集到的通路,那直接用p≤0.05来筛选即可,如果觉得筛选到的通路数过多,则可以把范围缩小一些,比如将p值换成矫正后更严格的FDR值,将≤0.05调整到≤0.01甚至更小的范围。
在看富集分析结果时,大家可能会进入一个误区:以基因数目的多少来衡量一个通路的重要性。因此,当大家在富集结果的图中看到通路富集的基因数很多,但显著性并不靠前(图5)时,会有所疑虑。这其实是大家不了解富集分析真正的原理所导致的。
富集分析基于超几何检验的方式来计算p值(显著性值),在图5的公式中,我们可以看到,通路中被富集到的基因数目“i”,仅仅只是公式中的一环,而决定这条通路是否显著富集还与多种因素相关。因此,在看富集分析结果图形时,我们应:
1.首先关注P值/FDR值,因为P值如果不显著,那么富集的结果可能只是随机出现。
2.在P值显著的前提下,应综合考虑Gene Ratio和被富集的基因数目。一个高的Gene Ratio和较多的基因数目通常表明该通路或功能类别在样本中发生了生物学上的重要变化。
3.分析结果时,还需要考虑生物学背景和上下文。有时候,即使某些通路或类别中的基因数目不多,但如果这些基因在生物学上是关键的,那么这些通路或类别也是值得关注的。
图5富集分析的公式及富集分析常见图形
自从OM平台推出AI客服以来,我们一直有在收集“友友们”的问题,并尝试以推送的方式给大家解答:
差异代谢物该怎么挑,配什么图才好呢
代谢组KEGG富集结果少,怎么办才好?
实用干货 | 转录组测序结果常见问题问答
本期推送,小编主要给大家介绍的新手小白初接触富集分析时关于如何进行富集分析的常见问题。但
实际分析中,结果里还会出现找不到想要的富集通路、富集通路太少等问题
,这些问题小编会在下期富集分析的推送中给大家继续讲解~感兴趣的小伙伴可持续关注。
如果大家对富集分析有其他的疑惑也可以在评论区留言哦~
基迪奥生物测序服务能力行业领先,从方案设计、测序建库到精细数据挖掘、审稿意见回复,全程为各位老师保驾护航到文章发表,云处理分析平台Omicsmart更是让你无需任何编程基础即可随时实现数据挖掘自由。
如果您有测序/分析项目咨询,可扫描下方二维码填写意向信息:
长按识别二维码填写意向