专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Cell Stem Cell | ... ·  14 小时前  
生信宝典  ·  2025 年2月 | ... ·  2 天前  
生信菜鸟团  ·  前瞻 | Nature | ... ·  2 天前  
BioArt  ·  ​Science | ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

综述精读 | 关于几个因素对通路富集分析的影响

生信菜鸟团  · 公众号  · 生物  · 2024-10-05 21:13

正文

Basic Information

  • 英文标题:On the influence of several factors on pathway enrichment analysis
  • 中文标题:关于几个因素对通路富集分析的影响
  • 发表日期:23 April 2022
  • 文章类型:Review
  • 所属期刊:Briefings in Bioinformatics
  • 文章作者:Sarah Mubeen | Daniel Domingo-Fernández
  • 文章链接:https://academic.oup.com/bib/article/23/3/bbac143/6572658

Abstract

  1. 通路富集分析已成为一种广泛使用的基于知识的生物医学数据解释方法。
  2. 其流行性导致了富集方法和通路数据库的爆炸式增长。
  3. 尽管通路富集的优雅之处在于其简洁性,但多个因素可能会影响此类分析的结果,而这些因素可能未被考虑。
  4. 研究人员可能未能给予有影响力的方面应有的重视,而是依赖于流行的方法和基因集集合,或默认设置。
  5. 尽管持续努力建立一套指南,但由于缺乏关于如何进行富集分析的共识或金标准,有意义的结果仍然受到阻碍。
  6. 然而,这些担忧促使了一系列基准研究的开展,专门评估各种因素对通路富集结果的影响。
  7. 在这篇综述中,我们组织和总结了这些基准研究的发现,以提供对这些因素影响的全面概述。
  8. 我们的工作涵盖了广泛的因素,从方法学假设到与先验生物学知识相关的因素,如通路定义和数据库选择。
  9. 通过这样做,我们旨在揭示这些方面如何导致不显著、无趣甚至矛盾的结果。
  10. 最后,我们通过提出未来的基准以及克服源自上述因素的某些挑战的解决方案,来结束这篇综述。

Introduction

Para_01
  1. 通路富集分析已成为解释生物数据的主要方法之一,因为它可以将高维信息简化为仅几个与特定表型相关的生物过程。
  2. 在过去十年中,通路富集分析的普及导致了多种不同方法的发展,这些方法可以分为三代:(i) 过度表征分析(ORA),(ii) 功能类别评分(FCS)和(iii) 基于通路拓扑(PT)的方法,每一代都在分析中增加了复杂性。
  3. ORA是三代中的第一种方法,旨在识别与差异表达基因(DEGs)列表共享更多基因的基因集,而不是偶然预期的。
  4. 给定一个DEGs列表、一个基因集及其补集,进行统计检验以评估DEGs是否在基因集中过度表征。
  5. 尽管ORA方法简单易行,但它们依赖于任意且有时严苛的截止值来确定什么是DEG。
  6. 为了解决这个问题,FCS方法通过使用指标为实验中的每个基因分配差异表达评分,来测试基因集中的基因是否与研究表型有协调活性。
  7. 然后根据评分对基因进行排名,这些评分随后用于计算基因集评分并确定在统计上显著有趣的基因集。
  8. 最后,基于PT的方法在前一类方法的基础上构建,其特点是额外考虑PT信息,而不仅仅依赖于缺乏交互信息的基因集。
  9. 因此,可以在基因集和通路之间做出正式区分。
  10. 具体来说,基因集指的是一组未排名的基因,可以按其生物通路中的成员资格或染色体位置等进行不同分组,而通路指的是一组基因及其之间的任何成对交互。
  11. 尽管富集方法的简单性和可访问性是其在社区中广泛采用的主要驱动力,但手头上的大量方法和缺乏黄金标准在评估富集结果的变异性方面构成了挑战。
  12. 因此,近年来发布了几项关于富集分析实验设计的建议指南。
Para_02
  1. 在社区中,一个类似但更具哲学性的争论涉及通路或基因集数据库的选择。
  2. 其选择可以说是影响富集分析结果的最决定性因素之一,因为它决定了可能被富集的基因集(即基因集中的基因在所检查的基因列表中被富集)。
  3. 近年来,公共数据库的数量持续增长,与新富集方法的发展并行。
  4. 然而,最广泛使用的数据库列表在过去十年中并未改变,因为富集分析主要仅在一个以下三个数据库之一上进行:KEGG、Reactome 和基因本体(GO)。
  5. 虽然这组选定的数据库具有多项优势(例如,覆盖广泛的生物过程和定期更新),但对于构成特定通路或基因集的定义可能在各个数据库之间任意划定。
Para_03
  1. 目前,用户在进行富集分析时可以选择多种富集方法和数据库。
  2. 这在对影响富集分析结果的众多因素进行考虑时,构成了一个挑战,可能导致结果不显著、不相关甚至相互矛盾。
  3. 因此,近年来,为了制定实用指南,已经进行了几项基准研究来评估通路分析各方面的影响。
Para_04
  1. 在这项工作中,我们回顾了在不同因素影响下进行的通路富集分析的主要基准测试结果(图1)。
  2. 我们论文的目标是既向使用通路富集分析的研究人员更广泛的社区通报这些因素,又总结所有最新基准测试的发现。
  3. 最后,我们还讨论了可能的解决方案,以应对这些因素以及其他尚未研究但未来可以进行基准测试的因素。
image-20241002020431213
  • 图1展示了本文综述中讨论的影响通路富集分析结果的主要因素。条形图的高度和颜色是象征性的,与重要性无关。上图所示的两个网络代表两个映射到基因表达数据(下方矩阵)的生物学通路。

Comparative studies on enrichment methods

Para_05
  1. 鉴于通路富集分析的热门程度,至少已有70种不同的方法被开发出来,以及数百种变体[8, 9](详见Xie等人[10]对方法和基准的详尽综述)。
  2. 这些方法的实现可以根据多种因素而有所不同,例如基因水平统计(例如t检验统计和倍数变化)、基因集水平统计(例如Kolmogorov-Smirnov (KS)统计[11]和Wilcoxon秩和检验[12])、零假设和备择假设的表述以及显著性估计。
  3. 许多最常用的通路富集方法已在几项主要基准和综述中进行了比较。
  4. 在本节中,我们概述了12项关于富集方法的综合性比较研究的结果(见表1;更多详情请参阅在线补充表1-3,网址为https://academic.oup.com/bib)。
  • 表1   评估不同富集方法差异的比较研究
No. Review Methods tested Datasets Database (# of gene sets/pathways) Types of evaluated methods
1 [13] 7 36 KEGG (116) Topology- and non-topology-based methods
2 [2] 10 75 KEGG (323) and GO (4631) ORA and FCS methods
3 [3] 7 118 KEGG (232) Topology-based methods
4 [14] 6 20 KEGG (86) Topology- and non-topology-based methods
5 [15] 9 3 KEGG (114) Topology-based methods
6 [16] 13 6 GO gene set collection extracted from MSigDB [17] v6.1 (5917) Widely used pathway enrichment methods
7 [18] 8 3 MSigDB v5.0 (10,295) Widely used pathway enrichment methods
8 [9] 10 86 KEGG; 150 pathways for all methods except 130 for PathNet [19] and 186 for CePa [20, 21] Topology- and non-topology-based methods
9 [22] 11 1 C2 collection from MSigDB v4.0 (4722) Methods differing based on null hypothesis
10 [23] 16 42 KEGG (259) and Metacore™ (88) ORA and FCS methods
11 [24] 5 6 KEGG (192) ORA and FCS methods
12 [25] 7 38 KEGG (189) ORA and FCS methods
  1. 在第三列中,我们报告了每项研究中比较的富集方法数量(详见在线补充表2和表3,网址为https://academic.oup.com/bib,了解测试方法的详细信息)。
  2. 这里,我们需要注意的是,我们根据Geistlinger等人的研究[2]区分了方法和工具/网络应用程序。
  3. 在第四列中,我们报告了每项研究中进行比较的数据集数量,除了[3, 13, 14, 18, 22]中包含实验和模拟数据集外,其他全是实验数据集。
  4. 最后,第五列报告了每项研究中使用的通路数据库,并在括号中显示了通路的数量。

Metrics for method evaluation

方法评估的指标

Para_06
  1. 在比较富集方法的研究设计中,一个特别的挑战是,在没有全面理解跨实验条件的复杂生物过程的情况下,结果通常无法在回顾性评估之外得到验证。
  2. 也就是说,如果没有一个金标准来比较任何给定方法产生的结果,结论性评估往往难以做出。
  3. 尽管如此,几种比较方法的技术被广泛使用,同时也有基准数据集被提出。
  4. 具体来说,本文回顾的基准研究使用的数据集主要是真实的、实验性的数据集,研究特定的表型(即实验中的研究对象)。
  5. 根据Tarca等人的研究,几项研究选择了评估数据集,这些数据集对应于所选数据库中的通路或基因集(例如,研究乳腺癌与正常表型的数据集和乳腺癌通路)。
  6. 其他研究则通过选择研究相同表型的各种数据集,专注于测量方法之间的一致性。
  7. 最后,比较研究还使用了模拟数据集来基准方法,因为数据的各种特征可以进行调节,并且可以在这些已知的数据特征下研究方法。
  8. 与Tarca等人的研究一致,大多数研究基于以下至少一个指标评估了富集方法在这些数据集上的性能:优先级、特异性或敏感性。
Para_07
  1. 优先级评估基于一个预先识别的目标基因集是否与所研究数据集中相关的表型显示出高度相关性,并且排名靠前(例如,对于测量乳腺癌与正常表型之间转录组差异的数据集,乳腺癌通路预计应占据最高排名)。
  2. 特异性指的是由某种方法正确识别为真阴性的基因集比例;因此,高特异性的方法会产生更少的假阳性。
  3. 最后,在由某种方法检测到的所有显著基因集中,敏感性衡量的是实际上与所研究数据集中相关表型相关的基因集比例(即真阳性)。
Para_08
  1. 在迄今为止进行的各种比较研究中,上述指标一直是用于实证评估富集方法的最常用指标。
  2. 尽管如此,单个研究中使用的指标和基准测试的方法可能会有很大差异,最流行的方法不出所料地被研究得最为频繁。
  3. 然而,尽管已经进行了众多基准研究,但尚未对现有的许多富集方法进行全面和标准化的评估。
  4. 此外,在尝试进行此类评估的基准研究中,没有哪种特定方法被证明在所有评估的设置中都能产生一致的结果。
  5. 尽管如此,关于某种方法在特定指标上的个体表现,确实出现了一些趋势(补充表4-6可在https://academic.oup.com/bib在线查看)。
  6. 因此,在以下内容中,我们报告了在比较研究中观察到的趋势,这些方法在两个或更多研究中一致表现出在指标上的优越性能,且在同一指标上没有表现出较差的性能。
Para_09
  1. 关于敏感性,MRGSE、GlobalTest和PLAGE在Tarca等人[23]和Zyla等人[25]的研究中排名较高(补充表4可在https://academic.oup.com/bib在线查看)。
  2. 然而,高敏感性也可能意味着较低的特异性。
  3. 这确实在MRGSE和PLAGE中观察到,两者在至少一项研究中报告的假阳性数量超过了预期,尽管在优先排序方面表现良好(补充表6可在https://academic.oup.com/bib在线查看)。
  4. 考虑到这两种方法也被证明报告了大多数基因集为显著[24, 25],这并不令人惊讶。
  5. 同样,传统的统计测试,包括KS测试和Wilcoxon秩和测试,在Bayerlová等人[13]和Nguyen等人[9]的研究中表现出高敏感性,尽管其特异性结果不一致。
  6. 值得注意的是,在上述方法中,GlobalTest是唯一在Tarca等人[23]和Zyla等人[25]的研究中一致显示出高敏感性和高特异性的被调查方法。
Para_10
  1. 在特异性的评估中,SPIA和CAMERA至少在两项研究中显示出高特异性(补充表5可在https://academic.oup.com/bib在线查看),尽管在敏感性和目标通路优先级排序方面的结果混合或较差。
  2. 此外,GSA、PADOG和PathNet在优先级排序方面表现良好(补充表6可在https://academic.oup.com/bib在线查看),但在敏感性和特异性方面结果混合。
  3. 最后,在所有研究中,GSEA和ORA(或其变体)是研究最多的富集方法,12项比较研究中有8项评估了这两种方法中的一种或两种(补充表3可在https://academic.oup.com/bib在线查看)。
  4. 在这里,我们观察到,尽管它们是富集分析中最常用的方法,但关于它们的敏感性、特异性和优先级排序的结果总体上并不一致(补充表4-6可在https://academic.oup.com/bib在线查看)。

Hypothesis testing and significance assessment

假设检验和显著性评估

Para_11
  1. 比较分析中,基因集分析方法的大部分关注点在于不同零假设定义的隐含意义。
  2. 在他们的开创性工作中,Goeman和 Bühlmann [34] 根据统计测试中假设的零假设对方法进行了分类。
  3. 他们断言,富集方法可以归类为竞争性方法,如果它们测试的是竞争性零假设 [即假设基因集中的基因与其补集(通常是实验中的其余基因)相比没有差异表达];或者是自包含方法,如果它们测试的是自包含零假设(即假设基因集中的基因在不同表型之间没有差异表达)。
  4. 选择某一类方法而非另一类可以带来多种优势,我们通过简要回顾评估了基于这一区分方法性能的研究来阐明这一点。
Para_12
  1. Rahmatallah等人[22]回顾了早期的工作[35–37],普遍指出自包含方法的效力大于竞争性方法(表1;补充表2和3可在https://academic.oup.com/bib在线查看)。
  2. 自包含方法对样本大小和异质性的鲁棒性也更强,这些方法在他们评估的所有方法中显示出最高的敏感性,即使样本大小减少也是如此[22](补充表7可在https://academic.oup.com/bib在线查看)。
  3. 具体来说,他们发现ROAST[38]和SAM-GS[39]在这一指标上表现最佳。
Para_13
  1. Geistlinger 等人指出,不同方法报告为显著的基因集比例因所测试的零假设类型而异。
  2. 在调查的10种方法中(补充表3可在https://academic.oup.com/bib在线查看),他们发现大多数自包含方法,包括GlobalTest,检测到更大比例的基因集为显著。
  3. 在Zyla等人的研究中,自包含方法GlobalTest和PLAGE在所有基准方法中也报告了最多的显著基因集(补充表3可在https://academic.oup.com/bib在线查看)。
  4. 与这些发现相反,Wu和Lin发现GlobalTest报告的显著富集基因集数量比竞争性方法少。
Para_14
  1. 此外,Geistlinger等人发现,独立方法,尤其是GlobalTest和SAM-GS,对基因集大小特别敏感,倾向于将较大的基因集识别为显著(补充表8可在https://academic.oup.com/bib在线查看)。
  2. 例如,即使随机组装基因集,GlobalTest和SAM-GS也将所有超过50个基因的基因集识别为显著。
  3. 然而,Maleki等人指出,GlobalTest是更可能将较小规模的基因集识别为显著的方法之一(见表1;补充表3可在https://academic.oup.com/bib在线查看),尽管在这种情况下,给定基因集的基因上限接近2000,而在Geistlinger等人的研究中,这一上限为500。
Para_15
  1. 这些相互矛盾的研究结果是基因集分析基准方法所面临挑战的一个典型例子。
  2. 同一方法在不同研究中得出的结果存在显著差异,这可能是由于多种因素造成的,例如基因集的大小或研究数据集中差异表达基因(DEGs)的比例不同。
  3. 例如,当给定基因集中只有少数基因差异表达,而大多数基因不表达时,GlobalTest的表现往往不佳;相反,当基因集中有许多基因存在微小的差异表达变化时,GlobalTest则更适合。
  4. 我们将在后续章节以及补充文本1中进一步讨论基因集大小对结果的影响(补充文本1可在https://academic.oup.com/bib在线获取)。
Para_16
  1. 如果选择使用竞争性方法,必须考虑到测试竞争性零假设通常本质上意味着不仅要考察表型与给定基因集中的基因之间的预期关联,还要考察表型与该基因集补集中的基因之间的关联。
  2. 也就是说,当目标是测试基因集中基因的差异表达量是否过多时,竞争性方法可能是合适的。
  3. 例如,广受欢迎的ORA方法被认为在存在大量差异表达时是合适的。
  4. 然而,ORA也倾向于优先考虑较大的基因集,给它们分配较低的P值。
  5. 尽管如此,在Geistlinger等人的一项研究中,ORA和其他竞争性方法在将表型相关的基因集排在前列方面优于自包含方法(补充表9可在https://academic.oup.com/bib在线查看)。
  6. 相比之下,尽管ORA在Tarca等人的研究中在优先考虑相关基因集方面表现良好,但关于竞争性和自包含方法在此度量上的表现,无法做出明确的区分(补充表6可在https://academic.oup.com/bib在线查看)。
  7. 此外,尽管在Geistlinger等人的研究中,自包含方法倾向于识别出更大比例的基因集作为显著,但大多数竞争性方法(即SAFE、GSEA、GSA和PADOG)并未识别出任何显著基因集。
Para_17
  1. 与零假设的制定密切相关的是P值的计算。
  2. 为基因集分配P值的多种方法解决了以下问题:什么是抽样单位?
  3. 如果抽样单位是基因,那么对于每个给定大小的基因集,从所有被研究的基因中随机抽取相同数量的基因来抽样零分布。
  4. 然而,如果抽样单位是受试者,则通过随机排列受试者的表型标签来抽样零分布。
  5. 虽然测试自包含零假设的方法通常与样本排列相关联,而竞争方法与基因排列相关联,但后一类方法可以修改使其成为自包含的。
Para_18
  1. 样本排列通常被认为是获取经验零假设分布的首选方法,因为其设置往往更自然地适用于研究问题,即是否存在基因集与表型之间的关联。
  2. 相比之下,通过基因排列计算显著性的方法受限于假设基因是独立且同分布的(iid)。
  3. 然而,已经明确的是,这一前提在真实的生物学背景下并不成立,因为在真实生物学背景下可以观察到基因相关性(即基因的协调表达),并且已知基因集是协同工作的。
  4. 因此,在基因排列的情况下,尽管显著的基因集可能反映了无论实验条件如何都会出现的基因相关性以及/或者实际的表型差异,但后者往往更有趣,而前者可能会增加假阳性的数量。
Para_19
  1. 基因集内相关性的影响已在多项研究中被观察到。
  2. Tamayo及其同事[44]通过比较GSEA和简单参数方法在50个数据集中的结果,展示了这些相关性对富集分析结果可能产生重大影响。
  3. 他们观察到,假设差异基因表达分数既独立又符合正态分布的参数方法,比GSEA产生了更多的显著基因集,但其中许多被推测为假阳性。
  4. 同样,在Maciejewski[40]对模拟数据的实验中,作者证明当基因集中存在基因相关性,但在基因集及其补集中没有DEGs时,假设iid的方法(例如Irizarry等人[45]提出的参数方法和基因置换的竞争方法)的假阳性率高于预期。
  5. 因此,这些研究的作者警告说,假设基因独立性的方法可能会报告基因集与表型显著相关,而实际上基因相关性才是导致所谓显著结果的原因。
  6. 然而,也值得注意的是,通过减少基因集内的冗余,相关性的影响可以在一定程度上得到缓解。
Para_20
  1. 在Maciejewski的文献中,作者观察到在具有样本排列程序的方法中,GlobalTest、GSEA和GSA及其变体具有较高的效能。
  2. 此外,GSEA作为一种具有样本排列的竞争方法,其效能高于其他几种测试方法(即GSA及其变体、PAGE、Wilcoxon秩和检验、Q1和SAFE),尽管随着基因集中差异表达基因(DEGs)数量的增加,其他方法的效能也随之提高。
Para_21
  1. 然而,样本置换需要足够的样本数量,因为如果没有足够大的样本量,计算出的P值可能永远不会达到显著性,在这种情况下,建议使用基因置换。
  2. 例如,在他们的比较分析中,Maleki等人发现,在10个重复数据集中,使用样本置换的GSEA无法检测到任何基因集在样本量较小时富集,这表明该方法的最小样本量为10。
  3. 各种方法对样本量变化的稳健性在补充文本2中进一步讨论(可在https://academic.oup.com/bib在线获取)。
Para_22
  1. 已经提出了其他方法,试图通过进行样本置换和基因随机化来解决与样本和基因置换方法相关的一些缺点,这种方法被称为再标准化,如GSA,通过使用旋转进行基因集测试,如FRY [49]和ROAST,或者通过引导方法,如Zahn等人[50]和Barry等人[43]所述。

Topology- and non-topology-based methods

基于拓扑和非拓扑的方法

Para_23
  1. 富集分析的方法也可以分为基于拓扑结构的方法和非基于拓扑结构的方法。
  2. 后一组方法可以进一步细分为前述的ORA和FCS方法,分别称为第一代和第二代方法。
  3. 基于PT或拓扑结构的方法属于第三代方法,直观上更为先进,因为与ORA和FCS方法不同,它们利用了通路中基因的拓扑结构。
  4. 然而,多个基准测试对基于拓扑结构和非基于拓扑结构的方法的结果并不明确,无法确定哪一组方法更优越,有研究建议基于拓扑结构的方法略占优势。
Para_24
  1. 在Bayerlová等人[13]的研究中,作者指出,当使用原始KEGG通路(这些通路往往包含重叠基因)进行实验时,方法是否基于拓扑结构对性能并无影响(补充表3-6可在https://academic.oup.com/bib在线查看)。
  2. 值得注意的是,虽然CePa包含了来自KEGG和Pathway Interaction Database [51]的通路,但研究中评估的其他基于拓扑结构的方法(即PathNet和SPIA)仅与自定义XML格式(即KEGG标记语言)的通路兼容。
  3. 这一结果尤为显著,考虑到KEGG包含重叠的通路,从而通过限制用户使用该数据库指定格式的通路,限制了基于拓扑结构方法的潜力。
  4. 相比之下,使用非重叠通路进行的实验结果显示,基于拓扑结构的方法优于非基于拓扑结构的方法[13]。
  5. 与这些发现一致的是,Jaakkola和Elo[14]以及Nguyen等人[9]的比较研究也表明,在某些条件下,基于拓扑结构的方法表现出比非基于拓扑结构的方法更好的性能,尽管与Bayerlová等人[13]的发现相反,这些结论仅在使用KEGG作为通路数据库选择时得出。
Para_25
  1. 更具体地说,Nguyen等人[9]的研究结果表明,基于拓扑结构的方法在检测目标通路方面相较于非拓扑结构方法略有优势(补充表6可在https://academic.oup.com/bib在线查看),尽管关于目标通路的P值结果较为混杂。
  2. 在Jaakkola和Elo[14]的研究中,基于拓扑结构的方法(即SPIA、CePa和NetGSA[52])检测到的显著通路数量多于非拓扑结构方法(即GSEA、Pathifier[53]和DAVID[54])。
  3. 然而,在一个更具挑战性的数据集中,组间差异较为微妙,几乎所有研究方法要么未检测到显著富集的通路,要么仅检测到相对较少的显著富集通路。
Para_26
  1. Ihnatova等人进行了几项实验,评估了各种参数对基于拓扑方法的影响[例如,对通路和样本大小的敏感性(补充表7可在https://academic.oup.com/bib在线查看),特异性(补充表5可在https://academic.oup.com/bib在线查看)以及拓扑信息的排除]。
  2. 为了研究后一个参数(即拓扑信息是否影响给定拓扑方法的结果),作者评估了单个基因对被认为富集的通路比例的影响,假设一个未考虑PT的设置是一个个体基因对结果具有相等影响的设置。
  3. 为此,他们发现当排除拓扑信息时,TopologyGSA和Clipper在性能上没有差异,而对于所有其他方法,排除拓扑信息导致识别出较小比例的富集通路。
  4. 此外,在评估当纳入拓扑信息时目标通路的排名/P值是否变化时,作者发现PRS和CePa的目标通路的排名和P值都降低了,而对于所有其他方法,纳入拓扑信息导致目标通路的排名/P值没有变化或增加(有时是由通路特异性效应引起的)。

Additional methodological considerations and consensus approaches

额外的方法论考虑和共识方法

Para_27
  1. 除了上述常见的措施和分类之外,一些比较研究已被用来区分富集方法,方法在许多其他方面的表现也已被基准测试。
  2. 我们参考了评估其他方面的研究,包括准确性(补充表10可在https://academic.oup.com/bib在线获取)、第一类错误率、功效、运行时间以及在不同数据集之间可重复性的评估,其他内容见补充表11(可在https://academic.oup.com/bib在线获取)。
  3. 此外,我们概述了其他方法学考虑因素,包括数据预处理步骤和由实验产生的偏差(补充文本3可在https://academic.oup.com/bib在线获取)、所选的基因和基因集水平统计(补充文本4和5可在https://academic.oup.com/bib在线获取)、富集分析对各种组学数据集类型的适用性(补充文本6可在https://academic.oup.com/bib在线获取)以及背景选择(补充文本7可在https://academic.oup.com/bib在线获取)。
Para_28
  1. 鉴于富集方法的多样性,通常具有可调设置,生命科学研究者可使用数百种方法和变体。
  2. 由于选择的方法不同,结果可能会显著变化,这种广泛的变异性促使开发了协同进行富集分析的工具。
  3. 虽然实现这一目标的技术可能有所不同,但通常会在几种方法之间达成共识,以确定在统计学上显著有趣的最终通路集。
  4. 例如,R包EGSEA、EnrichmentBrowser、Piano和decoupleR,以及基于机器学习的方法CGPS和CPA网络应用程序。
  5. 有关这些集成技术的详细信息,请参阅补充文本8(在线提供,网址为https://academic.oup.com/bib)。

Impact of pathway database and gene set size

Para_29
  1. 尽管富集方法的变体是影响富集分析结果的最常研究的因素之一,但在实验设计中还有其他几个需要考虑的因素,以确保获得生物学上有意义的结果。
  2. 在本节中,我们介绍了包括显著基准在内的研究,这些研究调查了其他因素对富集分析结果的影响,例如数据库选择和通路大小。
Para_30
  1. 一个富集分析结果所依赖的最关键因素之一是参考通路数据库的选择。
  2. 研究人员通常只依赖单一数据库进行富集分析,这可能是由于研究人员的偏好、特定数据库的流行度或其易用性等因素。
  3. 确实,我们观察到大多数评估富集方法性能的研究(表1)几乎总是在单一数据库上进行,而且主要是KEGG数据库。
Para_31
  1. 首次对选择基因集集合的重要性进行研究的是Bateman等人。
  2. 在这项研究中,作者展示了在药物响应癌症数据集的背景下进行GSEA时,MSigDB中包含的七个标准集合产生了不同的结果。
  3. 除了其他发现外,该研究的结果还表明,某些集合能够产生显著更多的与所研究表型相关的富集通路,而不是其他集合。
  4. 此外,作者认为,基因集集合的选择不应随意进行,因为某些基因集可能比其他基因集更适合特定的数据集。
  5. 在最近一项关于代谢组学数据上流行的ORA方法最佳实践的研究中,作者还发现,通路分析的结果在很大程度上取决于所选择的通路数据库(即KEGG、Reactome和BioCyc)。
Para_32
  1. 在我们的先前工作中得出了类似的结论,我们评估了在任何给定通路中,是否在三个主要通路数据库(即KEGG、Reactome和WikiPathways)和多种富集方法中结果是一致的。
  2. 我们的研究揭示了通过使用等效通路映射来结合多个数据库的优势,表明综合性资源比单个资源能产生更一致的结果。
  3. 总体而言,这些研究展示了数据库选择的重要性,考虑到数据库之间覆盖范围的差异,这是一个关键因素。
  4. 最后,我们还想强调数据库大小的重要性,因为数据库中通路总数在应用多种校正方法时会产生影响。
Para_33
  1. 一个与数据库选择相关的额外因素是基因集(通路)的大小,对应于不考虑PT的富集方法中基因集内的基因数量,或考虑PT的方法中的节点(基因)和边的数量。
  2. 通路大小的影响最近在Karp等人[71]的研究中被探讨,通过比较来自KEGG和EcoCyc[72]的六个等效通路定义的显著性。
  3. 鉴于两个数据库中通路平均大小的差异(即KEGG通路显著大于其在EcoCyc中的相应同源物),作者研究了大小对结果的潜在影响,发现通路大小可以比所使用的统计校正产生更强的影响。
  4. 此外,作者发现KEGG通路需要多达两倍数量的显著基因,才能达到与其EcoCyc对应物相同的P值。
Para_34
  1. 值得注意的是,等效路径之间的尺寸差异不仅在这两个数据库中进行了考察,还在其他主要资源中进行了考察,例如Reactome和WikiPathways。
  2. 在这项工作中,作者认为使用跨越多个生物过程(例如信号转导)的路径定义可能导致误解,因为当这些路径富集时,很难判断这是否意味着涉及整个路径还是仅涉及路径的子集。
  3. 这些广泛定义的路径也可能信息量较少,对于理解所研究表型之间的差异在创新性方面的贡献不大。
  4. 然而,较小的路径可能导致结果过长和多重测试校正过于严格。
Para_35
  1. 减轻基因集大小对结果影响的可能解决方案包括定义基因集内的最小和最大基因数量(例如,在10到500之间),仔细考虑所选的富集分析方法(参见‘假设检验和显著性评估’部分),以及解决基因集内的冗余问题,如[73]中提出的。
  2. 在他们的方法中,作者建议丢弃与其他基因集重叠的显著基因集,以确保特定通路的富集不是由于重叠造成的。
Para_36
  1. 尽管数据库选择和通路大小是两个需要考虑的关键因素,但我们预见到几种方法可以抵消它们带来的挑战。
  2. 在数据库选择的情况下,Maleki等人的一项研究[74]提出了两个简单的指标(即渗透性和最大可实现覆盖率分数),以评估相关基因列表与数据库中所有基因集之间的重叠程度。
  3. 这些指标的目标是提供一个直觉,判断所研究表型的基因是否被特定数据库良好覆盖。
  4. 因此,作者认为这种方法可以减少数据库偏差和任意数据库选择,因为这两个分数可以指导用户合理地决定最合适的数据库。
Para_37
  1. 我们提出的另一个解决方案是,可以从参考数据库生成的富集结果通过与另一个数据库使用等效的通路映射进行验证。
  2. 通过利用通路映射,可以评估从不同数据库(即参考数据库和‘验证’数据库)获得的结果之间的相似性,以确认它们是否一致,或者在它们不一致时重新评估它们。
  3. 在我们早期的工作中,我们通过在四个通路数据库之间生成等效的通路映射来利用这一技术。
  4. 随后,一个网络工具(即DecoPath)使用户能够评估在给定通路跨数据库和富集方法在基因和通路水平上的相似性和差异。
  5. 例如,一个数据库中的特定通路可能具有与另一个数据库中相同通路略有不同的基因集,这最终可以解释为什么一个通路在一个数据库中被检测为显著富集,而在另一个数据库中则不然。
Para_38
  1. 同样地,路径映射也可以用来系统地研究路径大小对结果的影响。
  2. 在这里,可以利用路径本体中的层次映射(即路径A是路径B的一部分)来评估相关路径是否同样富集。
  3. 尽管早期已经提出了一个路径本体[76],但它既没有被任何主要数据库采用,也没有与它们链接。
  4. 相反,每个数据库都使用自己的路径术语,尽管一些数据库如Reactome和GO也在其模式中包含了层次组织。
  5. 事实上,Reactome最近采用了这种方法,通过实施ReacFoam,一种用于导航其路径层次和探索不同层次路径富集程度的可视化工具,以促进富集分析的解释。
Para_39
  1. 生物医学文献的增长在通路数据库中得到了反映,因为它们的通路定义随着时间而变化。
  2. Wadi等人[77]的一项研究表明,过时的通路定义对几个基于网络的工具产生了影响,并突出显示在Reactome和GO等主要资源中,通路/生物过程的数量在7年(2009-16)内翻了一番。
  3. 此外,该研究还揭示了大多数被分析的研究使用了过时的通路定义,这是一个主要问题,因为此类研究中呈现的结果可能已经发生了变化。
  4. 我们认为,如果用户在使用通路富集工具时能够被提醒底层通路数据库未最近更新,这个问题可以部分得到缓解。
  5. 此外,通过Reactome、GO和WikiPathways等主要资源提供的API和服务,工具中更新通路数据库的信息已经大大简化。
  6. 最后,我们鼓励研究人员在分析中包括所使用的数据库版本以及所使用的工具版本。

Impact of additional factors on enrichment analysis and possible future benchmarks

Para_40
  1. 尽管迄今为止提到的因素都已根据其对通路富集结果的影响进行了基准测试,但仍存在其他尚未详细探索的因素。
  2. 首先,在更细粒度的层面上,单个基因也会对结果产生影响。
  3. Ballouz等人的一项研究[78]提出了与注释偏差和基因集冗余相关的挑战。
  4. 将单个基因注释到多个功能(即多功能基因)可能会混淆通路分析的结果,因为这些基因可能导致大量富集的通路在很大程度上是不相关的。
  5. 例如,具有多功能基因的几个通路在结果中可能被认为是富集的,但这些通路的富集可能是由于多功能基因的存在,而不是通路与感兴趣表型的相关性。
  6. 作者提出的一种控制这种效应的方法是通过在分析中多次运行,同时移除数据集中最顶层的多功能基因,以识别最稳健的通路。






请到「今天看啥」查看全文