专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  ChatGPT ... ·  昨天  
生物制品圈  ·  佳达修这一退,或将再无回头路…… ·  2 天前  
生物学霸  ·  打破校史,「双一流」首篇 Nature ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

富集分析 | 利用通路富集分析解释组学数据

生信菜鸟团  · 公众号  · 生物  · 2024-10-05 21:13

正文

Basic Information

  • 英文标题: Interpreting omics data with pathway enrichment analysis
  • 中文标题:利用通路富集分析解释组学数据
  • 发表日期:April 2023
  • 文章类型:Review
  • 所属期刊:Trends in Genetics
  • 文章作者:Kangmei Zhao | Seung Yon Rhee
  • 文章链接:https://www.sciencedirect.com/science/article/pii/S0168952523000185

Highlights

  • 组学技术能够全面理解生物学过程,并建立基因型与表型之间的关系。
  • 通路富集分析已成为一种标准方法,用于通过识别受显著影响的生物通路来解释各种类型的组学数据。
  • 理解组学数据的内在特征并选择适当的背景集和参考注释数据库对于生成可靠的结果至关重要。

Abstract

  1. 通路富集分析在解释组学数据集和生成假设方面是不可或缺的。
  2. 然而,富集分析的基础对于许多生物学家来说仍然难以理解。
  3. 在这里,我们讨论了使用通路富集分析解释不同类型的组学数据的最佳实践,并强调了考虑各种组学数据内在特征的重要性。
  4. 我们进一步解释了影响通路富集分析结果的主要因素,包括定义背景集和选择参考注释数据库。
  5. 为了提高可重复性,我们描述了如何在出版物中标准化报告方法细节。
  6. 本文旨在作为生物学家利用丰富的组学资源的入门指南,并激励生物信息学工具开发者增强通路富集分析的能力。

Keywords

  • omics; pathway enrichment analysis; metabolism

A classic approach to interpreting omics data: pathway enrichment analysis

Para_01
  1. 组学方法的进展使得能够在基因组层面上分析转录本、蛋白质、代谢物和表观遗传修饰,这有助于建立生物体如何功能和进化的整体观点。
  2. 组学方法的输出通常表现为长长的基因列表或其下游产物,其解释对许多生物学家来说仍然具有挑战性。
  3. 通路富集分析能够识别出在数据集中因机会而富集的代谢通路,这已成为用来解释组学数据集的常规方法。
  4. 这种方法最初是为了分析由微阵列或RNA测序(RNA-seq)产生的转录组谱,然后扩展到探索广泛的组学数据集,例如表观基因组学、全基因组关联研究(GWAS)、单细胞RNA测序(scRNA-seq)和综合组学数据。
  5. 通路富集分析已成为揭示各种类型组学数据背后模式和制定下游实验研究假设的重要组成部分。
Para_02
  1. 尽管这项技术很受欢迎,但通路富集分析背后的原理对许多科学家来说仍然模糊不清,这导致了不恰当的统计检验和不可靠的结果。
  2. 实施正确的方法需要理解各种组学数据的内在数学特征,特别是由新兴技术如单细胞和空间转录组学生成的数据。
  3. 在过去几十年中,已经开发了100多种工具用于富集分析,其性能通过各种基准研究进行评估。
  4. 然而,没有实际指南来指导根据各种类型组学数据集的内在特征选择方法。
  5. 除了统计方法外,输入集、背景基因集(参见词汇表)和参考注释数据库的选择也会极大地影响通路富集分析的结果。
  6. 未能使用适当的背景和最新的注释已经成为进行富集测试的研究中的一个突出问题的。
  7. 例如,最近的一项调查审查了近200篇同行评审的研究文章,这些文章报告了通路富集分析,超过90%的出版物未能实施正确的背景基因集。
  8. 因此,需要讨论通路富集分析的最佳实践,以建立进行测试和报告结果的标准化标准。
Para_03
  1. 在本综述中,我们提供了一个全面的视角,用于使用各种组学数据集进行通路富集分析,并从生物学家的角度解释结果(图1)。
  2. 具体而言,我们解释了不同组学数据集的统计特征,并讨论了在设计通路富集分析时应该如何考虑这些特征。
  3. 我们进一步讨论了背景基因集和注释数据库对通路富集分析的影响,并提供了如何最好地选择这些输入数据的指南。
  4. 最后,我们强调了报告通路富集分析结果所需的方法学细节的重要性,并提供了在出版物中进行方法文档编写的指南。
  • 图1.通路富集分析的三种方法的概述。

Overview of pathway enrichment analysis methodology

Para_01
  1. 在过去的几十年里,已经开发了许多用于进行通路富集分析的工具有三种基于统计方法的分类:(i)基于过表达,(ii)基于功能评分系统(排序),以及(iii)基于通路拓扑的方法(图1)。
  2. 基于过表达的方法需要一个感兴趣的基因列表,并测试是否在这个列表中观察到任何通路比预期随机出现的要多,以预先定义的背景基因集为对照。
  3. 基于排序的方法考虑由不同组学数据集生成的功能信息,例如基因表达水平。
  4. 这类工具首先根据组学研究检测到的信号对总基因集进行排序,例如转录本丰富度,然后测试是否注释到同一通路的基因倾向于在排序列表的顶部(或底部)聚集。
  5. 基于拓扑的方法旨在通过将测量通路内基因位置和基因-基因相互作用的分数整合到富集测试中,来解释通路活性的附加信息。
  6. 这三种方法为解释转录组特征和其他类型的组学数据的通路富集分析工具奠定了基础。

Classic input data: transcriptomics

Para_01
  1. 由微阵列或RNA-seq产生的转录组谱可以在系统规模上量化基因的丰度,这有助于表征未知功能的基因。
  2. 分析转录组数据集的标准工作流程首先是识别在胁迫条件或遗传扰动下差异表达的基因。
  3. 然后,可以差异表达基因的列表或整个转录组谱用于进行通路富集分析,以识别显著影响的生物学过程。
  • 图2. 使用通路富集分析解释各种组学数据类型并记录结果的通用工作流程。
Para_01
  1. 通路富集分析工具实现了上述三种统计方法,用于解释转录组数据集。
  2. 在富集分析中,使用基于过表达的方法的经典示例是,将差异表达基因列表与参考注释数据库(如基因本体(GO)(由PANTHER托管)或京都基因与基因组百科全书(KEGG)[17,28])进行比对。
  3. 这些工具将根据费舍尔精确检验[29],识别输入基因列表中组成基因更丰富的通路。
  4. 基于过表达的方法在概念上很简单,但有几个局限性,例如假设每个基因是独立的,并且需要一个任意的截止值来定义差异表达基因集。
  5. 为了缓解这些挑战,广泛采用了基于排序的方法,基因集富集分析(GSEA)是分析转录组数据集的一种流行方法。
  6. 在GSEA中,基因通常根据感兴趣表型的值进行排序,例如基因表达水平。
  7. GSEA通过首先从上到下扫描排序列表,然后量化注释为此通路的所有基因到排名中间的距离,来计算通路的富集分数[30,31]。
  8. 基于拓扑的方法旨在通过考虑基因的拓扑特征,例如基因在通路中的位置以及与其他基因在共表达或其他功能网络中的连接性[32],来提高通路富集分析的敏感性。
  9. 一种称为基于拓扑的通路富集分析(TPEA)的方法,开发了一个评分系统来衡量基因在通路中的位置、交互数量和表达水平[24]。
  10. 尽管TPEA可能具有高性能,但它需要实验证据来支持通路结构和基因-基因相互作用,这对于许多生物来说是不可用的。
  11. 总之,用户可以根据可用数据集选择通路富集分析工具,并在理解每种方法原理的同时解释结果。

Special considerations of interpreting other types of omics data

Para_01
  1. 除了转录组分析,还发展了各种类型的组学方法来描述生物系统的不同方面,如蛋白质组学、代谢组学、单细胞RNA测序、全基因组关联分析以及表观基因组分析。
  2. 通路富集分析作为一种经典方法,用于利用这些类型的组学数据识别模式。
  3. 然而,蛋白质组学、代谢组学、单细胞RNA测序、全基因组关联分析以及表观基因组数据集的统计分布与基因表达数据不同,如何适应这些独特特征可能对科学界的大部分人来说仍然不明朗。
  4. 在以下各节中,我们解释了这些组数据的内在特征如何影响通路富集分析,并讨论了使用不同类型的组学数据集进行通路富集分析的方法的最新进展。

Proteomics

蛋白质组学

Para_02
  1. 蛋白质组学有助于发现参与相同生物学过程的蛋白质,表征蛋白质复合物的亚基,并识别对不同条件作出反应的后翻译修饰[33,34]。
  2. 由于蛋白质不可扩增,因此蛋白质组的量化比转录组的量化更具挑战性。
  3. 例如,由质谱产生的蛋白质组数据集可能会偏向于检测高表达的蛋白质[34,35]。
  4. 此外,蛋白质通常以复合物的形式工作,给定肽的量化可能取决于其伙伴的共洗脱[34,35]。
  5. 这些偏差可能在重复实验之间以及不同实验中引入变异,这在使用蛋白质组数据集进行蛋白质定量和通路富集分析时应予以考虑。
Para_03
  1. 已经尝试了几种策略来识别富含途径,同时容纳蛋白质组数据集中的高变异性。
  2. 受到基于排名的通路富集分析方法GSEA的启发,一种称为蛋白质集富集分析(PSEA)的方法使用蛋白质差异表达分数来识别富含途径[36]。
  3. PSEA以蛋白质相对丰度(由光谱计数表示)作为输入,并根据条件之间的丰度变化分数对其进行排序。
  4. 然后,它通过计算通路中组成蛋白质到排名列表中间的距离之和来计算通路的富集分数[36]。
  5. PSEA有助于考虑条件之间蛋白质定量变化的变异性,但它不是用于分析通过基于标签的蛋白质定量技术获得的数据集的。
  6. 为了填补这一空白,另一个工具,称为PSEA-Quant,可以识别由基于标签和标签自由的蛋白质定量方法生成的蛋白质组数据集中富含的途径。
  7. PSEA-Quant首先通过整合蛋白质在重复实验中的平均丰度和变异性来计算每个蛋白质的富集分数[37]。
  8. 然后,它使用此分数对数据集中的所有检测到的蛋白质进行排名,并给予那些显示高丰度和低变异性的蛋白质更高的权重。
  9. 通路的富集分数由其组成蛋白质的加权富集分数之和表示[37]。
  10. 富集的统计显著性是通过将每个通路的富集分数与通过在数据集中随机抽样蛋白质组装的零分布进行比较来确定的[37]。
  11. 这些工具可能有助于减轻蛋白质组数据集的变异,并识别出富含稳健蛋白质丰度测量的途径。

Metabolomics

代谢组学

Para_02
  1. 代谢组学系统地量化生物系统中的小分子,这对于识别对疾病和环境信号的代谢反应以及发现经济上重要化合物的生物合成途径至关重要。
  2. 代谢物的量化依赖于化学标准品或通过串联质谱产生的化合物的裂解模式进行分析。
  3. 高通量化合物注释是分析代谢组数据集的主要瓶颈,这使得代谢组谱比转录组更为稀疏和模糊。
Para_03
  1. 有两种通路富集分析方法可用于解释代谢组学数据集。
  2. 第一种策略需要在通路富集分析之前,根据化学标准对化合物进行注释,或者通过搜索如质荷比(m/z)或串联质谱产生的碎片模式等代谢特征,对代谢物库进行搜索。
  3. 一个代表性的方法是称为代谢组学通路分析(MetPA),它依赖于化合物注释和网络拓扑来识别富集的通路。
  4. 该方法首先将通路转换为以代谢物为节点、反应为边的代谢网络。
  5. 然后,它通过考虑(i)由代谢组学分析测定的丰度变化,以及(ii)在网络中使用相对介数中心性和度中心性度量来计算化合物的"重要性"。
  6. 富集的通路是通过将通路注释的"重要"代谢物的频率与费舍尔检验预期的频率进行比较来确定的。
  7. 这种方法仅限于那些已有网络拓扑和化合物注释先验知识的生物体。
  8. 为了进一步利用无目标代谢组学产生的丰富信息,开发了一种名为‘Mummichog’的方法,它可以绕过化合物注释,直接预测显著影响的谱特征(由m/z和保留时间表示)富集的通路。
  9. 该方法假定,如果一组谱特征代表生物活动,那么它们更有可能被注释到功能相关化合物,而不是在代谢网络中随机分布。
  10. Mummichog首先从无目标代谢组学捕获的总特征中确定了一组在样本之间显著变化的谱特征。
  11. 然后,它通过比较将显著改变的谱特征注释到通路的概率与将特征随机分配到该通路中的化合物的概率来识别富集的通路。
  12. 这种方法可以作为初始功能分析,以解释由高通量无目标代谢组学产生的数据集。
  13. 然而,它可能不如传统的富集分析工具准确,并且需要下游的 分析化学来确定与感兴趣表型相关的特定代谢物。
  14. 尽管如此,通路富集分析将代谢物谱转换为生物学过程,这可能有助于表征与感兴趣表型相关的酶和代谢物。

Single-cell RNA-seq

单细胞RNA测序

Para_02
  1. 单细胞RNA测序(scRNA-seq)能够生成高分辨率的基因表达测量数据,这有助于发现细胞类型特异性、细胞反应以及细胞间通讯的新机制。
  2. 由于每个细胞内的RNA含量较低,因此与传统的整组织转录组分析相比,scRNA-seq数据较为稀疏且噪声较大。
  3. 高缺失率(例如,许多低于检测阈值的表达值)改变了基因表达数据的分布,这影响了识别差异表达基因和富集通路的统计分析。
Para_03
  1. 处理稀疏数据集的一种策略是利用相似基因之间的表达模式。
  2. 一种名为‘iDEA’的方法通过同时进行所有在scRNA-seq轮廓中检测到的基因的差异化基因表达和通路富集分析来实现这一想法。
  3. 通过贝叶斯层次建模计算某个基因差异表达的概率是否高于随机预期的概率。
  4. 然后,通过计算通路包含更多差异表达基因的概率高于将这些基因随机分配到通路的零分布,来识别富集的通路。
  5. 将这种方法应用于人类胚胎干细胞的scRNA-seq轮廓,结果显示iDEA可以比流行的针对bulk RNA-seq开发的方法更准确、更全面地识别与胚胎发育功能相关的通路。
  6. 这些资源有助于在单细胞分辨率下识别通路活动的异质性,这可能有助于工程化生物过程和发展新的治疗策略。

Genome-wide association studies

全基因组关联研究

Para_02
  1. 除了转录组分析,全基因组关联分析(GWAS)被广泛用于建立基因型与表型之间的关系。
  2. GWAS通过计算遗传多样性与表型变异之间的相关性,预测单核苷酸多态性(SNPs)是否与感兴趣的表型相关。
  3. 这种分析会得到一份长长的候选SNPs列表,这给后续的实验验证带来了阻碍。
  4. 通路富集分析可以作为GWAS的一个正交方法,通过识别与特定性状相关的SNPs所注释的生物学过程,其出现频率超过了随机概率。
  5. SNP-GSEA是一种实现此策略的工具,它使用SNPs作为输入来识别富集的通路。
  6. 其目的是消除SNPs与性状之间的随机关联,并优先考虑具有功能特征的生物学过程。
  7. 尽管概念上直接明了,但SNPs具有独特的特性,这在进行通路富集分析时应予以考虑。
  8. 首先,与直接测量个体转录本丰度的基因表达数据集不同,SNPs并不总是能映射到基因,因为它们可以位于编码区和非编码区。
  9. 此外,SNPs在基因组中的分布并不均匀,这影响了应如何选择用于通路富集分析的统计方法。
Para_03
  1. 有几种方法可以使用GWAS数据进行通路富集分析,同时考虑上述描述的特征。所有这些方法首先需要将SNPs映射到基因。
  2. 最近,一种称为回归摘要统计富集分析(RSS-E)的方法已经被开发出来,它通过实施贝叶斯多元回归模型来使用SNPs进行通路富集分析[8]。
  3. 这种方法检验了映射到同一通路的SNPs是否比随机分配到特征的SNPs的基线分布更有可能与同一特征相关[8]。
  4. 此分析使用所有SNPs作为输入,无论其效应量大小,这有助于识别与特征相关的新基因。
  5. 这个工具的性能使用人类的1.1百万HapMap3 SNPs针对31个特征进行了基准测试,它恢复了通路和特征之间的已知关联。
  6. 它还建立了新的通路-特征联系,这可能有助于开发新的研究线索,进一步剖析这些特征的遗传基础[8]。

Epigenomics

表观基因组学

Para_02
  1. 组蛋白和DNA上的表观遗传修饰在许多生物体的生长和适应中起着至关重要的作用。
  2. 表观遗传修饰的基因组规模图谱对于理解基因表达的调控机制是必不可少的。
  3. 当前处理表观基因组数据集的工作流程首先识别具有显著改变表观遗传修饰的基因组位点,然后注释这些区域到最近的基因。
  4. 生成基因列表后,可以进行通路富集分析,以确定在不同修饰基因中富集的生物学过程。
  5. 然而,这些传统方法可能无法产生稳健的结果,因为它们忽略了表观基因组数据集的固有特征。
  6. 例如,有几项研究表明,差异修饰基因的识别倾向于长基因,因为它们在测序过程中产生了更多的读数。
  7. 此外,对于DNA甲基化谱,大约10%的甲基化热点(称为CpG岛)可以映射到多个基因。
Para_03
  1. 几种策略试图在执行通路富集分析时考虑表观基因组数据集的内在特征,其中大多数是针对处理DNA甲基化谱设计的。
  2. 一种名为‘ebGSEA’的方法实施了一种基于排序的方法,使用DNA甲基化谱作为输入来识别富集的通路。
  3. 它首先根据所有基因甲基化丰富度的整体变化对它们进行排序,然后使用这个排序后的基因列表进行富集分析,以识别包含比随机预期更多差异甲基化基因的通路。
  4. ebGSEA考虑了DNA甲基化变化程度对通路富集的影响。
  5. 然而,它并没有解决同一CpG位点可映射到多个基因的问题。
  6. 另一种方法,名为‘GOmeth’,通过执行针对CpG位点的实证分析来解决由基因长度和多位点映射引起的偏差。
  7. 具体来说,基因上每个CpG位点的贡献是根据该CpG注释到的基因数量进行归一化,从而消除了多位点映射的影响。
  8. 映射到同一基因的所有CpG的权重被求和并按基因长度归一化,以解释基因大小偏差。
  9. 富集的通路是基于Wallenius的非中心超几何分布来识别的,这是超几何分布的广义版本,其中可以考虑对样本偏差进行校正。
  10. 这种方法使用模拟的和公开可用的甲基化数据进行了基准测试,并且与几种其他现有方法相比,能够识别出最具生物学相关性的术语和通路。
  11. 总的来说,更好地理解与表观基因组数据集相关的统计特征可以提高通路富集分析的敏感性和稳健性。

Integrated omics

整合组学

Para_02
  1. 不同的组学数据集描述了分子生物学中心法则的不同方面,整合这些资源可能为剖析发育和疾病背后的遗传基础提供新的见解。
  2. 例如,发现导致不同类型癌症的驱动突变对于开发有效的治疗策略至关重要。
  3. 通过整合遗传变异和转录组分析,有助于生成不同类型癌症的高置信度驱动突变目录。
  4. 综合组学代表了一种新兴且强大的策略,可以通过数据融合生成假设。
  5. 然而,整合过程将生成高维数据集,这使得数据解释和后续分析更具挑战性。
  6. 需要新的工具来进一步利用多组学数据集中嵌入的大量信息,例如识别在一组具有特定基因组特征的基因中富集的通路。
  7. 最近开发了一种名为‘ActivePathway’的方法,用于使用多组学数据集进行通路富集分析。
  8. 此方法直接汇总由处理单个组学数据生成的p值,例如差异基因表达和基因必要性分析,然后使用Fisher的综合概率检验生成代表每个基因显著性的代表性p值。
  9. 然后根据用户定义的截止值对代表性p值进行排序和过滤。
  10. 使用排序的超几何检验进行通路富集分析,以检查包含具有低代表性p值的基因的给定通路是否超过偶然预期。
  11. 这种方法被应用于通过整合转录组和基因拷贝数改变来识别与乳腺癌预后相关的通路。
  12. 结果显示,乳腺肿瘤细胞及其周围微环境中的免疫活性影响预后。
  13. 与仅使用单个组学数据集相比,实施多组学数据集识别出了功能相关通路的最为全面的列表。
  14. 这些研究证明了综合组学在发现生物学过程的系统理解方面的强大能力。
  15. 随着组学数据集的快速积累,开发具有高效率和计算能力的新工具对于进一步利用组学资源将至关重要。

Input sets, background sets, and reference annotation databases

Para_01
  1. 除了为各种类型的组学数据选择合适的方法外,准确的输入集和背景集以及合适的参考注释数据库代表了稳健的通路富集分析的另外几个主要组成部分。
  2. 输入集和背景集都应根据感兴趣的生物学问题来定义,并反映组学方法捕获的实际基因数量。
  3. 参考注释数据库提供了将基因组织到通路的基础设施,这决定了通路是如何定义的以及每个通路具有的基因数量。
  4. 在本节中,我们将解释这两个组件如何影响通路富集分析,并为选择合适的背景集和参考注释数据库提供实际指导。

General considerations for input data

输入数据的总体考虑

Para_02
  1. 组装一个有意义的输入集合是使用通路富集分析解释组学数据集的前提条件。
  2. 输入集合选择的一般过程包括预处理由不同组学方法测量的原始信号,然后通过考虑实验设计和应用严格的统计测试来确定基因列表(或蛋白质,代谢物,基因组区域)[6]。
  3. 通过消除不相关基因来精炼输入基因集可能有助于提高通路富集分析的性能[6,64]。
  4. 例如,如果研究者旨在使用富集分析识别与疾病相关的新通路,那么将输入基因列表过滤为仅关注与已知与该表型相关的基因有相关性或物理相互作用的基因可能会产生更准确的结果[64]。
  5. 这些实践通常适用于使用通路富集分析方法分析组学数据集。

Impact of the background set

背景集的影响

Para_02
  1. 选择一个合适的背景集对于回答感兴趣的生物学问题在富集分析中至关重要。
  2. 在通路富集分析中最常使用的背景集是物种中注释的总基因数(或蛋白质数)。
  3. 这是不准确的,因为只有这些基因(或蛋白质)中的一小部分可以在实验中被捕获。
  4. 为了证明背景集对结果的影响,使用七个RNA-seq表达谱分别采用基因组中的总基因数和正确的背景集进行了通路富集分析。
  5. 结果显示,平均只有44%的富集通路在使用这两种不同背景集的分析中是共同的。
  6. 因此,通路富集分析的一个准确的背景集应该只包括那些转录本(或蛋白质)水平高于噪声阈值的基因数量,而不是基因组中的总注释基因(或蛋白质)数量。
Para_03
  1. 背景集应在感兴趣的生物学问题的基础上进一步评估和定制。
  2. 如果研究仅关注基因组中的一部分基因,例如代谢或信号传导基因,那么在组学研究中检测到的总基因可能不适合作为背景集。
  3. 例如,进行了富集分析,以检查与特殊代谢相关的基因是否与相对于其他类型代谢基因的特定表观遗传修饰模式相关[66]。
  4. 在这项分析中,选择了总代谢基因作为背景集,而不是表观基因组分析中检测到的总基因[66]。
  5. 总之,背景集应根据不同组学方法检测到的基因数量(或其他目标)以及生物学问题的范围来定义[2]。

Impact of reference annotation databases







请到「今天看啥」查看全文