专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信人  ·  DeepSeek刷屏,其实只是开始 ·  2 天前  
生物学霸  ·  杀疯了!DeepSeek ... ·  昨天  
生物学霸  ·  蒲慕明院士:物理学出身的神经科学家 ·  3 天前  
生信人  ·  顶刊聚焦新热点:糖皮质激素 ·  6 天前  
生信人  ·  Cancer ... ·  5 天前  
51好读  ›  专栏  ›  生信菜鸟团

读书笔记 | 微阵列数据的网络分析,理论基础知识

生信菜鸟团  · 公众号  · 生物  · 2024-10-03 09:30

正文

书名 :Microarray Data Analysis
编辑 :Giuseppe Agapito
年份 :2022
出版社 :HUMAN PRESS
ISBN :ISBN 978-1-0716-1839-4

微阵列数据的网络分析

作者

  • Alisa Pavel, Angela Serra, Luca Cattelani, Antonio Federico,and Dario Greco

摘要

  1. DNA微阵列 被广泛用于研究 基因表达 。尽管传统的微阵列数据分析基于 差异表达基因 的研究,但众所周知,基因并非单独起作用。 网络分析 可用于研究生物系统中基因的 关联模式 。此外,它在不同系统之间的 差异共表达分析 中具有广泛应用。
  2. 基于网络的共表达研究已被用于(复杂) 疾病基因优先排序 疾病亚型划分 患者分层
  3. 在本章中,我们概述了用于从微阵列数据创建网络的方法和工具,并描述了多种分析 单个网络 网络组 的方法。所描述的方法涵盖从 拓扑指标 功能组识别 数据整合策略 拓扑通路分析 以及 图模型

关键词

  • Microarray, Coexpression, Differential coexpression, Multilayer networks, Pathways

引言

  1. 大规模转录组分析的最终目标

  • 例如, DNA微阵列 的应用
  • 表征特定生物条件下的分子变化 [1, 2]
  • 传统单变量分析的局限性

    • 转录组学分析能够识别在特定条件下 上调或下调的数百个基因
    • 单个基因的变化 可能无法展示 系统中复杂的相互作用 [3]
  • 共表达网络分析的优势

    • 描述基因-基因相互作用 ,以支持表型的理解
    • 在大规模转录组实验中,基于网络的分析可以 表征个体基因之间基于表达水平的机制性相互作用 [4–7]
    image
    1. 共表达网络的构建

    • 利用广泛的 网络拓扑属性 生成关于系统的新知识[8, 9]
    • 社区检测或模块检测 可发现 紧密连接的基因区域 (见图1g),并通过 通路或基因本体富集 进行功能性表征(见图1h)[10]
    • 多网络比较 可以提供关于 特定功能、单个基因或基因邻域 在多种条件下是否受到影响的见解
    • 基于 微阵列测量的基因表达估计值 构建共表达网络(见图1a–c)
    • 基因和它们的关联 以图的形式表示,基因作为网络的节点,相似性的强度通过 加权或无权边 连接
    • 网络表示的优势
  • 与其他先验信息的整合

    • 使用 DNA微阵列数据 构建的共表达网络可以与其他先验信息(如 蛋白质-蛋白质相互作用(PPI)网络 共同调控网络 )整合,以提高结果的 鲁棒性 (见图1d)[11]
    • 基于 基因或其蛋白质直接相互作用或共同调控 通常属于相同的 生物功能 ,因此 可能共表达 [12]
    • 在网络生成过程中添加这些信息,允许算法 检测噪声相关模式
    • 网络分析也可应用于 多组学数据分析 ,使用来自不同(实验)数据层的 互补信息 构建生物系统的 综合网络图
  • 基因优先级排序方法的发展

    • 考虑 网络的拓扑结构
    • 利用 组成网络的基因的先验信息 [15]
    • 自从 DNA微阵列技术 成为研究复杂(或多因素)疾病的关键工具,这些疾病由涉及大量基因的 复杂相互作用和扰动 导致,基因 优先级排序方法 的发展迅速[13]
    • 这些方法旨在通过利用 大规模组学研究 发现和优先排序候选疾病相关基因标记 [14]
    • 通过 基于网络的方法 进行基因优先级排序已成为相当流行的工具
    • 另一个理解分子关系的复杂层面在于大多数 细胞过程通过关键基因相互连接 (见图1f)
    • 网络分析 帮助生物医学研究人员 识别和优先排序 这些关键基因
    • 两种最广泛使用的策略:
  • 网络理论在疾病子类型划分中的应用

    • 近年来,大量 大规模数据 的可用性使得多种 人类疾病 ,特别是 多因素疾病 ,能够定义 “疾病子型” [16]
    • 尽管某种疾病在受影响人群中具有 相似的表型特征 ,但 个体患者很少表现出相同的分子构成
    • 这在 复杂疾病 如癌症以及 代谢和免疫综合征 中尤为明显[17]
    • 癌症生物学研究 为例, 识别患者子型 是一个核心研究主题,旨在 发现新的药物靶点 并从 传统治疗方法(单一疾病-单一疗法)转向****准个性化的药物治疗(单一疾病-多种疗法)
    • 某些癌症类型的 组织学子型 已被很好地建立[17]
    • 相比之下,从 分子角度进行癌症子型划分 可能不那么明显,原因在于癌症中的 分子变化异质性
    • 通过 整合分子网络与突变谱 ,可以实现 临床相关子型的肿瘤分层
  • 本章内容概述

    • 定义图或网络的概念
    • 描述构建基因共表达网络的算法 及其 基于网络拓扑的相关节点和边的识别指标
    • 涉及 通路富集分析的基本概念
    • 差异共表达分析
    • 在生物网络上使用图形模型

    图的概念

    image
    1. 图的定义

    • 一个图 ( G = (V, E) ),由一组 节点(V) 和一组 边(E) 组成。
    • 例如,图2a中的 节点集 为[w, x, y, z], 边集 为[yw, yx, yz, xz]。
    • 边wy连接两个节点[w, y],用于 建模节点w和节点y之间的关系
  • 无向网络

    • 无向网络 中, yw = wy
    • 这意味着 任何边都没有方向 ,可以 双向遍历
    • 例如,在图2a中,可以通过边yw从w到y,也可以通过边wy从y到w。
  • 有向网络

    • 有向网络 中,每条边都有一个 方向 ,图只能 按该方向遍历
    • 例如,在图2b中,可以通过边yw从y到w,但 无法通过wy从w到y ,因为不存在边wy。
  • 边的权重属性

    • 大的值可以表示 更大的距离 更高的相似性 (例如,边属性为相关性时)。
    • 权重属性不必限制在[0,1],可以在 任意范围内 ,由用户定义。
    • 例如,在图2a中,从节点y到节点x或节点z的“成本”相同。
    • 在图2c中,边zx的“成本”比边yx的“成本”更低。
    • 边可以关联权重属性 ,例如,表示节点y和节点w之间的 距离 相关系数
    • 无权网络 中,每条边被视为相等, 不分配权重属性
    • 权重属性的含义 取决于用户定义:
    • 用户需 确保算法正确解释边属性
  • 二元网络表示

    • 边权重为1表示 该边存在
    • 边权重为0表示 该边不存在
    • 二元网络表示 中,边的权重为 1或0

    基因共表达网络的算法

    1. 微阵列实验分析的结果

    • 允许 研究基因在实验条件下的共同行为
    • M行 代表 基因
    • N列 代表 样本
    • 归一化表达矩阵 ( D )
    • 从该矩阵构建 基因共表达网络
  • 共表达网络的定义

    • 信息理论方法
    • 相似性评估
    • 皮尔逊相关系数
    • 互信息(MI) [18, 19]
    • 正值 :基因表达模式 相似
    • 负值 :基因表达模式 相反
    • 连续值范围 :-1到1
    • V M个节点 ,代表 基因
    • E 边集 ,代表 所有基因对之间的共表达
    • ( G = (V, E) )
    • 假设 表达模式相似的基因 共表达的
    • 共表达计算方法
  • 加权无向全连通图

    • 微阵列数据 容易受到 噪音 实验偏差 的影响
    • 需要 区分真实边 噪音边 [20]
    • 加权 无向 全连通
    • 每对基因之间 存在一条边
    • 边的性质
    • 噪音问题
  • 边的筛选方法

    • 用户定义阈值 ,切除权重低于阈值的边
    • 假设
    • 缺点
    • 低相关或互信息值 可能由 噪音引起
    • 高值 可能包含 有意义的信息
    • 阈值选择任意
    • 不考虑 网络的拓扑结构
    • 每条边独立处理
    • 简单阈值法
  • 高级算法

    • 不同算法通过 不同启发式方法 筛选 非相关边
    • 在相同数据集上执行时, 结果网络可能不一致
    • 计算互信息
    • 计算每个互信息值在 网络背景分布中的统计概率
    • 选择显著高于背景分布的互信息值 作为 最可能的相互作用
    • 使用互信息和相关系数
    • 计算 所有基因对的共表达值
    • 减少假阳性连接 ,通过 剪切每组三元组中的较弱关联
    • 两步法
    • RelNet [21]
    • ARACNE [22]
    • CLR [23]
    • 算法差异
    1. 创建 完全连接的基因共表达矩阵 ,计算所有基因对的 互信息
    2. 定义 TMI阈值 ,识别 显著关联
  • INfORM工具 [10]

    • 提供 图形用户界面
    • 指导用户 进行 算法设置和执行
    • 集成策略 ,结合 多个算法的结果
    • 基因排名 ,根据 相关性进行排序
    • 合并网络 ,确保 基因-基因关联的鲁棒性
    • 目的 :推断 更稳定和鲁棒的网络
    • 方法
    • 优势

    局部和全局连通性测量

    1. 真实网络的拓扑性质研究

    • 含有少数 枢纽节点 ,具有大量边
    • 大多数节点具有较少边
    • 真实网络 (如万维网或分子网络)遵循 无标度幂律分布
    • 随机网络 遵循 高斯分布
    • 1999年, Albert-László Barabási Réka Albert 发表了一项研究 [24]
    • 他们发现 真实网络 随机网络 在连通性上存在差异
    • 无标度网络 特征:
  • 局部和全局网络指标

    • 不同方法 评估节点的重要性(如信息流)
    • 建议 结合多种测量方法
    • 目标 :量化节点基于 网络拓扑 的重要性 [25]
    • 帮助识别 对其他基因有高影响力的基因 (如 关键调控基因 ),可能是 治疗的良好靶点 [26, 27]
    • 各种测量方法(见表1):
    image
    1. 生物网络中的指标解释
    • 节点w具有最高的 特征向量中心性
    • 节点c具有最高的 接近中心性
    • 节点x具有最高的 中介中心性 ,因为所有两个紧密连接组之间的流量都需要通过它
    • 中央性指标 不仅考虑节点的直接连接,还考虑其在网络中的整体位置
    • 比较多个网络时,可识别 整体连通性显著变化的基因 ,可能受研究条件影响 [34, 36]
    • 使用 强度测量 代替度测量
    • 添加关于 节点间相关性强度 的信息
    • 比较不同组织或处理条件下的 共表达网络
    • 使用 度分布 评估系统是否发生了显著扰动或比较基因的 分位数位置 [34, 35]
    • 表示蛋白质在生物系统中的已知相互作用
    • 节点为蛋白质,关系表示已知的 相互作用 (如酵母双杂交分析)
    • 高连接度节点 枢纽基因 )可能是 重要调控因子 (如 转录因子
    • PPI网络 共表达网络 中:
    • PPI网络
    • 多网络比较
    • 加权网络 (如加权共表达网络):
    • 中心性指标
    • 示例 (图3):
    image
    1. 全局网络测量
    • 图元分布 :不同的 图元 与PPI网络中的不同生物功能相关
    • 环路分布 :存在环路可能表示 生物调控网络中的反馈回路 [42, 43, 47]
    • 快速 比较多个网络
    • 例如,量化 处理 是否与 对照网络 相比有特殊影响
    • 低密度网络 可能表明 失去稳态 [46]
    • 旨在 量化网络的整体拓扑结构 ,不考虑个别节点
    • 有助于 比较多个网络 比较缺少大量共同基因的网络
    • 全局网络测量 (见表2):
    • 结构性测量
    • 图元分布 环路分布
    image

    社区检测算法

    image
    1. 社区检测算法的目标

    • 节点组 w、z、x 在拓扑上 紧密连接
    • w、z、x 组之间 外部边较少 ,因此可描述为 三个独立社区
    • 将图的节点分组 社区 ,基于不同的 属性
    • 社区 定义为 内部连接紧密 ,与网络其他部分的 外部连接较少
    • 示例 (图4):
  • 社区的定义与分类

    • 节点聚类算法
    • 重叠社区检测算法
    • 概率社区检测算法
    • 边聚类算法
    • 为每个节点分配特定社区
    • 允许节点属于多个社区
    • 估计节点属于社区的概率
    • 类似节点聚类 ,但 对边进行分组
    • 节点集 ( C = {n_1, n_2, \dots, n_n} )
    • 节点 可以 属于单一社区 多个社区
    • 社区 (或称 模块 )定义:
    • 社区检测算法的分类 (表3):
  • 社区检测算法的详细分类

    • 根据研究问题和网络类型 选择适合的算法
    • 生物网络 常需考虑 节点的多重功能
    • 加权算法
    • 无权算法
    • 考虑边的权重
    • 视所有边为相等
    • 加权与无权算法
    • 选择算法的依据
  • 共表达网络中的社区检测

    • 利用边权重 (如 相关性值 )增强 社区分组的准确性
    • 挑战 :可能 增加计算复杂度
    • 节点聚类 为主,但 节点多社区归属 在生物网络中常见
    • 功能富集 网络的 部分区域
    • 假设 拓扑上接近的节点 属于 同一过程 (如同一路径的基因)
    • 社区分组的优势
    • 常用方法
    • 加权社区检测
  • 社区划分的评估指标

    • 根据选择的社区检测算法 选择 适当的评估指标
    • 多重评估参数 :推荐 多角度评估划分质量
    • 集成社区检测方法
    • 结合多种划分结果 ,识别 共识划分
    • 优点 结合不同算法的优势 提升社区划分的鲁棒性
    • 缺点 计算成本较高
    • 不同算法 基于 不同参数 识别 最佳划分
    • 评估参数 侧重于 不同的质量指标
    • 评估“社区划分质量”的指标 (表4)
    • 评估策略

    通路富集分析

    1. 基因水平的差异表达分析局限

    • 无法捕捉基因表达失调的功能性影响
    • 需要更丰富的方法 ,将 贡献于单一生物功能的基因 进行 联合分析
  • 通路分析的定义与目的

    • 细胞过程中功能性相互作用的简化表示
    • 多个不同性质的参与者 (如蛋白质、代谢物)通过 功能关系 连接(例如, 蛋白质-蛋白质相互作用
    • 通路分析 是一种 分析程序 ,帮助 阐明维持特定表型的功能性相互作用的破坏
    • 通路
  • 利用生物功能关联数据库

    • 基因集合 分组到 通路或生物功能
    • 功能性表征 一组相关基因(如 差异表达基因 特定社区中的基因 ),而非单独研究
    • KEGG(京都基因与基因组百科全书) [68, 69]
    • Reactome [70]
    • Biocarta [71]
    • PANTHER [72]
    • 将组学实验的分子发现与特定表型关联 的常见方法
    • 常用数据库
    • 数据库内容
  • 富集方法

    • 基于基因排序列表 评估一个或多个通路的富集
    • 使用Kolmogorov–Smirnov检验 [75]
    • 常用统计方法
    • 富尔确切检验(Fisher exact test)
    • 卡方检验(chi-square test)
    • 超几何检验(hypergeometric test) [73]
    • 经典富集方法 依赖于 统计检验 评估 通路或功能组中基因的过度表达 统计显著性
    • 基因集富集分析(GSEA) [74]
    image
    1. 拓扑学方法的发展
    • 整合拓扑信息 的首个方法
    • 考虑两项属性
    • 实现工具
    • Pathway-Express包 (现包含在 ROntoTools 中,https://rdrr.io/bioc/ROntoTools/)
    • 后续工具 SPIA [78]、 graphite [79]、 ROntoTools [80]
    • 考虑基因在通路中的位置 信号的类型和方向
    • 优势 假设检验更准确 [66, 76]
    • 从非拓扑学方法转向拓扑学方法
    • 影响分析(Impact Analysis) [77]
    1. 基因失调的幅度 (通常表示为 对数倍数变化
    2. 基因-基因相互作用在通路中的位置和类型
    image
    1. 拓扑学与非拓扑学方法的比较
    • 发现
    • 研究结果
    • 基于拓扑学的工具通常表现更好
    • 具体表现取决于工具和比较的具体方面
    • 在真实病理数据的通路排名 中, 非拓扑学的PADOG算法 [81]表现最佳
    • 在敲除实验数据 中, 基于拓扑学的ROntoTools 表现最佳
    • 在零假设下的p值分布 中, 非拓扑学的GSEA [74]是 唯一无偏的方法
    • Nguyen等人 [66]对 五种基于拓扑学的通路分析工具 八种非基于拓扑学的工具 进行了比较

    差异共表达分析

    1. 差异共表达分析的目标

    • 在不同实验设置(如 疾病与对照 )中, 差异共表达的基因 更可能是 关键调控因子
    • 这些基因 可能解释表型之间的差异 [82–85]
    • 识别两个或多个共表达网络结构中的显著差异
    • 假设
  • 基本方法

    • 识别在多个实验条件下 其他基因的关联发生变化的基因
    • 策略分类
    • 全局方法 :比较一个基因与 所有其他基因 的表达模式
    • 局部方法 :比较一个基因与 部分基因 的表达模式
    • 混合方法 :结合 全局和局部测量 [35, 88]
    • 对每个网络中的基因 根据一个或多个 中心性指标 (如 度中心性 进行排名
    • 比较这些排名 ,识别 仅在一个共表达网络中排名靠前的基因 [25, 86, 87]
    • 最简单的方法
    • 其他基因基于的方法
  • 具体方法

    • DiffRank
    • 结合 局部和全局差异关联测量 [94]
    • DCloc [89]
    • DCp [90]
    • DCe [90]
    • DiffK [91]
    • 差异基序中心性 [25]
    • RIF [92]
    • 基于相关向量的指标 [93]
    • DCglob [89]
    • N-statistic [83]
    • 全局基因方法
    • 局部基因方法
    • 混合方法
  • 复杂方法

    • 简单比较
    • 模块结构比较 (图7b):
    • 更复杂的模式
    • 模块的存在或不存在 (图7a)
    • 说明某一 生物过程 在特定实验条件下 可以或不可以执行
    • 识别两个网络中共同的模块
    • 比较它们的连接结构
    • 示例 :同一生物功能由不同的 关键基因 驱动
    • 一组基因从一个社区跳转到另一个社区
    • 一个社区在一个网络中存在,在另一个网络中被分裂成多个社区
    • 社区分裂 (图7c):
    • 基因跳跃 (图7d):
    • 通过识别每个网络中的社区并进行比较 (见图7)
  • 工具

    • WGCNA [95]:
    • DICER [82]
    • DiffCoEx [96]:
    • DINGO [97]:
    • CoXpress [99]:
    • GSCA [98]:
    • 其他方法 (仅适用于二元比较和已知基因集):
    • 模块识别 ,计算 模块在子样本群体中的重要性
    • 识别新模块 ,允许 多条件间比较
    • 基于基因在特定条件下的不同表现 进行分组
    • 仅能比较两个实验条件之间的模块
    • 从已知基因列表开始 ,根据 差异共表达评分 进行排名
    • GSNCA [100]
    • CoGA [101]
    • dCoxS [102]
    • DiffCorr [103]
    • 模块级差异共表达分析工具
    image
    1. 应用实例
    • 识别特定组织或疾病状态独有的网络 [104, 46]
    • GTEx项目 [105]:
    • 通过 识别组织特异性网络中共表达强度增强的模块
    • 定位这些模块的中心枢纽 发现转录因子
    • 识别 位于模块边缘的组织特异性基因
    • 组织特异性转录因子 组织特异性基因 高表达共同
    • 组织特异性基因 位于 网络边缘
    • 转录因子 位于 网络中心
    • 收集了35种不同人类组织的多重表达数据
    • 基于每种组织的平均基因表达 生成 单一综合共表达网络
    • 发现
    • 方法
    • 成功案例

    图的整合策略

    1. 数据整合策略的目的

    • 增加微阵列分析的鲁棒性
    • 辅助分析过程 [106–109]
    • 利用生物领域中已有的交互网络知识库 ,包含 基因间关系的有价值信息 (如 蛋白质-蛋白质相互作用网络 调控网络 )[68–70, 110–113]
    • 结合微阵列数据分析结果与这些生物网络 ,可以 检测隐藏的关系和功能性影响
  • 具体应用示例

    • 调查 在这两个基因集之间 响应传播的可能性较高的基因
    • 对于 化学物质/药物 ,可从 CTD [114] 或 DrugBank [115] 获取
    • 调查 观察到的响应中 可能涉及的其他基因 [11]
    • 将差异表达基因与蛋白质-蛋白质相互作用网络结合
    • 添加关于处理条件下的直接蛋白质互作者的信息
    • 映射识别的互作基因集到蛋白质-蛋白质相互作用网络
  • 网络创建过程中的知识整合

    • 避免基于整合过程中使用的相似数据评估最终结果 ,以防 引入偏差
    • 例如,不应基于 已知同一通路中的两个基因 评分边 ,然后进行 社区检测 通路富集分析
    • 引导 在简化步骤中 保留或舍弃相关边






    请到「今天看啥」查看全文