Chapter 4: Bioinformatics tools and standards for systems biology
目录
-
-
-
-
-
-
4.4 计算系统生物学工作流中的质量控制与可重复性
-
-
-
-
-
-
-
前言
系统生物学在准备高通量实验和使结果易于进行生物分析和建模方面,严重依赖于许多初步步骤。尽管这些步骤本身并不是我们通常所定义的系统生物学的一部分,但它们对于实现系统生物学方法至关重要(Ghosh 等,2011)。因此,本章概述了在典型分析工作流程(图4.1)中使用的生物信息学工具和标准,该工作流程包括以下步骤。一旦提出了生物和/或临床问题(①),就定义实验设计以有效回答所提出的问题(②)。然后,进行高通量实验(③)。扫描仪通常分析微阵列*、测序载玻片或表型筛选,并产生图像,这些图像使用适当的算法进行处理,以量化原始信号(④)。接下来是归一化步骤,旨在纠正系统性的变异源,以改善信噪比(⑤)。在图像分析和归一化步骤(⑥)的层面上检查数据的质量。在这个阶段,归一化后提供的信息仍然是粗略的。必须从数据中提取对生物学家有意义的生物信息(⑦)。一旦提取了相关信息,数据可以在横向分析中用于进行临床生物统计学、分类或系统生物学方法(⑧)。最后,结果需要被验证、解释,并可能导致新的实验(⑨)。生物信息学工作流程和计算系统生物学方法是涉及数据获取和预处理、建模和分析的循环过程。知识的整合和共享有助于维持这一循环的能力,以预测和解释生物系统的行为。因此,为了成功,工作流程强烈依赖于使数据注释(❶)、管理(❷)和计算(❸)的支持过程。在本章中,将描述步骤 ②、⑤、⑥ 和过程 ❶、❷、❸。步骤 ⑦ 和 ⑧ 将从第 5 章到第 12 章。本书不涉及图像分析,但读者可以参考 Fraser 等(2010)和 Novikov 与 Barillot(2007)。最后,本章说明了如何从文献和数据库中提取知识,并使用计算系统生物学中使用的适当标准和软件进行可视化。
image-20241102063228509
图 4.1 用于分析高通量实验的生物信息学工作流程。典型的生物信息学工作流程通常包括步骤 ① 到 ⑨,并且高度依赖于支持过程 ❶ 到 ❸。
4.1 实验设计
实验设计是科学方法的重要组成部分。同样,它也是系统生物学方法的一部分,但许多所使用的技术常常被认为超出了系统生物学的范围,因为它们属于另一知识体系的一部分,并且与经典统计学相关。尽管自上世纪初以来,实验设计在工业和农业试验中就有着悠久的传统,但实验设计步骤仍然常常被忽视。实验设计领域的先驱之一罗纳德・艾尔默・费舍尔爵士在 1938 年于第一届印度统计大会的主席致辞中说道:“在实验结束后才去咨询统计学家,往往只是让他进行一次事后检查。他也许能说出实验失败的原因。” 作为一个重要的初步步骤,实验设计旨在实现两个主要目标:
4.1.1 选择最优的实验集
在实际情况下,有限的可用生物材料、成本等都是强有力的限制因素,限制了可以进行的实验数量。在给定这个实验数量的情况下,必须定义最有效的策略。换句话说,实验设计从所有有限的可能性中选择最合适的一组实验。
为了说明这一点,假设一个使用双色微阵列(见第3.1节)的基因表达研究量化了两种药物处理(因素具有两个模式 D0 和 D1)对两种癌细胞系(因素具有两个模式 C0 和 C1)的影响。由于通常假设强度遵循乘法误差模型,因此需要对数据进行对数转换,以获得同方差模型(即假设每个观察值具有相同的方差)。设
为在条件
下给定基因的量,
结合了细胞系
和药物
(其中
,
)。对于统计推断,可以写出一个双因素方差分析(Analysis of Variance, ANOVA)模型,如下所示:
其中,
和
分别表示因素
(对于细胞系因素)的影响和因素
(对于药物因素)的影响。
表示细胞系和药物因素之间的相互作用。为了使模型可识别(即模型的所有参数都可以估计),设定
、
和
为 0。四种可能条件下的期望
值见表 4.1。
表 4.1 双向方差分析模型的期望值。
image-20241102071521447
在典型的双色微阵列实验中,比较了两个条件之间的相对差异。例如,考虑将条件
与
进行比较的微阵列。对于给定基因,观察到的 log2 比率
平均应等于:
设参数向量
如下:
因此,对于一个基因和一个微阵列,期望的
值可以表示为设计向量与参数向量的向量积:
给定的实验设计将详尽列出一组微阵列,每个微阵列对应于两个不同条件之间的比较。由于每个微阵列可以如前所述通过向量积表示,因此实验设计可以通过
矩阵和参数向量
来总结。如果我们记
为包含观察到的
的向量,
为其行是相应的
设计向量的矩阵(其中
且
),则有:
ANOVA 模型意味着:
因此,不同的实验设计可以基于感兴趣参数的方差进行比较,方差越小越好。例如,考虑图 4.2 中的设计 1。图的上部分显示了条件在微阵列上的组合方式:箭头代表一个微阵列实验,其方向定义了哪个条件被用作测试条件,哪个被用作参考条件(见图 3.3)。
表示
是测试条件,而
是参考条件。图的中间部分显示了相应的
设计矩阵。下部分表示每个参数的方差:对于
,其方差为
,对于
,其方差为
,等等。如果我们比较设计 1 和设计 2,我们明显看到设计 2 必须被避免。增加实验数量通常会降低方差(对于
,设计 1 和设计 4 的方差相同)。设计 3 必须优于设计 4。
image-20241102074641354
图 4.2 使用双因素方差分析模型 (two-way ANOVA) 的实验设计。顶部部分展示了四种可能的实验设计,使用了三个双通道微阵列实验。中间部分展示了每种设计的设计矩阵。底部表格显示了双因素方差分析模型中每个参数的方差。
4.1.2 高效的统计推断
在实验设计中,研究人员研究一些因素(例如药物治疗)对实验单元(如细胞系、肿瘤患者等)的影响,以便对所研究的系统得出结论。统计推断程序依赖于假设检验、感兴趣参数的估计以及不同数学模型的比较。
由于实验单元是从整体人群中选择的,重复、分块和随机化是实现高效且可靠的统计推断需要考虑的三个基本统计原则。
重复包括为每个不同条件添加若干复制,以考虑到给定测量值存在的变异性。在图 4.2 的不同实验设计中,我们每个条件只有一个微阵列。遵循这一原则,每个条件的复制是绝对必要的。我们通常将技术重复与生物重复区分开来。技术重复处理的是技术固有的变异性,而生物重复则考虑研究人群中存在的变异性。选择技术重复、生物重复(或两者兼有)明显取决于哪种变异性更为重要。例如,如果生物变异性大于技术变异性,我们将偏好生物重复。通常,无法事先知道这两种变异性。因此,必须进行一项试点研究以估计这些变异性。
由于需要重复,所需的微阵列数量可能超过单个操作者在同一实验室一天内能够进行的最大实验数量。因此,一种可能性是在不同的日子处理样本,但实验日通常会影响信号测量。实际上,湿度、温度、臭氧浓度每天都有变化,会修改测量结果(Lander,1999;Fare 等,2003;Byerly 等,2009)。这种影响通常称为批次效应(batch effect)。假设您想比较使用药物 D0 处理的样本与使用药物 D1 处理的样本,那么将所有 D0 样本在第一批(即第1天)处理,所有 D1 样本在第二批(即第2天)处理,将是一个非常糟糕的主意。由于批次和药物是混杂效应,您将无法确定您可能观察到的差异是由于实验日还是药物治疗造成的。如果您决定由两个不同的操作者准备样本,或样本将在不同的实验室处理,同样的问题也存在。批次效应、操作者效应或实验室效应不应与感兴趣的效应混淆,以确保结果的可靠性。这些因素与感兴趣的问题无关,但会影响信号测量。在实验设计中考虑这些因素是一个基本的考虑因素,这被称为分块(blocking)。
最后一个重要概念是随机化(randomisation),它包括将实验单元在不同药物治疗之间随机分配,以避免结果中的任何偏差。例如,在比较新药与标准药物的临床试验中,患者会被随机分配到新药或标准药物对照组。关于微阵列实验的实验设计已有大量文献(Kerr 和 Churchill,2001;Yang 和 Speed,2002;Nguyen 和 Williams,2006;Churchill,2002)。尽管这里描述的示例是针对双色微阵列数据的,但相同的原则适用于任何使用的高通量技术。例如,Auer 和 Doerge(2010)以及 Fang 和 Cui(2011)提出了在下一代测序(Next-Generation Sequencing, NGS)实验(RNA-seq)中的实验设计问题。显然,每种技术都有其自身的特性,但实验选择、重复、分块和随机化是确保下游分析可靠性的四个基本预备步骤。
4.1.3 系统生物学中的特定方面
在系统生物学中,一个目标是构建和评估数学模型,考虑到所研究的生物系统的机制性和动态组件(见第7章)。除了我们之前介绍的基本统计原则外,系统生物学中还必须具体考虑其他重要方面(Ideker 等,2000;Kreutz 和 Timmer,2009)。为了能够代表生物系统在各种实验条件下的行为,模型必须与实际数据中的观察测量一致。因此,选择一组给定的扰动来应用于实际实验是必要的,以在实际条件下挑战模型。定义最相关的扰动集可以通过各种技术来实现。此外,选择采样时间,即连续测量的时间,是至关重要的,因为系统的动态性是一个重要的组成部分。最后一个方面涉及某些数学模型所需的参数值,如动力学或亲和常数。在所有参数中,有些是关键的,因为它们可以强烈影响模型的预测。识别这些关键参数及其正确测量对于可靠和稳健的预测是必要的。
4.2 归一化 (Normalisation)
归一化(也称为低层次分析,low-level analysis)旨在纠正系统性变异来源,以提高信噪比,从而更好地进行生物学和/或临床解释。从历史上看,归一化首先应用于信使 RNA(mRNA)表达微阵列(microarray)领域(参见 Quackenbush,2002;Do 和 Choi,2006;Irizarry 等,2006;Stafford,2007;Wu 等,2003;Irizarry 等,2003,综述)。最早的方法是 Yang 等(2002)提出的用于双通道微阵列的 Lowess 归一化(Lowess normalisation),随后是 RMA(Irizarry 等,2003)和 GC-RMA(Wu 等,2003),这两种方法主要用于 Affymetrix GeneChip®。归一化仍然是当前所有高通量技术研究中的一个活跃领域。
正如上一节所述,有一些固有的变异来源会直接影响信号测量。在某些情况下,实验设计中的分区(blocking)已经整合了需要校正的影响。通常,批次效应的校正被视为归一化步骤的一部分。然而,尽管分区是必要的,它通常无法解释所有可能的变异来源。实际上,每个实验都是独特的,并显示出需要校正的特定变异性。例如,在微阵列实验中,空间伪影(spatial artefacts)常常出现,许多空间归一化方法已经被开发出来用于基因表达校正(例如 Workman 等,2002),比较基因组杂交(Comparative Genomic Hybridisation, CGH)(Neuvial 等,2006)和 DNA 甲基化(DNA methylation)(Sabbah 等,2011)微阵列。图 4.3 展示了称为 MicroArray NORmalisation (MANOR) 的方法如何改善 CGH 配置文件的信噪比(Neuvial 等,2006)。Koren 等(2007)建议,应该常规应用如 MANOR 等校正空间偏差的归一化方法来分析微阵列数据。
image-20241102080745947
图 4.3 aCGH 实验中的空间偏差 (Spatial bias)
(A) 顶部部分表示在 aCGH 上量化的对数比值。该实验受到从左上角(异常高的对数比值)到右下角(异常低的对数比值)的空间梯度影响。结果导致在底部部分绘制的 DNA 拷贝数谱非常嘈杂。
(B) 顶部部分表示在使用 MANOR 算法进行空间归一化后的对数比值,空间梯度已被消除。归一化提高了 DNA 拷贝数谱的信噪比。图像引自 Neuvial 等人 (2006)。
除了其他参数外,我们提到影响基于核苷酸序列技术信号测量的 GC 含量(GC-content)(参见 Box 3.3),该技术需要聚合酶链式反应(Polymerase Chain Reaction, PCR)扩增(微阵列和 NGS)(Metzker,2010)。Rigail 等(2008)提出了用于 affymetrix SNP 芯片的迭代和替代归一化以及拷贝数校正(ITerative and Alternative normaLISation and Copy number calling, ITALICS),该方法基于多重回归,以校正包括 GC 含量在内的影响。同样,Boeva 等(2011a)和 Risso 等(2011)提出了用于 NGS 数据的 GC 含量校正方法(参见图 4.4)。
image-20241102081633548
图 4.4 GC 含量对 NGS 实验中读取数目的影响
对于两个不同的 NGS(下一代测序,Next-Generation Sequencing)实验,绘制了 GC 含量对读取数目的影响。参考基因组被分割成连续的 50 Kb 大小的窗口。在给定窗口内比对的读取数目(y 轴)被绘制为该窗口内参考基因组中 GC 含量百分比(x 轴)的函数。黑色曲线表示数据的三阶多项式拟合。由于每个实验中的模式差异很大,为了校正 GC 含量效应,需要使用自适应归一化方法,例如无对照拷贝数检测(control-FREE Copy number caller, FREEC)。图像改编自 Boeva 等人 (2011a)。
虽然可以清楚地观察到空间偏差和 GC 含量的影响,但偏差的形状可能会因实验而异。因此,归一化必须是自适应的,即为每个实验量身定制的。重要的是,必须识别所有可能导致信号偏差的参数,并与平台提供商和负责该平台的操作人员讨论,因为这些参数在所有影响信号测量的协议步骤中都具有重要作用。数据归一化是一个需要认真对待的关键步骤,因为它会直接影响所有下游分析的准确性和有效性(Stafford,2007)。
4.3 质量控制 (Quality control)
任何高通量技术,即使标准化程度高且操作谨慎,仍然会受到实验偏差或无法控制的变异影响,正如我们之前讨论的那样。良好的实验室实践要求定期进行质量控制,如果可能的话,对每个样本进行分析。用于临床实践时,对高通量技术的可靠性要求当然更高。因此,需要制定适当的质量控制程序。评估任何测量流程的效率是基于不同的度量标准(参见 Box 4.1)。
BOX 4.1: 质量控制指标 (Quality control metrics)
**精密度 (precision)**:评估在相同条件下重复测量的方差。精密度可以分为两个方差成分:
-
**重复性 (repeatability)**:指在条件保持不变(同一仪器、操作人员等)并且在短时间内重复测量时的方差。
-
**再现性 (reproducibility)**:指在使用相同测量方案但不同条件(不同仪器、操作人员等)下,在较长时间内重复测量时的方差。
**准确性 (accuracy)**:评估测量值与真实值之间的偏差。
美国食品和药物管理局(FDA)发起了一个名为微阵列质量控制(MicroArray Quality Control, MAQC)的重大质量控制项目。该项目最初专注于基因表达微阵列,后来扩展到 NGS(下一代测序)。MAQC 项目分为三个主要阶段(参见 Box 4.2)。MAQC-I(MAQC Consortium 等,2006)展示了不同平台内(intra-platform)和平台间(inter-platform)的基因一致性和差异表达基因的一致性(平台指供应商,如 Affymetrix、Illumina 等)。MAQC-II(Shi 等,2010)表明预测模型(参见 Chapter 6)的性能在很大程度上取决于所研究的问题。例如,在乳腺癌数据中,预测雌激素受体状态要比预测术前治疗反应容易得多。MAQC-II 显示预测性能越低,基因列表的稳定性也越低。项目的最后阶段仍在进行中。
BOX 4.2: MAQC 项目 (The MAQC project)
MAQC-I
评估微阵列的精确性和可比性(实验室内/实验室间、平台内/平台间),并制定微阵列数据分析的指南。
MAQC-II
评估在构建基于微阵列的预测模型中,不同数据分析方法的能力和局限性,并提供预测模型开发和验证的最佳实践。
MAQC-III
,也称为测序质量控制(Sequencing Quality Control, SEQC),旨在评估 NGS(下一代测序)平台的技术性能,并评估在 RNA 和 DNA 分析中各种生物信息学策略的优缺点。
虽然有些实验可以通过质量控制阈值,但由于无法解释的原因可能表现出异常行为。这些实验被称为异常值(outliers),代表与数据的其余部分显著不同的观察值。为了可靠的下游分析,这些实验必须被排除。为了识别这些异常实验,通常使用统计方法,例如层次聚类(hierarchical clustering)或主成分分析(Principal Component Analysis, PCA)(参见 Section 5.3.2 和 Section 5.4.2)。
4.4 计算系统生物学工作流程中的质量管理和再现性