专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

读书笔记 | 癌症计算系统生物学 | 第 03 章实验性高通量癌症研究技术

生信菜鸟团 · 公众号 · 生物 · 2024-11-21 06:40

主要观点总结

本章介绍了用于研究癌症分子谱的主要高通量技术，包括微阵列、NGS、MS和细胞表型分析。这些技术为揭示癌症的复杂性和异质性提供了见解，有助于更深入地理解肿瘤进展和肿瘤分类。重点介绍了微阵列技术的基本原理和应用，NGS技术的优势和在肿瘤学中的应用，以及MS和细胞表型分析在系统生物学和药物发现中的价值。尽管这些技术提供了丰富的信息，但数据处理仍然是挑战，需要复杂的数学和统计方法。

关键观点总结

关键观点1: 微阵列技术

微阵列技术用于研究预先已知的寡核苷酸序列或蛋白质，在理解肿瘤进展和分类方面提供了显著改进。

关键观点2: NGS技术

NGS技术能够破译基因组的先前未知特征，显著增加了对癌症及癌细胞分子研究的可能性，优于微阵列在灵敏度方面的应用。

关键观点3: MS和细胞表型分析

MS和细胞表型分析是系统生物学和药物发现中非常有价值的技术，提供了从细胞群体到单细胞行为和组织的研究可能性。

关键观点4: 高通量技术的发展

技术进步提供了从分子成分及其相互作用到单细胞行为和组织的研究可能性，但仍需要复杂的数学和统计方法进行数据处理。

正文

请到「今天看啥」查看全文

第 03 章实验性高通量癌症研究技术

前言

第 2 章描述了当正常细胞转化为癌细胞时，在不同分子水平上发生的一系列失调现象。突变（mutations）的逐步累积以及在肿瘤进展（tumour progression）过程中发生的事件会在以下各个层次上扰乱细胞的正常行为（参见 图 3.1 ）：

DNA ，包括：

DNA 序列的突变

DNA 拷贝数的改变

等位基因杂合性丢失（LOH）

易位（Translocations）

非编码 RNA 表达，包括 microRNA（miRNA）。

信使 RNA（mRNA）表达，包括：

可变剪接的修饰

蛋白质，尤其是：

它们的数量

它们的修饰，包括蛋白激酶的磷酸化，这在信号传导中起关键作用

表观遗传特征，包括：

DNA 甲基化

组蛋白修饰（甲基化、乙酰化等）

不同分子之间的相互作用，例如：

转录因子与 DNA 的相互作用

蛋白质之间的相互作用

结果是，这些改变导致细胞表型特征的变化。

癌细胞与其环境的相互作用，包括：

血液供应

免疫反应

与细胞外基质（Extracellular Matrix, ECM）的相互作用

理解肿瘤进展并改进肿瘤分类需要揭示在这些不同分子层次上发生的变化。当前的生物技术使我们能够精确描述每个肿瘤样本的分子特征，且信息检索必须尽可能详尽。例如，我们的目标是在每条染色体上尽可能多地确定 DNA 拷贝数，量化所有已知基因的信使 RNA（mRNA）表达，检测存在的可变剪接形式等。虽然对于某些分子特征来说，这种详尽搜索可能是可行的，但对于某些情况（特别是蛋白质），由于复杂性和技术原因，这是不可行的（参见 第 3.4 节 ）。由于分子特征的定量应该尽可能详尽，允许进行这些测量的技术通常被称为基因组范围（genome-wide）技术。通常，这种研究特定类型分子特征的技术名称是将所研究的分子实体或生物功能与后缀 -omics 连接。例如，如图 3.1 所示，基因组学（genomics）研究 DNA 的改变（突变、拷贝数等），miR 组学（miRNomics）研究 microRNA（miRNA）表达，转录组学（transcriptomics）研究 mRNA 表达，剪接组学（spliceomics）研究不同的可变剪接形式，蛋白质组学（proteomics）研究不同的蛋白质，激酶组学（kinomics）研究蛋白激酶的磷酸化状态，表观遗传组学（epigenomics）研究表观遗传修饰，互作组学（interactomics）研究不同分子实体之间的相互作用，而表型组学（phenomics）研究细胞可观察的特征。后缀 -omics 来自希腊词根 omes ，表示“所有、每一个、整体或完整的”，提醒我们这些技术旨在实现详尽搜索。这些技术也被称为 高通量（high-throughput） 技术，因为它们在短时间内产生大量信息。值得指出的是，除了高通量技术外，还有其他方法或技术，但本书中不作讨论。在本章中，将详细介绍与 -omics 技术相关的技术细节。

图 3.1 肿瘤学中的组学技术 。

此图列出了癌症研究中使用的主要组学技术。请注意，还有其他组学方法存在。

3.1 微阵列

3.1.1 微阵列设计的基本原理

随着对生物分子过程的更好理解以及 DNA 技术的进步，研究人员能够在体外（in vitro）模拟在体内（in vivo）发生的一些化学反应。1970 年限制性内切酶（restriction enzymes）和逆转录酶（reverse transcriptase）的发现、1977 年 DNA 测序、以及 1985 年聚合酶链式反应（Polymerase Chain Reaction, PCR）的发明（关于 DNA 技术的历史，参见 Nature Publishing Group, 2007 的里程碑年表）是生物技术领域的主要革命。化学、物理、光学、机器人、软件工程和分子生物学的进步促进了新的基因组范围定量工具的发展；微阵列（microarray）技术，也称为生物芯片（biochip）或芯片（chip），提供了微型传感器工具，使得可以在小于两平方厘米的玻片上对整个基因组的 mRNA 表达进行定量。微阵列于 1995 年出现，可以被视为过去 15 年中的重大生物技术革命之一。最初，微阵列出现在转录组学（transcriptomics）领域，并已广泛应用于所有组学（omics）方法中（参见 图 3.1 ）。因此，开发了多种微阵列技术以适应不同的应用，例如 Hoonheisel (2006) 以及 Nature Genetics 在 1999、2002 和 2005 年发布的补充系列 Chipping Forecast 中均有报道。然而，所有微阵列技术依赖于以下介绍的相似特征。

微阵列技术的基本原理如下：探针（probes，DNA、RNA 或蛋白质）固定在固体支持物上（即芯片），例如玻璃、塑料或硅（Southern 等, 1999）。它们作为特定的报告者，用于定量已知基因组位点的 DNA 拷贝数或蛋白质的量。探针需要特别选择，以便报告其目标的预期定量。

对于 DNA 或 RNA 探针，通过探针序列与目标序列之间的特异性碱基配对互补性以及选择合适的抗体来确保蛋白质的特异性。探针被沉积在芯片上称为斑点或特征的显微区域中。然后，将 DNA、RNA 或蛋白质从肿瘤样本中提取并在芯片上杂交。如果样本中存在特定的 DNA 序列、RNA 序列或蛋白质，它们将与匹配的探针杂交。在一个微阵列中，存在数千甚至数百万这样的斑点，使其成为一种非常强大的基因组范围筛选工具。

另一个微阵列的特征是使用称为荧光染料（fluorochromes）的荧光标记物（参见 框 3.1 ），用于测量 DNA、RNA 或蛋白质的量。实际上，由于在微阵列上无法直接量化附着在各自探针上的每个目标的数量，因此需要一种测量策略。这就是为什么要使用荧光染料来克服这一限制。在样品制备过程中，通过特定的化学反应使荧光染料被整合到核苷酸序列或蛋白质中。荧光信号的强度被量化，并与附着在探针上的目标量直接相关。不同波长（或颜色）的荧光染料可以在某些微阵列平台中同时使用。这些微阵列提供了标记和分析两个不同样本的可能性。例如，可以在不同实验中使用一个共同的参考。这些微阵列被称为双色或双通道微阵列。对于蛋白质组学微阵列，报告抗体通常与荧光染料耦合。由于蛋白质研究需要考虑蛋白质的化学性质，第 3.4 节 将专门介绍蛋白质组学。

在基因组学、转录组学和 miR 组学研究中，Affymetrix 的 GeneChip® 被广泛使用，单个实验中可以测量大约 650 万个特征（参见 图 3.2A 和 Dalma-Weiszhausz 等人, 2006 的技术综述）。由于制造工艺的改进，特征尺寸的缩小使得表面上特征数量不断增加。其他微阵列（例如由 Agilent、Nimblegen 或 Illumina 公司提供的微阵列）也被广泛应用。例如，Illumina 公司推出了名为 BeadChip 的芯片。虽然探针和目标序列的原理仍然有效，但探针不再沉积在微阵列玻片表面，而是附着在硅珠上（参见 图 3.2B ）。这些珠子在覆盖芯片的微孔中自组装（Fan 等人, 2006）。由于微孔中珠子的自组装是一个随机过程，每个珠子包含一个用于目标的探针序列和一个地址序列，可根据 Gunderson 等人（2004）描述的解码系统进行识别。除了商业平台外，许多实验室自制的微阵列也已被生产。所有这些微阵列技术已被广泛应用于肿瘤学（oncology），如 Cowell 和 Hawthorn（2007）所报道的。

图 3.2 Affymetrix GeneChip® 和 Illumina BeadChip 设计 。

(A) 芯片由一个 1.28×1.28 平方厘米的改性石英晶片组成。该表面包含约 650 万个 5 微米 × 5 微米的特征。每个特征由数百万个相同的寡核苷酸（oligonucleotide）探针组成。寡核苷酸为 25 个碱基长的单链序列，作为基因组中已知位点的特定报告者。图片改编自 Dalma-Weiszhausz 等人（2006）。 (B) 硅珠，每个直径为 3 微米，随机自组装到中心间距为 5 微米的微孔中。每个探针在每个阵列上由平均 30-50 个珠子表示。每个珠子包含一个感兴趣的探针序列和一个地址序列，根据 Gunderson 等人（2004）描述的解码系统识别其身份。地址和探针共同代表每个珠子的特定寡核苷酸序列。每个珠子覆盖有数十万个该特定寡核苷酸序列的拷贝。图片改编自 Fan 等人（2006）和 http://www.illumina.com。

3.1.2 基于微阵列实验的 DNA 拷贝数研究

基因组范围的 DNA 拷贝数变化研究最初是使用 20 世纪 90 年代初开发的比较基因组杂交（Comparative Genomic Hybridisation, CGH）技术进行的。在该技术的第一个版本中，从肿瘤和正常对照细胞中分离出全基因组 DNA，用不同的荧光染料标记，并与正常中期染色体杂交（Kallioniemi 等人, 1992）。因此，该技术被称为染色体 CGH。然后，定量肿瘤荧光与中期染色体上的正常荧光的差异，以反映肿瘤基因组中 DNA 拷贝数的变化。

随后，阵列比较基因组杂交（array Comparative Genomic Hybridisation, aCGH）技术被建立（Solinas-Toldo 等人, 1997；Pinkel 等人, 1998）。在这种技术中，带有基因组序列的微阵列取代了杂交载体的中期染色体，使用细菌人工染色体（Bacterial Artificial Chromosome, BAC）作为探针。aCGH 解决了使用细胞遗传学染色体制备所带来的许多技术难题和问题。aCGH 的主要优势是能够进行比染色体 CGH 更高分辨率的拷贝数分析。aCGH 已经广泛应用于肿瘤学的许多用途，例如全局分析拷贝数变异、潜在靶基因的识别、肿瘤分类或评估拷贝数变化的临床意义（Kallioniemi, 2008）。一个典型的 aCGH 微阵列实验的工作流程如下（参见 图 3.3 和 Pinkel 与 Albertson, 2005）：

从肿瘤样本（即测试 DNA）和正常样本（即参考 DNA）中分离全基因组 DNA。基因组 DNA 通常使用限制性内切酶消化，且 DNA 片段被差异标记：肿瘤 DNA 使用红色荧光染料（例如 Cy5）标记，而正常 DNA 使用绿色荧光染料（例如 Cy3）标记。

将等量的肿瘤 DNA 和正常 DNA 结合。

混合的肿瘤和正常 DNA 片段在芯片上杂交。在每个斑点内，肿瘤 DNA 目标序列与正常 DNA 目标序列之间进行竞争性杂交。

扫描步骤定量红色和绿色通道的信号强度。生成的图像文件将每个像素分配红色和绿色强度。

图像分析软件准确地重建每个斑点的信号强度。

图 3.3 Array-CGH 协议 。

该协议包括 DNA 的提取和标记、在芯片上的杂交、信号的扫描和图像分析以进行量化。（参见彩色插页。）

一旦执行了该协议，我们如何期望信号随每个样本的 DNA 拷贝数而变化？对于每个斑点，肿瘤 DNA 和正常 DNA 之间会发生竞争性杂交。测试信号相对于参考信号的相对杂交强度（理想情况下）与测试和参考基因组中这些序列的相对 DNA 拷贝数成正比。如果肿瘤 DNA 拷贝数大于正常 DNA 拷贝数，则信号将偏向红色。相反，如果肿瘤 DNA 拷贝数低于正常 DNA 拷贝数，则信号将偏向绿色。因此，肿瘤 DNA 的 DNA 拷贝数与红/绿比值直接成正比，其理论值见 图 3.4 。出于统计原因，我们通常不使用红/绿比值，而使用该比值的，因此命名为 -ratio¹（¹ 对数变换允许值的分布更接近正态性，这通常在统计中是优选的。）。实际上，由于技术变异性，信号围绕其预期值波动，需要统计方法来提取真实信号。

图 3.4 理论阵列-CGH 定量 。

不同 DNA 拷贝数改变在肿瘤 DNA 中的理论比率和 -比率。

此外，量化信号通常低于预期，原因有三：首先，该技术的量化并不完美，与真实 DNA 拷贝数相比，信号往往低于比例值（Pinkel 等人, 1998；Pollack 等人, 1999）。其次，肿瘤 DNA 通常含有来自邻近正常组织的正常细胞的污染；它们可以在样本中占很大比例，并降低来自癌细胞的信号。最后，肿瘤可能是异质的，因为它可以来自不同克隆群体（参见 图 2.5 ），这些群体具有不同的 DNA 拷贝数改变模式。

aCGH 技术依赖于参考 DNA 为二倍体的假设。然而在实践中，这并不总是如此，因为即使在正常个体中，DNA 拷贝数变异也可能存在：基因组中的某些部分可以在许多拷贝中存在。这类基因组部分称为拷贝数变异（Copy Number Variant, CNV）（Iafrate 等人, 2004；Freeman 等人, 2006；Redon 等人, 2006），而基因组变异数据库（Database of Genomic Variants）提供了此类变异的目录。例如，Perry 等人（2007）发现唾液淀粉酶基因（AMY1）的拷贝数与唾液淀粉酶蛋白水平正相关，且高淀粉饮食人群的个体平均比传统低淀粉饮食人群拥有更多的 AMY1 拷贝。这是人类基因组中第一个关于拷贝数变异基因的正向自然选择实例。理想情况下，为避免测试 DNA 和参考 DNA 之间的 CNV 识别，aCGH 协议中使用的两种 DNA 应来自同一患者（在这种情况下，这些 DNA 被称为配对）。然而，患者的正常 DNA 并不总是可用，且商业参考 DNA 的使用通常是一种必要的折衷。重要的是，CNV 可能对癌症风险和个体的遗传特征有影响，在此类 CNV 中找到参考 DNA 可能成为其分析的缺点。

典型的 DNA 拷贝数分子特征图的图形表示如 图 3.5 所示：x 轴表示沿基因组从染色体 1 到 22 以及 X 的探针位置；y 轴表示 DNA 拷贝数的 -ratio 值。在 IMR32 神经母细胞瘤（neuroblastoma）细胞系的特征图中，染色体 1p² 的丢失以及由于不平衡易位导致的染色体 1q 和 17q 的增益清晰可见。小尺度改变，例如染色体 2 上的 MYCN 扩增（MYCN amplification），可以通过相对于染色体 CGH 的 aCGH 技术的高分辨率检测到。

图 3.5 IMR32 神经母细胞瘤细胞系的 aCGH 特征图 。

显示了从染色体 1 到 22 以及 X 沿基因组排列的每个探针的 -比率。垂直黑线表示染色体之间的分隔。垂直虚线表示着丝粒位置。通过 aCGH 识别出 1p-17q 的不平衡易位和 1q 的增益。得益于 aCGH 技术的高分辨率，可以检测到小规模的改变，例如 MYCN 的扩增。数据来源：Janoueix-Lerosey 等人（2005）。（参见彩色插页。）

微阵列技术的最新进展已经从 BAC aCGH 转向寡核苷酸（oligonucleotide）aCGH（³ BAC 通常包含人类 DNA 序列的 100Kb；32,000 个 BAC 可以覆盖整个基因组。），从而允许每个芯片上的位点数量增加（Davies 等人, 2005；Ylstra 等人, 2006）。BAC 阵列主要由实验室自制，而寡核苷酸微阵列则由商业公司提供。在广泛使用的商业技术中，我们可以提到 Agilent 人类基因组 CGH 微阵列（Human Genome CGH Microarray）、Nimblegen 人类全基因组平铺阵列（Human Whole Genome Tiling arrays）、Illumina BeadChip 和 Affymetrix GeneChip®（请注意，对于 Affymetrix 和 Illumina 技术，协议中不需要正常 DNA，它们是一种单色微阵列，而对比于其他技术，这些技术使用正常和肿瘤 DNA 且为双色微阵列）。在 BAC 阵列的早期阶段，调查的位点数量约为 1,000-2,000，从未超过 32,000 个位点（Ishkanian 等人, 2004）。寡核苷酸阵列的使用允许大幅增加单芯片调查的位点数量。在撰写本章时，单个寡核苷酸阵列中人类基因组的位点数量范围为 100 万到 250 万，允许最大理论分辨率为 1.2Kb。这一数字很可能会增加。尽管最新的芯片更全面地覆盖了基因组，但它们的精确分辨率不仅取决于位点数量，还取决于灵敏度。Coe 等人（2007）为 aCGH 技术提出了一个分辨率定义，称为功能分辨率（functional resolution），它结合了基因组上位点间距的一致性，以及每个平台对单拷贝变化检测的灵敏度。从他们的研究来看，当前的商业平台允许单拷贝检测的分辨率在 35-55Kb 范围内，而染色体 CGH 为 10Mb，BAC aCGH 为 1Mb（在 Coe 等人（2007）研究时）。单个芯片中提供最多位点数量的是 Nimblegen 人类 CNV 阵列（Human CNV arrays），允许在整个基因组中量化 385,000 个位点。允许扫描基因组超过 50,000 个位点的寡核苷酸芯片通常被称为高密度或高分辨率芯片。Haraksingh 等人（2011）比较了这些技术的性能。除了寡核苷酸阵列分辨率的大幅提升外，Illumina 和 Affymetrix 在其设计中也结合了多态探针，以便在下节中讨论的异质性缺失（LOH）和 DNA 拷贝数的测量。

3.1.3 基于微阵列实验的 LOH 研究

尽管两个人的遗传组成非常相似，但他们的 DNA 序列之间的差异足以解释表型的多样性，包括许多疾病的易感性。这使得多态性特征的确定在生物医学科学中非常有用。2002 年，国际 HapMap 项目（International HapMap Project）启动，目标是确定人类基因组中 DNA 序列变异的共同模式，并将该信息免费公开（International HapMap Consortium, 2003）。为此，使用了来自亚洲、非洲和欧洲的 270 个个体样本。更近期地，千人基因组计划（The 1000 Genomes Project）于 2008 年启动，以获得人类基因变异的最详细目录（1000 Genomes Project Consortium, 2010）。单核苷酸多态性（Single Nucleotide Polymorphisms, SNP）是个体之间遗传变异的最重要来源（参见 框 3.2 ）。因此，它们是微阵列设计中用于研究不同个体或群体之间基因组变异的非常有价值的探针。此外，在癌症研究中，SNP 探针可以评估 LOH，下一段将对此进行解释。Affymetrix 和 Illumina 公司提供了包含每个 SNP 等位基因特异性探针的微阵列设计。这种微阵列通常被称为 SNP 阵列。

盒子 3.2：单核苷酸多态性（SNP）

SNP（Single Nucleotide Polymorphism，发音为 snip）是一种 DNA 序列变异，当基因组中单个核苷酸（A、T、C 或 G）在两个个体之间的同一基因组位置上发生差异时，便形成了 SNP（Sachidanandam et al., 2001；Bunz, 2008）。以下是一个 SNP（C/G）的示例，其中存在两个等位基因（随意命名为 A 和 B）：

A 等位基因：gtaccccatccctc c gtgtcgtgaatcaga

B 等位基因：gtaccccatccctc t gtgtcgtgaatcaga

SNP 平均每 1,000 到 2,000 个核苷酸中出现一次，只有当这种变异在群体中 1% 或以上的个体中出现时，才被称为多态性。在 NCBI 的 dbSNP 数据库中已记录了约 1,000 万种此类变异（Sherry et al., 2001）。大约 96% 的 SNP 出现在非编码区：其中一些可能表现为表型沉默，而另一些则可能具有功能性影响（例如，若某 SNP 位于调控序列、选择性剪接位点等区域）。其他 SNP 被称为非同义 SNP，它们会影响蛋白质序列。这两种类型的 SNP 都可以作为寻找与疾病、药物反应和复杂表型相关基因的标记。

图 3.6 BAF 值的示例 父源（father）染色体 F 用白色表示，母源（mother）染色体 M 用黑色表示。正常细胞状态（A）到癌细胞中可能发生的五种不同变异状态（B 到 F）均有展示，并计算每个 SNP 的 BAF 值。

为说明 SNP 探针如何用于评估肿瘤中的 LOH（杂合性缺失），我们可以考虑图 3.6A 中的正常细胞。在这种情况下，一条染色体来自母亲（M），另一条染色体来自父亲（F）。沿染色体存在不同的 SNP。为便于说明，假设染色体上有四个 SNP，每个 SNP 具有两个等位基因（A 或 B）。对于每个位点，可以按以下方式计算 B 等位基因频率（BAF）：

其中，和分别表示等位基因 A 和 B 的数量。

对于正常细胞，在杂合位点（例如 SNP2 和 SNP3）上，BAF 等于 0.5；而在纯合位点（例如 SNP1 和 SNP4）上，如果存在 A 等位基因则 BAF 等于 0，如果存在 B 等位基因则 BAF 等于 1。如果某个 SNP 是杂合的，它被称为信息性 SNP。接下来，考虑一个癌细胞，该细胞经历了父系染色体的丢失，随后伴随母系染色体的复制（见图 3.6B）。这对应于“拷贝中性 LOH”情况（即染色体的拷贝数与正常细胞相同，但两条染色体来自同一亲本来源）。

对于给定的实例如 图 3.6 所示的例子并不详尽，还可以想象许多其他情境。重要的是要指出，由于正常细胞的污染，从肿瘤样本计算的 BAF 值可能会与理论值不同。事实上，理论上的 BAF 值可以按如下公式表示：

其中，表示正常 DNA 的污染比例，和分别代表肿瘤中 A 和 B 等位基因的数量，和分别代表正常样本中 A 和 B 等位基因的数量。我们期望等于 2，因为正常 DNA 是二倍体的。在实践中，比例一般未知。可以基于病理学家（pathologist）对组织切片（histological sections）的专业知识或使用专门的生物统计学方法来估算该值（Popova 等人, 2009）。

在微阵列实验中，BAF 值将按以下公式计算：

其中，和分别是从各自的探针量化得到的 A 和 B 等位基因在芯片上的信号强度。

正如我们在上一节中已经提到的，可以使用这种类型的微阵列技术评估 DNA 拷贝数。对于多态性探针，可以通过计算每个等位基因的数量来获得 DNA 拷贝数（CN），其公式为：

从微阵列实验获得的信号是强度值，需要将其转换为更易理解的值。即使是单色微阵列，来自正常 DNA 样本的信号测量（通过配对的正常样本或与研究的肿瘤样本无关的正常样本的组合）仍然用于计算对数比值（log-ratio），如同在 aCGH 实验中一样。在没有正常参考 DNA 的情况下，可以使用来自 HapMap 项目的个体样本，因为微阵列实验已在不同的 SNP 微阵列平台上完成，包括 Illumina 和 Affymetrix 平台。使用参考正常样本计算对数参考比率（LRR）的公式如下：

其中，和分别是肿瘤样本中 A 和 B 等位基因的芯片上信号强度，而和是正常样本中 A 和 B 等位基因的信号强度。

BAF（B 等位基因频率，B Allele Frequency）和 LRR（R 比值对数，Log R Ratio）值提供了互补的信息，有助于表征肿瘤样本中的 DNA 改变。例如，这两个值可以区分正常细胞和图 3.6 所示的拷贝中性 LOH（杂合性缺失，Loss of Heterozygosity）情况。实际上，在正常细胞中，当 LRR 值等于 1 时，BAF 值在正常细胞的有信息 SNP（单核苷酸多态性，Single Nucleotide Polymorphism）上为 0.5，而在拷贝中性 LOH 情况下为 0 或 1。同样，这两个值的组合可以帮助区分 FFMM（四拷贝）和 FFFM（四拷贝）情况。在这两种情况下，LRR 值等于 2，而 BAF 值在有信息 SNP 上为 0.5，在 FFFM 情况下则为 0.75 或 0.25。

图 3.7 展示了在染色体拷贝数为 0 至 7 的情况下 BAF 和 LRR 值的不同可能性。需要注意的是，0 拷贝状态在数学上是特殊的，因为无法计算 LRR 和 BAF 值。实际上，由于背景噪声和正常细胞的污染，信号强度和通常不会为零。因此，LRR 值会具有非常低的值（例如或更低），而 BAF 值在有信息 SNP 上将等于 0.5。

图 3.8 显示了一个使用 Affymetrix GeneChip® SNP 微阵列技术对乳腺癌细胞系 T47D（数据来自 Hu 等，2009 年）的实际实验的 LRR 和 BAF 曲线（包含约 5 万个基因位点）。以下描述了该肿瘤细胞系中的一些染色体改变：

LRR 曲线显示 1p 染色体臂存在 2 个拷贝，而 1q 染色体臂存在 4 个拷贝。这可以从核型（图 2.12）中确认，核型还提供了额外的信息，表明 1q 染色体臂的 2 个额外拷贝已融合到染色体 16 上，这可能是由于易位引起的。BAF 值表明 1p 染色体臂来自相同的亲本来源，因为 BAF 值接近 0 或 1，而 1q 染色体臂的 2 个拷贝来自父本，另 2 个拷贝来自母本，因为 BAF 值为 0.5。

LRR 曲线显示染色体 12 的 p12-pter（即 p 臂的亚区域，延伸至染色体 12 的末端）有一个单一的缺失，这可以通过 BAF 曲线和核型确认。

LRR 曲线显示染色体 15 存在 3 个拷贝。核型表明染色体 15 的 2 个拷贝分别与其他染色体（7 和 15）发生融合，而另一个拷贝单独存在。BAF 曲线显示来自一个亲本的 2 个拷贝和来自另一个亲本的 1 个拷贝，在有信息 SNP 上的 BAF 值约为 0.33 或 0.66。

需要注意的是，LRR 曲线和 BAF 曲线均不能指示染色体结构变异中的易位情况，而核型可以提供此类信息。此外，平衡变异不会在 LRR 曲线中显示出来，因为拷贝数保持不变。在这种情况下，NGS 技术可以帮助揭示此类信息（参见第 3.2 节）。

DNA 拷贝数改变可以影响基因表达的调控，接下来的部分描述了如何在 RNA 水平上执行微阵列研究。

图 3.7 理论 BAF 和 LRR 值 对于可能的不同变异情况，展示了理论 BAF 和 LRR 值。F 和 M 分别表示父源和母源染色体。

图 3.8 T47D 乳腺癌细胞系的 LRR 和 BAF 图谱 对于从染色体 1 到 22 以及 X 染色体沿基因组排序的每个探针，显示了 LRR 值（顶部图谱）和 BAF 值（底部图谱）。垂直黑线表示染色体之间的分隔，垂直虚线表示着丝粒位置。在 LRR 图谱中，分段黑线对应于每个基因组区域的平均拷贝数；绿色 = 1 拷贝，黄色 = 2 拷贝，红色 = 3 拷贝，蓝色 = 4 拷贝。T47D 细胞系的 Affymetrix Human Mapping 100K Xba 芯片数据已从 NCBI GEO 数据库检索。我们使用 CRMAv2 (Bengtsson et al., 2009) 和 GLAD (Hupé et al., 2004) 分析了 LRR 图谱数据，使用 ACNE (Ortiz-Estevez et al., 2010) 分析了 BAF 图谱数据。可以将这些图谱与图 2.12 中提供的 T47D 乳腺癌细胞系的核型和图 3.15 中通过 NGS 获得的结果进行比较。数据来源：Hu et al. (2009)。（参见彩色插图。）

3.1.4 基于微阵列实验的 RNA 研究

如前所述，微阵列技术的开发最早是在转录组学领域进行的，并已在文献中广泛讨论。最初的实验方案与 图 3.3 中描述的 aCGH 方案非常相似，但使用的是 mRNA 而不是基因组 DNA。Affymetrix 公司开发的新技术改变了芯片构建和协议，使得不再需要参考样品。Affymetrix GeneChip®（见 图 3.2 ）提供了一种方法，能够获得 mRNA 的半定量水平，而不是相对于参考样品的相对值。最近，为识别基因表达微阵列实验中的可变剪接形式提出了新的探针设计。这种微阵列被称为外显子阵列（exon-array）。对于每个基因，针对不同外显子的不同探针被固定在芯片上。然而，这种设计允许识别在两种条件下差异表达的外显子，例如，但很难准确定位表达的是哪个同工型。为克服这一限制，增加了重叠两个相邻外显子的探针（因此该芯片被称为外显子连接微阵列）。除了 mRNA 之外，用于研究 miRNA 的芯片也已经开发出来，并依靠完全相同的原理。

3.1.5 DNA–蛋白质相互作用研究

在细胞中，DNA 和蛋白质之间的相互作用对于许多生物过程至关重要，例如 DNA 复制、重组、DNA 修复以及转录调控。例如，在环境压力的响应中，转录因子结合到它们的 DNA 结合位点并调控其目标基因的转录（见 图 A.6 ）。一个转录因子可以调控许多不同的基因，这些基因并不总是能够通过序列分析或体外（in vitro）研究轻易预测的。因此，识别所有潜在的转录因子目标基因是一项挑战。为此，基于染色质免疫沉淀（Chromatin Immunoprecipitation, ChIP）和 DNA 微阵列（chip）组合的高分辨率基因组范围方法可以使用。这种技术被称为 ChIP-on-chip。典型的 ChIP-on-chip 实验的流程如下（见 图 3.9 Bulyk, 2006; Buck and Lieb, 2004）：

细胞在所需实验条件下培养。

在细胞培养物中，蛋白质通常使用甲醛与 DNA 交联。此步骤形成 DNA-蛋白质之间的可逆键并将 DNA 关联到 POI。

交联后，细胞被裂解，染色质被切割成 1Kb 或更小的片段。

与目标蛋白（Protein of Interest, POI）交联的 DNA 片段通过使用识别 POI 的抗体进行免疫沉淀而富集。

甲醛交联随后被逆转，DNA 被纯化。

通常需要进行 DNA 扩增步骤，因为免疫沉淀得到的 DNA 量较低。

然后将富集的 DNA 标记为带有荧光分子（如 Cy5）。此过程称为免疫沉淀（ImmunoPrecipitation, IP）部分。

在双色微阵列平台中，在免疫沉淀前保留部分裂解产物，用于提取 DNA，作为对照，并同样被扩增并用不同的荧光染料（如 Cy3）标记。此过程称为输入（input）部分。

IP 和输入分数被结合并按照 aCGH 协议（见 图 3.3 ）的相同方式杂交到单个 DNA 微阵列上。IP 信号和输入信号通过扫描仪在微阵列上进行量化。

图 3.9 ChIP-on-chip 实验流程

从细胞培养物中，目标蛋白（Protein of Interest, POI）和 DNA 之间的相互作用通过免疫沉淀分离。免疫沉淀（ImmunoPrecipitation, IP）部分和输入部分均在微阵列上杂交。图像改编自 Buck 和 Lieb（2004）。

理想情况下，为了对 DNA-蛋白质相互作用进行全面且高分辨率的调查，ChIP-on-chip 必须包含覆盖整个基因组编码区和非编码区的探针。为此，使用了寡核苷酸平铺阵列（tiling arrays）。在这种设计中，选择探针以覆盖整个基因组或基因组的连续区域。这些探针可能部分重叠或连续排列。由于选定探针的精确位置是已知的，可以构建蛋白质-DNA 相互作用的全基因组图谱，如 图 3.10 所示。对于每个位点，计算免疫沉淀（ImmunoPrecipitation, IP）信号与输入信号的比值。被目标蛋白质（Protein of Interest, POI）结合的区域具有较高的比值，并在基因组图谱中显示为一个峰值。

该方法的分辨率主要取决于两个因素：切割的染色质长度以及微阵列上探针的长度和间距。

除了识别 DNA 蛋白结合位点之外，ChIP-on-chip 方法还被广泛用于研究染色质结构，例如核小体位置图和组蛋白修饰位置。对于后者，使用针对特定修饰的抗体，从而可以解码组蛋白代码（Schones 和 Zhao, 2008）。确实，表观遗传修饰在癌症中对组蛋白和 DNA 水平都非常重要。下一节将介绍如何在 DNA 水平研究表观遗传修饰。

图 3.10 ChIP-on-chip 图谱

沿基因组表示 IP 信号与输入信号之间的比值。POI 的 DNA 结合区域在基因组图谱中显示为一个峰值。

3.1.6 DNA 甲基化

DNA 甲基化是一种表观遗传修饰，在基因调控和基因组稳定性中起着重要作用（关于表观遗传机制的介绍，见附录中的 节 A.1 ）。由于甲基化和未甲基化状态下的基因组序列保持不变，因此基于杂交的微阵列实验不能直接用于检测 CpG 二核苷酸的甲基化状态。因此，几乎所有特异性 DNA 甲基化分析技术都依赖于对 DNA 的甲基化依赖性处理，然后进行扩增并在 DNA 微阵列上进行杂交。Schones 和 Zhao（2008）以及 Laird（2010）综述了三种主要的分析方法。

第一种技术基于限制性酶，能够特异性区分甲基化和未甲基化的 CpG。限制性酶切割未甲基化的 CpG，而甲基化的 CpG 保持未切割状态，使得在微阵列上杂交后可以区分这两种甲基化状态（Schumacher 等人, 2006）。

第二种技术基于亲和力富集，使用特异识别甲基化胞嘧啶的抗体。其流程与 ChIP-on-chip 实验中描述的协议非常相似。这些技术被称为甲基化-DNA IP（MeDIP, mDIP, mCIP）。

第三种技术基于亚硫酸氢盐转化（Reinders 等人, 2008）。在使用寡核苷酸微阵列分析亚硫酸氢盐处理的 DNA 时，未甲基化的 DNA 在胞嘧啶位置包含尿嘧啶（与胸腺嘧啶类似），并且与含鸟嘌呤的寡核苷酸探针杂交较差。甲基化的 DNA 则会与对应的互补链探针杂交。因此，为了检测特定基因组位点的甲基化状态，设计了两个不同的探针，以区分甲基化状态，如 图 3.11 所示。

图 3.11 DNA 甲基化探针设计

在基于亚硫酸氢盐处理的方法中，为每个位点设计了两个不同的探针，以检测其甲基化状态。当探针与甲基化状态的目标位点配对时，未甲基化探针中的所有 G 核苷酸被替换为 A。根据研究位点的甲基化状态，发出或不发出荧光信号。

3.2 新兴的测序技术

1977 年，基因工程时代的一个重大突破是 DNA 测序技术的开发。同年，Maxam 和 Gilbert，以及 Sanger 和 Coulson 提出了基因组测序方法（Gilbert 和 Sanger 因对 DNA 测序的贡献于 1980 年获得诺贝尔奖）。Sanger 方法在接下来的近 20 年里被广泛应用，取得了许多重要成就，包括完成了首个人类基因组序列的测定。1990 年，人类基因组计划（Human Genome Project, HGP）启动，作为一个国际协作项目，旨在使用 Sanger 方法（也称为一代测序）测序完整的人类基因组。

2001 年，国际人类基因组测序联盟（International Human Genome Sequencing Consortium, 2001）和 Celera Genomics（Venter 等人，2001）分别报告了初步序列，首次提供了人类基因组的整体视图。2003 年，人类基因组的测序完成（Collins 等人，2003），并通过国际合作将初稿序列转化为高精度且几乎完整的序列（International Human Genome Sequencing Consortium, 2004）。因此，人类基因组计划历时 13 年，全球约有 3000 名科学家参与，耗资约 27 亿美元，最终获得了第一个人类基因组序列（Wadman，2008）。Sanger 方法随后被改进并由 Levy 等人（2007）用于发布第二个人类基因组序列（J. Craig Venter 的基因组）。该项目耗时 4 年，涉及 30 名科学家，耗资 1 亿美元。尽管有所改进，但 Sanger 方法仍不适合在合理的时间或合理的成本下进行基因组测序。

为克服这些限制，2004 年出现了二代测序（也称为新一代测序，next-generation sequencing），在提高通量能力的同时显著降低了成本。提供二代测序平台的主要公司包括 Illumina（Genome Analyzer™、HiSeq 2000™ 和 MiSeq 平台）、Life Technologies / Applied Biosystems（SOLiD™ 平台）、Life Technologies / Ion Torrent（Personal Genome Machine PGM™ 和 Ion Proton™ 平台）以及 Roche Applied Science（454 Genome Sequencer FLX 平台）（Rusk 和 Kiermer，2008；Chi，2008；Niedringhaus 等，2011；Rothberg 等，2011）。后一种平台用于测序 James Watson 的基因组（Wheeler 等人，2008）。该项目耗时 4.5 个月，约 30 名科学家参与，成本不足 150 万美元。高通量测序技术成为一个竞争激烈且快速发展的领域，三代测序（也称为下一代测序的下一个阶段）已于 2008 年出现（称为三代测序，third-generation sequencing），基于单分子分析的测序方法。主要公司包括 Helicos BioSciences（HeliScope 平台）和 Pacific Biosciences（PacBio RS 平台）（Blow，2008；Niedringhaus 等人，2011；Thompson 和 Milos，2011）。HeriScope 平台由 Pushkarev 等人使用，并耗资约 5 万美元。

四代测序结合了单分子和纳米孔测序技术，主要公司是 Oxford Nanopore Technologies（GridION 平台）。随着测序成本大幅下降，同时通量能力不断提高，这些新技术预计能够在几分钟内以 1000 美元甚至更低的价格完成一个人类基因组的测序（Netterwald，2010）。

Box 3.3 定义了测序领域中使用的关键概念。需要注意的是，我们将使用缩写 NGS 表示新一代测序（next-generation sequencing），以指代从二代测序到最新的任何高通量测序技术。

BOX 3.3：测序中的关键概念

template（模板）：它是测序仪需要读取的真实核苷酸序列。

read（读取）：它对应于测序仪读取的模板序列。读取的长度从几十个碱基到上百个碱基不等，取决于所使用的技术。当前技术在一次实验中可产生数百万到数十亿个这样的读取。

sequencing error（测序错误）：它是读取中的碱基，与模板中的真实碱基不对应。

depth of coverage（覆盖深度）：它表示基因组中某个位置的读取数，通常表示为。覆盖深度可以通过基因组内所有位置的平均覆盖深度来概括。由于测序仪可能产生测序错误，增加覆盖深度可以提高对齐或组装后获得的序列的准确性。

coverage（覆盖率）：它表示至少被一个读取覆盖的基因组的百分比。

reference genome（参考基因组）：它是样本中每条染色体的核苷酸序列，被认为是一个物种的代表。参考基因组通常通过从头测序（de novo sequencing）获得。人类基因组计划产生了第一个人类参考基因组。

alignment（比对）：它是将读取映射到参考基因组上（即获取它们在染色体上的位置）的过程。由于读取中通常存在测序错误，因此允许读取与参考基因组之间存在不完全匹配。

sequence assembly（序列组装）：将读取合并成更长的 DNA 片段的过程，以重建所研究样本的序列。

de novo sequencing（从头测序）：它是将读取组装在一起形成新的、先前未知的序列的过程。

run（运行）：测序仪为了生成读取而执行的一组步骤。

GC-content（GC 含量）：它是 DNA 序列中为 G 或 C 的碱基百分比。

3.2.2 基于扩增的高通量测序原理

基于扩增的高通量测序需要一个 PCR（聚合酶链式反应，Polymerase Chain Reaction）步骤来扩增每个模板的 DNA 数量，从而提供足够的材料用于可靠的信号检测。我们以通过寡核苷酸连接和检测进行的测序（Sequencing by Oligonucleotide Ligation and Detection, SOLiD™）平台为例。DNA 剪切后（参见图 3.12A），模板被分离为单链，并在条件允许的情况下捕获到珠子上，确保每个珠子上有一个 DNA 分子（参见图 3.12B）。模板（长度在 150 到 180 bp 之间）通过乳液 PCR 进行扩增，以便在测序反应期间提供足够的信号。在油相中，水相微滴包围一个珠子，形成用于 PCR 反应的微型反应器。珠子上包含一个连接到 DNA 模板 5' 端的适配器 P1 和连接到 3' 端的第二个适配器 P2。这两个适配器被称为 DNA 序列，是启动 PCR 必不可少的。无论模板是什么，始终使用相同的 P1 和 P2 适配器。然后，将珠子沉积在玻璃片上。

图 3.12 SOLiD 平台的文库构建

(A) 对于单端测序和双端测序，DNA 被剪切成片段（片段或模板的两端 T1 和 T2 的长度范围为 150 到 180 bp）。单端测序进行一个测序步骤（从位置），双端测序进行两个测序步骤（从位置和）。

(B) 创建油-水乳液以包封直径为 1 微米的珠子，珠子上带有 P1 和 P2 适配器以及单一模板。乳液 PCR 在微滴内进行后，珠子包含了几千个初始模板序列的拷贝。

(C) 在 mate-pair 文库中，根据所需大小选择 DNA 片段（例如，选择两端 T1 和 T2 的片段大小为 3 Kb）。然后在片段的两端连接一个内部适配器，DNA 被环化并在内部适配器的两侧被切割，使得两个生成的模板长度均为 50 个碱基。进行两个测序步骤。

以上内容改编自寡核苷酸连接与检测测序（SOLiD™）文档。

这种测序技术的主要限制在于可获得的读取长度。实际上，检测到正确碱基的概率通常随着读取位置的增加而降低。因此，读取长度超过 75 个碱基是 SOLiD™ 平台所能允许的最大值。出于质量原因，较长的读取可能不可靠。为了获得较长的读取，公司逐步增加循环次数，以保证序列质量。然而，通过使用改进的酶学和化学方法，可以从位置（对应 P2 适配器的起始点，参见图 3.12A）执行第二次测序。这一次，测序从 3' 端向 5' 端进行。这种方法称为成对末端标记（Paired-End Tag, PET）测序。对同一模板的两端进行测序有助于理解基因组结构和从头测序（Fullwood 等，2009a）。使用 PET，当前的 5500 XL SOLiD™ 理论上能够在 7 天内生成 300 Gb 的序列，相当于 48 亿条读取，每条读取长度为 75 个碱基（P1 端）和 35 个碱基（P2 端）。

PET 的一种替代方法是 mate-pair 文库测序（参见图 3.12C），它能够生成大小在 2 到 10 Kb 之间的 DNA 片段。DNA 剪切后，通过内部适配器连接使 DNA 片段环化。环化的 DNA 在内部适配器的两侧切割，并连接到常用的 P1 和 P2 适配器。PCR 可在上述步骤后进行。以与 PET 相同的方式执行两次测序步骤。第一次测序从位置开始，使用与 P1 适配器配对的引物，第二次测序从位置开始，使用与内部适配器配对的引物。将 mate-pair 文库测序获得的数据与 PET 数据相结合，为基因组的最大覆盖提供了强大的组合。图 3.13 展示了如何通过 5500 XL SOLiD™ 的 mate-pair 测序识别基因组重排。

图 3.13 使用 mate-pair 测序识别基因组重排

在对肿瘤基因组进行 mate-pair 测序（使用 SOLiD™ 测序仪）后，mate-pair 读取被比对到参考基因组上。由于 mate-pair 之间的预期距离是已知的（例如，），可以根据比对到参考基因组上时观察到的 mate-pair 之间距离的变化来识别缺失或插入。平衡和非平衡易位也可以被识别。工具如 SVMDetect（Zeitouni 等，2010）可以用于识别这些重排。有关易位检测的应用，参见图 3.15。

正如我们之前提到的，一种称为无荧光标记的后荧光（post-fluorescence）测序平台（即无激光）不再需要使用荧光染料，从而避免了扫描仪、摄像头和激光器的需求。在基于扩增的测序中，Ion Torrent PGM（Rothberg 等，2011）利用半导体技术取代了光学检测（参见图 3.14A）。在这种情况下，孔中形成一个离子敏感层。当聚合反应释放氢离子作为副产物时，该离子的电荷可以被离子敏感层检测到。在同聚物区，电压强度表明已合并的核苷酸数量。整个 Ion Torrent 系统被封装到芯片中。该芯片视图包含 318 个孔，每个孔大约包含 1200 万个孔，这些孔产生约 1 Gb 的序列，平均读取长度为 200 个碱基，耗时约 2 小时。

图 3.14 从第二代到第四代测序，以 TAGGCT 模板为例

(A) 第二代测序。在 Ion Torrent PGM 中，每个碱基被顺序添加并清洗。由于氢离子释放导致的电压变化，指示了已合并了多少个碱基。

(B) 第三代测序。在 PacBio RS 中，四种标记的核苷酸被添加到阵列上方。每种颜色的光强度指示了聚合酶沿着 DNA 序列合并了哪个核苷酸。

(C) 第四代测序。在 GridION 的外切酶测序中，外切酶连接到纳米孔上，从模板上逐个切割碱基。当碱基穿过纳米孔时，它暂时与适配分子结合，引起特征性的电流中断。

(D) 第四代测序。在 GridION 的链测序中，模板由于聚合反应被穿入纳米孔中。只要模板穿过纳米孔，每个碱基会像外切酶测序一样引起特征性的电流中断。

（参见彩色插页）

3.2.3 单分子测序原理

与第二代测序相比，信号是从一组模板中读取的，第三代测序的信号来自于单个 DNA 分子模板（Metzker, 2010；Efcavitch 和 Thompson, 2010；Hohlbein 等，2010）。在这种情况下，不再需要 PCR 扩增，因为可以直接从放置在孔中的单链 DNA 模板中获得序列。这种方法避免了与 PCR 步骤相关的成本和错误。单分子测序可以分为两大类。

第一类是通过循环过程测序 DNA 模板。在每个循环中，仅加入一个核苷酸，如果在测序位置遇到互补核苷酸，它将被 DNA 聚合酶（polymerase）掺入，然后洗出剩余的核苷酸（与 Ion Torrent PGM 的方法类似）。HeliScope 平台是第一个提出这种方法的平台（Harris 等，2008）。在每个循环中，平台会量化标记核苷酸的荧光，指示给定核苷酸是否被掺入。

第二类是实时测序。这类平台称为单分子实时（SMRT, Single Molecule Real Time）测序。在 SMRT 中，DNA 聚合酶执行的聚合反应可以实时连续记录，整个过程与 DNA 复制过程类似。Pacific Biosciences 开发了这种技术，其原理如下（Eid 等，2009）。一个玻片上包含数百万个称为零模波导（ZMW, Zero-Mode Waveguide）的孔，每个 ZMW 的直径为 70 nm，深度为 100 nm，反应体积约为 1.5 zeptoliter（升）。在每个 ZMW 中，一个 DNA 聚合酶分子被固定在玻片底部。标记有不同颜色荧光染料的核苷酸被加入到 ZMW 的阵列中，达到所需浓度。在每个 ZMW 的底部，固定的 DNA 聚合酶可以从单链 DNA 模板复制互补链。ZMW 的纳米结构允许聚合反应的进行。当激光穿过玻片激发后，发射的荧光光表明聚合酶沿 DNA 序列掺入了哪个核苷酸（参见图 3.14B）。当前技术允许 75,000 个 ZMW 并行测序。有趣的是，Flusberg 等（2010）注意到给定核苷酸的甲基化状态会影响 DNA 聚合酶的动力学。在聚合反应过程中，SMRT 测序中的荧光脉冲不仅通过发射光谱表征，还通过脉冲的持续时间和连续脉冲之间的间隔表征。脉冲持续时间和间隔受 DNA 的表观遗传修饰影响，使得甲基化和非甲基化的胞嘧啶得以区分。结果是，基于荧光检测的单分子测序面临的主要挑战是避免标记核苷酸产生的不需要的背景噪音。ZMW 尤其设计用于减少此类问题。McCarthy（2010）报告称，该公司声称可以获得 10,000 个碱基的读取（比 Sanger 测序长 10 倍），测序速度大约为 10,000 到 20,000 碱基/小时（每秒 1-3 个核苷酸）。

基于单分子 DNA 分析的其他策略使用纳米孔结构，其孔径略大于双链 DNA 分子的宽度（Stoddart 等，2010）。纳米孔被插入到脂双层生物膜中。碱基的检测是通过测量膜内孔道的电导变化来实现的。每个碱基的化学差异导致不同幅度的电流中断，从而区分四种碱基。有趣的是，电流中断的幅度还取决于碱基的甲基化状态，这允许检测 DNA 水平的表观遗传修饰（Wallace 等，2010）。目前，Oxford Nanopore Technologies 使用带有内嵌外切酶的生物纳米孔。外切酶作为 DNA 结合位点，从 DNA 链上切下单个碱基。每个切下的碱基通过纳米孔，检测到的电流允许识别碱基。外切酶调节 DNA 的运动，否则其移动速度将过快，难以精确检测（参见图 3.14C）。

假设每个碱基的测序速度为 1 毫秒，一个纳米孔需要 69 天才能处理 60 亿个碱基。10 万个孔以完全的效率运行，理论上可以在 30 分钟内测序一个具有 30X 覆盖深度的基因组。为了实现更快、更精确的测序，Oxford Nanopore Technologies 正在开发一种链测序技术，其中单链 DNA 片段通过纳米孔，单个碱基在通过时被识别（参见图 3.14D）。

未来的纳米孔技术一代将是固态纳米孔。这些纳米孔是人工在石墨烯片等合成材料上打的孔（Garaj 等，2010）。使用这些合成纳米孔克服了前两种方法中生物膜稳定性和蛋白质纳米孔定位的困难，但需要控制 DNA 链的运动（Luan 等，2011）。第四代测序允许实时测序，避免了如 Ion Torrent 一样的光学检测，不需要同步试剂清洗步骤，使其成为一种非常有前景的方法。

3.2.4 靶向测序

尽管基因组测序的成本大幅降低，它仍然是一项昂贵的技术。因此，目前尚不适合对大量不同的完整人类基因组进行测序。因此，已开发出不同的方案来缩小研究范围，以便在富集后可以选择性地测序特定的基因组区域（即靶向序列）。第一个方法包括使用 PCR 扩增感兴趣的区域，然后进行 NGS（新一代测序）。第二种方法基于捕获测序。在这种情况下，首先使用固定在微阵列或溶液中珠子上的探针捕获感兴趣的基因组 DNA（Mamanova 等，2010）。该方法的主要局限是探针设计用于靶向已知区域。从研究样本中提取 DNA，剪切并与探针杂交。靶向片段与各自的探针结合，而非靶向片段被洗去。随后，靶向 DNA 片段可以通过 NGS 进行测序。

靶向测序通常与条形码多重化（barcode multiplexing）结合，这样不同的样本可以在同一次运行中同时处理。不同的条形码（即短的已知 DNA 序列，例如四个碱基对的条形码）可以使理论上在相同时间内对 256 个样本进行测序，并将其与每个样本的模板合并。每个样本都可以通过其条形码唯一地识别。所有样本的序列被混合并测序。条形码在运行过程中被测序，允许将模板分配到其样本中。

靶向富集后结合 NGS 的典型应用是外显子组测序（Teer 和 Mullikin，2010）。该应用旨在测序所有对应于蛋白质编码区域的外显子（人类基因组包含约 180,000 个外显子，覆盖 30 Mb，即约占人类基因组序列的 1%）。这将有助于识别影响基因功能的突变。重要的是，退火条件（即两个 DNA 链结合在一起的条件）允许在捕获过程中发生配对错误，从而可以检测到 SNP 和突变。

3.2.5 高通量测序在肿瘤学中的应用

为什么重要的是要提及这些 NGS（新一代测序）技术？在不同的分子水平上，许多技术都涉及核苷酸序列，包括 DNA 或 RNA（参见图 3.1）。到目前为止，微阵列一直被认为是基因组学、转录组学或 miRNAomics 的首选工具。NGS 技术则被视为对肿瘤基因组进行全面实验的非常合适的工具，可用于 DNA、mRNA 和 miRNA 的分子分析。因此，这是一项尖端技术，很可能在不久的将来取代微阵列实验。此外，这些新平台可以探索生物学研究的新领域，包括古代基因组的研究、生态多样性的表征以及未知病因因素的鉴定。NGS 提供了许多应用，尤其是在医学领域（Schuster, 2007；Mardis, 2008a），特别是在肿瘤学中，为了：

定量 mRNA 表达（这称为 RNA-seq）

定量 miRNA 表达

鉴定替代剪接形式

定量 DNA 拷贝数（参见图 3.8，图 3.15）

鉴定 LOH（杂合性缺失）

使用 ChIP-seq 鉴定蛋白质与 DNA 的相互作用，即免疫共沉淀后测序（Farnham, 2009）

映射核小体在 DNA 序列中的位置

研究表观基因组修饰

发现突变

发现多态性

以单碱基分辨率映射染色体重排（易位、融合基因、缺失、扩增等）（Chen 等，2008；Campbell 等，2008）（参见图 3.15）

发现非编码 RNA（ncRNA）

研究染色质的空间组织

图 3.15 使用 mate-pair 测序对 T47D 细胞系中的 DNA 拷贝数和染色体间易位进行鉴定

染色体（黑色 = p 臂，灰色 = 着丝粒，白色 = q 臂）围绕一个圆圈表示。内圈中的黑色连线表示染色体间易位。在此实验中也鉴定了图 2.12 中所示的易位。外圈代表 DNA 拷贝数图谱，其外观与图 3.8 中的图谱非常相似。我们使用以下算法分析数据：读取使用 bowtie 算法比对（Langmead 等，2009），DNA 拷贝数由 FREEC 估计（Boeva 等，2011a），易位由 SVMDetect 鉴定（Zeitouni 等，2010）。使用 Circos 绘制结果（Krzywinski 等，2009）。图 3.13 解释了如何鉴定易位。数据来源于 Hillmer 等（2011）。

虽然大多数第二代测序依赖于在参考基因组上的比对，但第三代和第四代测序中的更长的读取允许组装（Martin 和 Wang, 2011）肿瘤基因组。这为研究肿瘤中的基因组重排提供了新的见解。

需要注意的是，所有测序技术都有不同的特性，一些测序仪更适合特定的应用（Thompson 和 Milos, 2011）。对于日常常规诊断中使用靶向测序，Ion Torrent PGM 非常适合，而其他测序仪可能更适合用于研究目的。

3.3 染色体构象捕获

微阵列和 NGS 技术有助于将肿瘤基因组的结构重构为一个由遗传元素（易位、增益区域、缺失区域、SNPs、突变等）组成的一维线性序列。然而，在细胞核中，基因组被组织成一个复杂的三维结构。例如，染色质环和桥将染色体中遥远的元素拉近，从而使这些遥远的遗传元素之间的相互作用可能影响基因的沉默或激活。在这些元素中，有参与转录调控的增强子和启动子（参见附录 A.1.1）。

尽管更可能的是遗传元素与同一染色体中的邻近基因相互作用，但也可能发生在不同染色体上的共调控基因在细胞核内的相同空间定位处进行转录。这种模型被称为转录工厂（Sutherland 和 Bickmore, 2009；Cook, 2010）。检测这些相互作用的技术进展有助于我们理解基因组的功能组织，以及基因组在环境变化过程中（如发育和疾病期间）的适应性应对能力（Göndör 和 Ohlsson, 2009）。由于不同 DNA 元素之间的相互作用主要通过蛋白质复合体进行，所有用于研究染色体构象的实验方案都使用甲醛固定细胞，从而将蛋白质与其他蛋白质以及在细胞核中近距离的 DNA 元素交联在一起，使得相互作用的 DNA 元素被连接在一起。用于解析 DNA-DNA 相互作用的四种方法见图 3.16 和文献（Simonis 等, 2007；Tanizawa 和 Noma, 2011）。

图 3.16 基于 3C 的方法的协议

(A) 3C 量化两个感兴趣位点之间的相互作用，(B) 4C 量化一个感兴趣位点与整个基因组之间的相互作用，(C) 5C 量化位于感兴趣区域内的位点之间的相互作用，(D) Hi-C 量化基因组内所有可能位点之间的相互作用。图像改编自 Simonis 等（2007）；Tanizawa 和 Noma（2011）。

染色体构象捕获（3C） ：对于事先选定的两个感兴趣位点，3C 技术（Dekker 等，2002）可量化它们之间的相互作用频率（参见图 3.16A）。在交联后，染色质被限制性内切酶消化。在有利于交联 DNA 片段之间连接的条件下，DNA 末端被连接。然后，交联被逆转，使用引物扩增并定量连接产物，这些引物被设计用于配对感兴趣的两个位点。该技术的主要局限性在于实验中只能研究两个位点。

环化染色体构象捕获（4C） ：为克服 3C 的局限性，基于 3C 的一种替代方案被开发出来，用于筛选染色体之间的物理相互作用，而不需要预先设想相互作用的伙伴（参见图 3.16B）。此技术称为 4C（Göndör 等，2008）。环化步骤允许使用两个引物鉴定与感兴趣序列相互作用的序列，这两个引物定位在感兴趣序列上或接近交界处。在 PCR 后，高通量单端测序（或微阵列）可以检测与目标位点相互作用的 DNA 区域。

碳复制染色体构象捕获（5C） ：3C 的另一种扩展可以在一个感兴趣的区域内研究所有潜在的相互作用（参见图 3.16C）。基本上，该技术使用多重连接介导扩增（Dostie 等，2006, 2007）并行进行许多 3C 实验。该技术称为 5C，需要设计与所研究的区域中的所有位点数量相同的引物。通常，可以使用一千个引物，从而可以测试数百万次相互作用。相互作用位点的两端通过高通量 PET 测序鉴定。研究区域的大小受到可同时使用的引物数量的限制，因此该技术不适用于全基因组扫描。

Hi-C ：3C 及其后续适应检测染色体相互作用需要选择一组目标位点。由于需要生物学家设计引物，这是最重要的限制，导致全基因组研究变得不可能。为克服该限制，提出了一种称为 Hi-C 的方案，用于对染色体构象进行全基因组研究（参见图 3.16D 和 Lieberman-Aiden 等，2009；van Berkum 等，2010）。Hi-C 允许制备对应于在细胞核中彼此接近的片段对的全基因组连接产物库。在交联和限制性内切酶消化后，在相互作用的 DNA 片段连接处添加一个报告分子。报告分子是一个生物素-链霉亲和素复合物，固定在磁珠上。剪切文库后，只保留含有连接位点的片段，并通过磁铁提取。纯化的连接点随后可以通过高通量 PET 测序分析，从而生成相互作用元素的目录。

有趣的是，3C 基于的技术可以与 ChIP 联合使用，以分析特定蛋白质结合 DNA 序列之间的相互作用。这种方法称为 ChIP-loop（Simonis 等，2007）或 ChIA-PET（Fullwood 等，2010, 2009b），其工作原理如下。交联后，使用特异性抗体富集包含 POI（目标蛋白）的 DNA 元件。其他步骤与 3C 协议相似。

由于分析是在一组细胞群体上进行的，3C 和基于 3C 的技术提供了 DNA 相互作用频率的信息，但不能提供功能性信息。因此，通常需要额外的遗传实验，以确定 3C 技术识别的相互作用是否对细胞具有功能意义。此外，染色质纤维的柔性使得同一纤维上的 DNA 元素以频率与其基因组距离成反比地随机碰撞。因此，连接产物的检测不一定表示特定的相互作用。

图 3.17 展示了不同的 3C 基于方法在研究基因组中的 DNA 相互作用时提供的可能性。

图 3.17 基于 3C 方法的示意表示

在 Hi-C 实验中，数据可以表示为一个对称矩阵，其中一行和一列分别对应于两个不同的位点，使得所有行和列覆盖整个基因组。对于矩阵中的一个单元格（即一对位点），可以赋予一个从 0 到 1 的值，表示它们相互作用的频率。3C、4C 和 5C 分别对应于矩阵中的一个单元格、一行和一个子矩阵，而 Hi-C 获得的是整个矩阵。

3.4 大规模蛋白质组学

蛋白质组学在大规模上研究蛋白质的各种特性，包括它们的序列、数量、翻译后修饰（Post-Translational Modifications, PTM）、相互之间的作用、细胞定位和结构。由于蛋白质在细胞内是执行功能的效应分子，蛋白质组学研究对于理解基因功能至关重要。此外，尽管信使 RNA（mRNA）可以在细胞内被检测到，但它们并不一定会被翻译成蛋白质。即使被翻译成蛋白质，这些蛋白质可能存在但处于不活跃状态。因此，蛋白质组学研究为基因组学和转录组学提供了补充性的知识。

蛋白质的特定功能依赖于四个属性：(1) 肽序列（一级结构）；(2) 局部结构，如 α-螺旋或 β-折叠（二级结构）；(3) 三维形状（三级结构）；以及 (4) 与其他蛋白质形成复合物的能力（四级结构）。此外，PTM（如磷酸化、泛素化、糖基化、酰基化等）可以改变蛋白质的二级、三级或四级结构，从而改变其活性和特性。

在细胞内，不同蛋白质的浓度范围可以从几 pg/ml 到几 mg/ml 不等。这意味着需要使用高度灵敏的技术来识别和定量那些含量较低的蛋白质。与核苷酸相关的实验不同，后者可以通过聚合酶链反应（Polymerase Chain Reaction, PCR）产生足够的材料（用于微阵列或下一代测序 NGS 的杂交），但蛋白质没有类似的扩增方法。因此，为了获得可靠的测量信号，技术的灵敏度要求更高。此外，核苷酸序列中的互补性在蛋白质中并不存在。最后，蛋白质组学需要对蛋白质进行提取和纯化，这是一个困难的步骤。以上原因使得蛋白质组的复杂性巨大，分析也非常具有挑战性。

在本节中，我们将重点介绍识别和定量蛋白质、检测其 PTM 和表征其相互作用的技术，而蛋白质结构的研究将不在讨论范围内。解码蛋白质组的主要方法包括微阵列、质谱和双杂交系统（Johnson 和 Hunter, 2005）。

3.4.1 基于微阵列的蛋白质组学

为应对蛋白质组的复杂性，基于免疫测定实验的研究方法得到了广泛的发展。在这种情况下，蛋白质组学研究依赖抗体，而抗体是免疫系统用于识别外源生物（如病毒、细菌）中特定抗原（如蛋白质）的分子。抗体拥有一个特定且高度可变的结构域，可以适应识别宿主生物体在其生命过程中遇到的任何潜在抗原。生物技术方法可以制备出能够靶向特定蛋白质（Protein of Interest, POI）的抗体，但确保其特异性和敏感性是一项复杂的任务。因此，在人类可能存在的数百万种蛋白质形式（包括其翻译后修饰 PTM）中，只有几千种抗体可以靶向某些特定的蛋白质。微阵列技术与免疫测定方法结合，以便在生物样本中实现蛋白质的高通量定量。然而，由于制备和使用抗体的困难，微阵列的通量仍然低于基于核苷酸的微阵列。以下是允许蛋白质水平相对定量的三种微阵列方法（MacBeath, 2002；Tomizaki 等人, 2010；LaBaer 和 Ramachandran, 2005；Spurrier 等人, 2008）。

图 3.18 蛋白质阵列

(A) 在夹心微阵列（sandwich microarray）中，特定的初级抗体固定在载玻片上以捕获目标蛋白（Protein of Interest, POI），随后通过与荧光染料耦联的特定次级抗体进行检测。

(B) 在抗原捕获测定（antigen capture assay）中，POI 同样通过固定抗体捕获，但捕获的蛋白直接检测（在对复杂的蛋白混合物进行化学标记后）。

(C) 在反向相位蛋白阵列（Reverse-Phase Protein Array, RPPA）中，蛋白质混合物本身固定在载玻片上。POI 可以通过与荧光染料耦联的初级抗体识别，或 (D) 通过识别蛋白的初级抗体和靶向初级抗体的与荧光染料耦联的次级抗体识别。AB = 抗体（antibody）。图片改编自 MacBeath（2002）。

夹心免疫测定法 （Sandwich immunoassay）：该技术基于广泛用于医学诊断的酶联免疫吸附测定（Enzyme-Linked ImmunoSorbent Assay, ELISA）。首先，将特定抗体固定在载玻片上以捕获 POI，随后使用与荧光染料耦联的第二种特定抗体进行检测（见图 3.18A）。此技术要求有两种特异性抗体可用于识别 POI。在单个生物样本中，若抗体与 POI 之间不存在交叉反应，数十种蛋白质可以同时定量。
抗原捕获免疫测定法 （Antigen capture immunoassay）：样本中的蛋白质首先进行标记程序，添加荧光染料到每个蛋白质上（见图 3.18B）。使用两种不同的荧光染料允许在单次实验中测量两个不同的样本，类似于基因组比较杂交（array Comparative Genomic Hybridisation, aCGH）协议（见图 3.3）。POI 由固定抗体捕获，与前一种技术相同，并测量两种荧光强度。对于单个样本，可以同时定量几百种蛋白质。
反向相位蛋白阵列（Reverse-phase protein array, RPPA） ：样本中的蛋白质直接固定在载玻片表面。可以使用与荧光染料耦联的特异性初级抗体（见图 3.18C）或同时使用特异性初级抗体和与荧光染料耦联的次级抗体来识别 POI（见图 3.18D）。初级抗体通常来自另一物种（例如研究人类蛋白质组时，使用兔源抗体），而次级抗体能够识别任何兔源抗体。这种策略降低了与初级抗体耦联荧光染料的成本。前两种技术允许在单次实验中测量一种或两种样本中的多种不同蛋白质，而 RPPA 则允许在单次实验中定量数百个样本中的单一 POI。在这种情况下，微阵列上的一个斑点对应一个样本的蛋白质裂解物。

3.4.2 基于质谱的蛋白质组学

Box 3.4：质谱

一个质谱仪由以下装置组成：

离子源 ：将气相、液相或固相样品分子转化为离子。

质量分析器 ：通过应用电磁场，根据质量电荷比（m/z）对离子进行排序。不同的技术包括飞行时间（time-of-flight）、离子阱（ion trap）、四极杆（quadrupole）、傅里叶变换质谱（Fourier transform mass spectrometry）和轨道阱（orbitrap）。这些技术各有其特点，适用于不同的应用。

检测器 ：记录每个 m/z 值的离子数量。

质谱（MS）或串联质谱（MS/MS）实验的输出结果是一个谱图，由一系列在给定 m/z 值下的峰组成。每个峰的高度表示离子的丰度。通常将最高峰的高度重新调整为 100。

质谱（Mass Spectrometry, MS）是一种分析技术，用于确定分子的组成或复杂分子混合物中的化合物列表（见盒 3.4）。这种技术已在不同的科学领域中得到广泛应用，特别是在生物学中用于蛋白质组研究。与基于微阵列的蛋白质组学研究已知的蛋白质不同，MS 可以在无需先验知识的情况下识别任何蛋白质。最初，MS 更适合小分子，分析蛋白质等大分子具有很大的挑战性。在 20 世纪 80 年代，出现了软电离技术，如电喷雾电离（Electrospray Ionisation, ESI）和基质辅助激光解吸电离（Matrix-Assisted Laser Desorption/Ionisation, MALDI），这些技术可以在不破坏化学键的情况下对大分子进行电离（John B. Fenn 和田中耕一因该技术获得 2002 年诺贝尔化学奖）。这是 MS 在生物学中，尤其是蛋白质研究中的一个关键进展。

图 3.19 质谱协议

蛋白质从细胞或组织中提取，并在一维电泳（one-dimensional electrophoresis, 1DE）后选择子蛋白质组。蛋白质被消化成肽段，通过液相色谱（Liquid Chromatography, LC）分离并电离，获得质谱（Mass Spectrometry, MS）谱图和串联质谱（Mass Spectrometry/Mass Spectrometry, MS/MS）谱图。（见彩图插页）

值得注意的是，双重质谱（tandem mass spectrometry 或 Mass Spectrometry/Mass Spectrometry, MS/MS）被开发出来，以便更好地表征待分析的分子。该技术使用两个质量分析器，结合 MS 和 MS/MS 谱图可以确保蛋白质的鉴定。此外，MS 和 MS/MS 可以用于检测翻译后修饰（PTM），因为 PTM 会改变肽的质量指纹。图 3.19 描述了 MS 实验的典型流程（参考 Aebersold 和 Mann, 2003；Patterson 和 Aebersold, 2003；Choudhary 和 Mann, 2010；Domon 和 Aebersold, 2010）：

蛋白质从细胞或组织中提取。由于质谱仪无法同时处理多种蛋白质，提取的是一个子蛋白质组。这通常通过一维或二维凝胶电泳（1D 或 2D gel electrophoresis∗）实现。此外，整蛋白的 MS 灵敏度低于肽段 MS，通常采用蛋白水解反应用胰蛋白酶（或其他酶）对蛋白质进行酶促消化，生成小肽段。每种蛋白质都有其特有的签名，称为肽质量指纹，是在特定 m/z 值下的一系列峰。
为了提高 MS 的灵敏度和特异性，使用液相色谱（Liquid Chromatography, LC）分离样本中的肽混合物。简而言之，分析物在穿过色谱柱时与固定相发生特定的化学或物理相互作用，减缓了其移动速度。减缓程度取决于分析物的性质（如疏水性）和固定相与流动相的成分。特定分析物在特定条件下的洗脱时间（retention time）被视为该分析物的相对独特的识别特征。当分析物从色谱柱中洗脱出来时，通过 ESI 进行电离并由 MS 和 MS/MS 分析。
电离后，离子混合物进入第一个质量分析器，根据它们的 m/z 值进行排序并检测。对在固定时间窗口内进入质量分析器的离子产生一个 MS 谱图，称为扫描谱。
在 MS/MS 中，流程如下：从 MS 谱图中，扫描谱的离子要么是特定选择的（例如用户预先定义的离子列表），要么是自动选择的（例如最高峰的前体离子）。前体离子通常对应于独特的肽段，但在某些情况下可能会被其他肽段污染。接着，前体离子与中性气体碰撞后被分解成产物离子。产物离子根据是否包含氨基端（N-terminus）或羧基端（C-terminus）被命名为 ai、bi、ci 或 xi、yi、zi，其中 i 表示离子中氨基酸的数量（见图 3.20）。为保持稳定性，切割通常发生在肽键处，因此主要观察到 b 和 y 产物离子。最终，第二个质量分析器根据 m/z 值对产物离子进行排序。生成的 MS/MS 谱图允许氨基酸序列的鉴定。
MS/MS 谱图允许通过生物信息学工具（如 MASCOT 或 SEQUEST）在参考数据库中查询以鉴定肽段（Shadforth 等人, 2005）。传统生物学方法和生物信息学预测模型已识别出许多基因序列。结果，人类参考基因组中大约有 25,000 个基因被注释。通过应用遗传密码至 DNA，并在计算机中模拟胰蛋白酶消化，可以推导出可获得的肽段的完整列表。包含每个肽的 m/z 值列表的数据库最终被查询，以检索样本中很可能存在的候选蛋白质。

许多生物学或临床问题需要比较两种或更多不同条件下的情况。因此，质谱（Mass Spectrometry, MS）需要能够比较不同条件下的蛋白质数量，或至少是相对数量。蛋白质组消化产生的肽数量与 LC-MS/MS 系统的分析能力（即可以分离、检测和鉴定的成分数量）之间存在显著差异，这使得在同一样本的重复分析中无法获得完全可重复的肽集合。因此，使用 MS 进行定量蛋白质组学是一项特别具有挑战性的任务。为克服这些限制，开发了不同的方法（参见 Bantscheff 等人, 2007；Elliott 等人, 2009）。第一种方法是细胞培养中的氨基酸稳定同位素标记（Stable Isotope Labelling with Amino acids in Cell culture, SILAC）（见图 3.21A 和 Ong 等人, 2002），它依赖代谢标记，使用轻型或重型的精氨酸和赖氨酸来表示两个不同的条件。由于胰蛋白酶在精氨酸或赖氨酸之后切割蛋白质，因此可以确保水解后得到的所有肽段至少携带一个标记的氨基酸。因此，不同条件下的相同离子会产生质量差异。此技术需要培养细胞，因为标记是在细胞生长期间发生的。由于并非总是能够进行细胞培养，第二种方法称为通过酶反应引入稳定同位素（Enzymatic labelling），允许在胰蛋白酶水解过程中，使用轻 H₂O 或重 H₂O 标记肽 C 端（见图 3.21D）。第三种方法是同位素编码亲和标签（Isotope-Coded Affinity Tag, ICAT），该方法中，将试剂添加到半胱氨酸残基上（见图 3.21B 和 Gygi 等人, 1999）。在 MS 谱图中会观察到一个位移，不同条件下峰高度的比率表示两者之间的相对数量。为了获得更可靠的结果，可以计算 MS/MS 谱图进行验证。第四种方法允许同时比较两个以上的条件，即相对和绝对定量的同位素标签（Isobaric Tag for Relative and Absolute Quantitation, iTRAQ），它在所有肽段的 N 端附加一个特定标签来表示每个条件（见图 3.21C 和 Ross 等人, 2004）。每个标签由一个报告组和一个平衡组组成。由于所有标签的质量相同，每个条件的报告组和平衡组的质量组合都被设置为特定值。在碎裂步骤中，这些标签分解为报告离子和平衡产物离子。因此，从 MS/MS 谱图中可以通过报告峰的相应 m/z 值识别每个条件，并可以从峰高度的比率推导出相对蛋白质数量。由于上述方法中的样本制备依然是一项繁琐的任务，已经提出了生物信息学算法来校正固有的偏差和变化来源，以便定量蛋白质组学可以用于经典的 MS 和 MS/MS 实验（Griﬃn 等人, 2010）。这些依赖生物信息学算法的方法被称为无标记定量质谱（label-free quantitative MS）。

图 3.21 定量质谱

四种不同的策略允许对肽段进行特定标记，以区分不同的条件。对于每个肽段，在质谱（MS）谱图中可以观察到 m/z 值的位移，适用于 (A) SILAC，(B) ICAT，(D) 酶标记法；或者在串联质谱（MS/MS）谱图中观察到 m/z 值的位移，适用于 (C) iTRAQ。峰高度之间的比率表示不同条件之间的相对差异。

3.4.3 蛋白质-蛋白质相互作用

在细胞中，蛋白质是参与所有生物过程的关键分子，包括大分子复合体的形成。多个蛋白质相互作用，为细胞和生物体赋予特定的功能和行为。一个生物体的所有蛋白质-蛋白质相互作用（Protein–Protein Interactions, PPI）统称为相互作用组（interactome）。PPI 的破坏可能导致多种疾病的发生，包括癌症。此外，基于药物的 PPI 干扰可以用于抗击疾病。因此，研究相互作用的伙伴蛋白并分析由 PPI 形成的蛋白质网络在疾病理解和药物发现中具有重要意义。许多高通量实验方法已经被开发出来以研究 PPI。基于双杂交系统的遗传方法最早由 Fields 和 Song（1989 年）在酿酒酵母（Saccharomyces cerevisiae）中用于监测 PPI。酵母双杂交（Yeast Two-Hybrid, Y2H）系统可以在体内确定 PPI。它基于一种转录因子，该因子具有模块化结构，由物理上和功能上可分离的结构域组成：DNA 结合域（DNA-binding domain, DB）和转录激活域（transcription activation domain, AD）。DB 和 AD 结构域的物理分离导致转录因子失活（详见 Causier, 2004；Terentiev 等人, 2009）。在 Y2H 系统中，一个诱饵蛋白 X 与 DNA 结合域融合，猎物蛋白 Y 与激活域融合，生成两个杂交蛋白（X-DB 和 Y-AD）。当诱饵和猎物之间发生物理相互作用时，功能性转录因子被重建（Suter 等人, 2008）。在基因工程改造的酵母细胞中，表达这两个杂交蛋白会使 DB 和 AD 靠近，从而重新构建酵母转录因子（例如 GAL4）。此功能性补充的转录因子的 DB 可以结合在报告基因启动子区域的识别位点，称为上游特异性激活序列（Upstream Specific Activation Sequence, UAS），而 AD 与 RNA 聚合酶 II 等转录机器相互作用，驱动一个或多个报告基因的转录。产生的报告蛋白质使得能够选择那些携带相互作用蛋白对的细胞。需要注意的是，这两个子结构域单独不能诱导转录。酵母细胞通过两个质粒转染，第一个质粒带有 X-DB 蛋白，第二个质粒带有 Y-AD 蛋白，使得两个目标蛋白（POI）可以在细胞内产生（见图 3.22A）。为了提高通量，已经开发了一个系统（Jin 等人, 2007）。需要注意的是，Y2H 系统可能会导致假阴性相互作用（例如，空间位阻可能会阻止报告基因的激活）或假阳性相互作用（例如，诱饵和猎物的过表达会因高浓度而相互作用；诱饵可以自激活报告基因）。此外，可能会检测到伪相互作用，但这些相互作用在天然条件下并不会发生（例如，相互作用的蛋白质可能定位于在天然情况下通常不存在的细胞区域，从而允许非天然相互作用；相互作用的蛋白质被共表达，而相应的内源蛋白质可能永远不会同时存在）。这种高伪影风险对数据的有意义解释构成了重大挑战。

Y2H 主要生成二元相互作用。然而，它已被扩展到酵母三杂交（Yeast Three-Hybrid, Y3H）系统，使得只有当 X 和 Y 蛋白与第三个已知蛋白 Z 相互作用时才能检测到报告基因活性（见图 3.22C）。Y3H 被改进为筛选与诱饵蛋白显示的小分子相互作用的猎物蛋白。相反，在药物发现中，评估小分子是否能够阻止两个蛋白质相互作用可能具有研究价值。在这种情况下，使用一个带有报告基因的反选择标记，可以生成一种导致细胞死亡的有毒代谢物。能够抑制诱饵-猎物相互作用的小分子有望恢复细胞活力（见图 3.22B）。

图 3.22 酵母和哺乳动物双杂交系统的原理

(A) 在酵母双杂交系统（Yeast Two-Hybrid system）中，猎物和诱饵质粒都被转染到酵母中。如果蛋白质 X 和 Y 物理上相互作用，报告基因将被转录。

(B) 在反向酵母双杂交系统中，报告基因的转录对酵母是致命的。在此例中，URA3 基因编码的蛋白质将分子 5-FOA 转化为有毒代谢物。如果 X 和 Y 发生相互作用，酵母细胞在存在 5-FOA 的情况下会死亡（上图）；而如果一种药物阻止 X 和 Y 的相互作用，在存在 5-FOA 的情况下可观察到细胞生长。

(C) 在酵母三杂交系统中，如果 X 和 Y 都与第三种已知蛋白 Z 相互作用，则报告基因将被转录。

(D) 在哺乳动物双杂交系统（Mammalian Two-Hybrid system）中，猎物和诱饵质粒与酵母双杂交系统一样被转染到哺乳动物细胞中。此外，还转染了一个包含 UAS 区域的报告质粒，该质粒自然存在于酵母中。TM：转录机器（Transcription Machinery）；UAS：上游特异性激活序列（Upstream specific Activation Sequence）。图片及说明改编自 Suter 等人 (2008)；Causier (2004)；Lievens 等人 (2009)；Luo 等人 (1997)。

Y2H（酵母双杂交）系统已被用于表征细菌、后生动物模型（如果蝇 Drosophila melanogaster 和秀丽隐杆线虫 Caenorhabditis elegans）以及疟原虫（Plasmodium falciparum）中的相互作用组。Stelzl 等人（2005）和 Rual 等人（2005）使用 Y2H 来研究人类相互作用组。虽然 Y2H 显然适合在酵母中研究相互作用，但并不完全适用于哺乳动物的 PPI 研究，因为酵母中的实验条件可能并不能代表哺乳动物细胞中的情况。实际上，酵母和哺乳动物细胞在蛋白质翻译后修饰（PTMs）模式以及蛋白质的细胞内定位方面存在差异。这些蛋白质修饰类型以及哺乳动物细胞中独特的因子或调节因子可能影响蛋白质的相互作用能力。因此，在哺乳动物细胞的适当天然细胞条件下研究相互作用组会更加可靠，因为此时蛋白质已经进行了适当的修饰以便相互作用。因此，哺乳动物方法不仅应能检测出使用基于酵母的方法可能隐藏的一部分相互作用，还应允许随着时间、空间（亚细胞分布）和生理条件（由天然或合成刺激诱导的细胞过程激活或失活）来追踪蛋白质相互作用。虽然 Y2H 方法可能在通量和覆盖率方面仍然具有无与伦比的优势，但哺乳动物技术可能成为对相互作用组（或其子集）动态研究的必备工具。哺乳动物双杂交系统（Mammalian Two-Hybrid, M2H）依赖于共转染入哺乳动物细胞的三个质粒（Lievens 等人, 2009）。每个质粒都有独特的特性。与 Y2H 系统相似，第一个质粒包含融合的 X-DD 蛋白，第二个质粒包含融合的 Y-AD 蛋白。第三个质粒包含位于特定报告基因上游的 DNA 结合位点（Luo 等人, 1997）（见图 3.22D）。这种技术最初用于基因逐个验证，从而限制了基因组范围的分析。为了克服这一限制，Fiebitz 等人（2008）开发了细胞阵列蛋白-蛋白相互作用分析（CAPPIA）。在该分析中，诱饵和猎物表达质粒的混合物与自发荧光报告基因一起被固定在玻片上的特定阵列格式中。只有当表达的蛋白质相互作用并随后转激活报告基因时，贴壁细胞在微阵列上生长时才会发出荧光。这允许在哺乳动物细胞的天然条件下对 PPI 进行高通量研究。确定物理相互作用的蛋白质对，使得可以将相互作用组设计为图形。图中的每个节点对应一个蛋白质，而两个节点之间的边表示一个相互作用。

双杂交方法允许对有限数量的蛋白质伙伴进行研究。然而，在细胞中，几种不同的蛋白质可以相互作用并形成需要被发现的复合体。蛋白质复合体特征化的主要限制步骤是蛋白质纯化。为解决该问题，开发了串联亲和纯化（Tandem Affinity Purification, TAP）程序（Rigaut 等人, 1999；Puig 等人, 2001）。这是基于共免疫沉淀（Co-IP）的一种亲和纯化技术。TAP 最初在酵母中开发，能够在接近生理条件下纯化蛋白质复合体。蛋白质复合体的组成随后通过质谱（MS）确定。TAP 是一种快速可靠的技术，已成功应用于原核和真核细胞（如酵母）中的 PPI 分析（Gavin 等人, 2002）。

该方法经过改进，以提高其在哺乳动物细胞中的敏感性（Bürckstümmer 等人, 2006）。该技术基于使用附加在目标蛋白上的亲和标签。编码标签成分和目标蛋白的基因通过逆转录病毒被引入到宿主细胞中，使目标蛋白的表达水平接近生理水平。标准标签，常用于酵母，由两个金黄色葡萄球菌蛋白 A 的免疫球蛋白 G 结合（IgG）片段、烟草蚀刻病毒（TEV）蛋白酶的切割位点和钙调蛋白结合肽组成。目标蛋白复合体与标签一起通过两步亲和纯化程序从细胞提取物中分离。

第一步基于蛋白 A 与 IgG-Sepharose 珠子的结合，随后复合体在上述蛋白酶的作用下分离。第二步基于在钙存在下，部分钙调蛋白结合肽与钙调蛋白-Sepharose 珠子的结合（见图 3.23）。使用亲和标签可以从少量细胞中快速纯化蛋白质复合体，而无需预先阐明复合体中蛋白质的组成和各个蛋白质的功能。结合 MS，该方法可以鉴定研究中的蛋白质及其相互作用。此方法的原始标签及其改进有许多变种（Xu 等人, 2010；Figeys, 2008），因此，亲和纯化结合 MS 已被广泛用于研究 PPI。例如，Ewing 等人（2007）在人体中鉴定了 24,000 多个 PPI。

图 3.23 串联亲和纯化（Tandem Affinity Purification, TAP）的原理。

3.5 细胞表型分析

表型指的是生物体的任何可观察到的特征，是基因型和环境相互作用的结果。研究活细胞的表型提供了特定生长条件下生物过程中涉及的功能信息。例如，考虑一个在培养基中添加潜在抗癌化合物的癌细胞系。像细胞活力对比细胞死亡或生长速率这样的简单表型特征的表征可以在体外指示抗癌剂在体内的潜在疗效（参见图 3.24）。

图 3.24 使用细胞表型分析表征细胞生长速率

细胞核以白色或浅灰色显示。它们被细胞膜包围。图片由 Jacques Camonis 博士提供。版权所有 © 2012 居里研究所（Institut Curie）。

制药公司和生物技术公司已经开发出庞大的化合物库，包含超过一百万种不同的化学实体。化合物库中的化合物称为扰动剂。在药物研发中，首先从化合物库中筛选出潜在活性化合物（hits），并进一步开发成用于临床前测试的化合物（leads）。由于化合物库的规模非常庞大，药物发现过程需要快速且大规模的筛选。技术上的重大进展（如自动化样品制备、微型化、机器人技术、快速自动化显微镜的开发）以及结合自动定量图像分析，使高通量筛选成为可能（Mayr 和 Bojanic, 2009；Mishra 等, 2008）。通过在微孔板上平行测试化合物活性进行筛选，微孔板可包含 96、384、1,536 或甚至 3,456 个孔。在每个孔中，细胞在化合物库中的某一种化合物存在下生长。使用数十到数百个板允许大规模筛选并包含对照实验。

通常，所考虑的表型特征对应于数千个细胞在孔中的平均生物学反应。然而，在给定条件下，一些表型特征只能在一部分细胞中观察到（例如，在异质或共培养的细胞培养物、干细胞亚群等中）。因此，在细胞培养中监测每个细胞水平的表型特征，对于更准确地理解扰动剂的效应是必需的。例如，细胞形态、细胞器的空间组织、它们的大小和数量以及 POI（感兴趣的分子）的亚细胞定位都是可以评估的表型特征（Zanella 等, 2010）。

主要用于细胞表型分析的高通量技术包括高通量筛选（HTS）和高内涵筛选（HCS）。HTS 允许测量单一特征，而 HCS 可以同时记录许多不同特征。HTS 和 HCS 依赖于荧光染料作为生物传感器，以指示细胞内的生理变化或标记特定细胞器，包括细胞核、细胞质、线粒体、内质网、高尔基体和溶酶体。通常，抗体耦合荧光染料或遗传编码的荧光蛋白被使用。然而，有机染料在活细胞成像中的使用常常受其细胞毒性和光漂白的限制。

除了药物发现，HTS 和 HCS 在系统生物学中也非常有用，以破译哪些基因和信号通路（signalling pathways）参与了生物过程。在这种情况下，使用小干扰 RNA（siRNA）特异性失活目标基因并研究其产生的表型。此方法的局限性显然在于设计最有效耗尽目标基因的 siRNA。因此，每个 siRNA 必须准确验证以依赖于后续分析。代替在每个孔中添加化学化合物，可以添加 siRNA。有趣的是，可以在一种表型研究中通过添加靶向不同基因的 siRNAs 来评估 siRNA 之间的相互作用。

3.6 结论

本章介绍了用于表征癌症分子谱的主要高通量技术。其中，微阵列技术已经在理解肿瘤进展和肿瘤分类方面提供了显著的改进。如今，NGS 技术显著增加了我们深入开展癌症及癌细胞分子研究的可能性。此外，MS（质谱）和细胞表型分析也是非常有价值的技术。所有这些技术都为揭示癌症的复杂性和异质性提供了见解，并且很可能在不久的将来进入日常临床实践。然而，基于复杂的数学和统计方法进行的数据处理对于从这些生物技术产生的大量数据中提取相关的生物学和临床信息是必需的。这将在第 4 章至第 6 章中进一步讨论。

练习

在 Ewing 肉瘤中，您希望研究嵌合致癌转录因子基因 EWS/FLI1 的可能靶基因（参见第 29 页）。您会为此建议使用哪种高通量技术，并建议哪种实验设计？

假设您已使用寡核苷酸连接与检测（SOLiD™）平台对乳腺癌细胞系 T47D 进行了 mate-pair 测序。如何通过这些测序数据生成图 3.8 中所示的 B 等位基因频率（BAF）图谱？

重点

存在多种高通量技术来研究不同的分子水平。

高通量技术发展非常迅速。

高通量技术能够识别和表征生物系统中分子成分及其相互作用。

微阵列可以用于研究必须预先已知的寡核苷酸序列或蛋白质。

NGS 能够破译基因组的先前未知特征，并在灵敏度方面优于微阵列。

蛋白质研究仍然很复杂，从而限制了高通量的应用。

技术的进步提供了从细胞群体到单细胞行为和组织的缩放研究的可能性。

读书笔记 | 癌症计算系统生物学 | 第 03 章 实验性高通量癌症研究技术

主要观点总结

关键观点总结

关键观点1: 微阵列技术

关键观点2: NGS技术

关键观点3: MS和细胞表型分析

关键观点4: 高通量技术的发展

正文

请到「今天看啥」查看全文

目录

前言

3.1 微阵列

3.1.1 微阵列设计的基本原理

3.1.2 基于微阵列实验的 DNA 拷贝数研究

3.1.3 基于微阵列实验的 LOH 研究

盒子 3.2：单核苷酸多态性（SNP）

3.1.4 基于微阵列实验的 RNA 研究

3.1.5 DNA–蛋白质相互作用研究

3.1.6 DNA 甲基化

3.2 新兴的测序技术

BOX 3.3：测序中的关键概念

3.2.2 基于扩增的高通量测序原理

3.2.3 单分子测序原理

3.2.4 靶向测序

3.2.5 高通量测序在肿瘤学中的应用

3.3 染色体构象捕获

3.4 大规模蛋白质组学

3.4.1 基于微阵列的蛋白质组学 (adsbygoogle = window.adsbygoogle || []).push({});

3.4.2 基于质谱的蛋白质组学

3.4.3 蛋白质-蛋白质相互作用

3.5 细胞表型分析

3.6 结论

练习

重点

请到「今天看啥」查看全文

读书笔记 | 癌症计算系统生物学 | 第 03 章实验性高通量癌症研究技术

3.4.1 基于微阵列的蛋白质组学