专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物制品圈  ·  只需每3~6个月给药一次!圣因生物siRNA ... ·  3 天前  
生物探索  ·  Nature Medicine | ... ·  3 天前  
生物制品圈  ·  百利天恒,双抗 ADC 技术 ... ·  4 天前  
51好读  ›  专栏  ›  生信菜鸟团

读书笔记 | 癌症计算系统生物学 | 第 03 章 实验性高通量癌症研究技术

生信菜鸟团  · 公众号  · 生物  · 2024-11-21 06:40

主要观点总结

本章介绍了用于研究癌症分子谱的主要高通量技术,包括微阵列、NGS、MS和细胞表型分析。这些技术为揭示癌症的复杂性和异质性提供了见解,有助于更深入地理解肿瘤进展和肿瘤分类。重点介绍了微阵列技术的基本原理和应用,NGS技术的优势和在肿瘤学中的应用,以及MS和细胞表型分析在系统生物学和药物发现中的价值。尽管这些技术提供了丰富的信息,但数据处理仍然是挑战,需要复杂的数学和统计方法。

关键观点总结

关键观点1: 微阵列技术

微阵列技术用于研究预先已知的寡核苷酸序列或蛋白质,在理解肿瘤进展和分类方面提供了显著改进。

关键观点2: NGS技术

NGS技术能够破译基因组的先前未知特征,显著增加了对癌症及癌细胞分子研究的可能性,优于微阵列在灵敏度方面的应用。

关键观点3: MS和细胞表型分析

MS和细胞表型分析是系统生物学和药物发现中非常有价值的技术,提供了从细胞群体到单细胞行为和组织的研究可能性。

关键观点4: 高通量技术的发展

技术进步提供了从分子成分及其相互作用到单细胞行为和组织的研究可能性,但仍需要复杂的数学和统计方法进行数据处理。


正文

第 03 章 实验性高通量癌症研究技术

目录

  • 目录

  • 前言

  • 3.1 微阵列(Microarrays)

    • 3.1.1 微阵列设计的基本原理

    • 3.1.2 基于微阵列实验的 DNA 拷贝数研究

    • 3.1.3 基于微阵列实验的 LOH 研究

    • 3.1.4 基于微阵列实验的 RNA 研究

    • 3.1.5 DNA-蛋白质相互作用研究

    • 3.1.6 DNA 甲基化

  • 3.2 新兴测序技术

    • 3.2.1 高通量测序的基本原理

    • 3.2.2 基于扩增的高通量测序原理

    • 3.2.3 单分子测序的原理

    • 3.2.4 定向测序

    • 3.2.5 高通量测序在肿瘤学中的应用

    • 3.2.6 向单细胞测序发展

  • 3.3 染色体构象捕获

  • 3.4 大规模蛋白质组学

    • 3.4.1 基于微阵列的蛋白质组学

    • 3.4.2 质谱蛋白质组学

    • 3.4.3 蛋白质-蛋白质相互作用

  • 3.5 细胞表型分析

  • 3.6 结论

  • 练习

  • 要点

前言

第 2 章 描述了当正常细胞转化为癌细胞时,在不同分子水平上发生的一系列失调现象。突变(mutations)的逐步累积以及在肿瘤进展(tumour progression)过程中发生的事件会在以下各个层次上扰乱细胞的正常行为(参见 图 3.1 ):
  1. DNA ,包括:
  • DNA 序列的突变
  • DNA 拷贝数的改变
  • 等位基因杂合性丢失(LOH)
  • 易位(Translocations)
  • 非编码 RNA 表达,包括 microRNA(miRNA)。
  • 信使 RNA(mRNA)表达,包括:
    • 可变剪接的修饰
  • 蛋白质,尤其是:
    • 它们的数量
    • 它们的修饰,包括蛋白激酶的磷酸化,这在信号传导中起关键作用
  • 表观遗传特征,包括:
    • DNA 甲基化
    • 组蛋白修饰(甲基化、乙酰化等)
  • 不同分子之间的相互作用,例如:
    • 转录因子与 DNA 的相互作用
    • 蛋白质之间的相互作用
  • 结果是,这些改变导致细胞表型特征的变化。
  • 癌细胞与其环境的相互作用,包括:
    • 血液供应
    • 免疫反应
    • 与细胞外基质(Extracellular Matrix, ECM)的相互作用
    理解肿瘤进展并改进肿瘤分类需要揭示在这些不同分子层次上发生的变化。当前的生物技术使我们能够精确描述每个肿瘤样本的分子特征,且信息检索必须尽可能详尽。例如,我们的目标是在每条染色体上尽可能多地确定 DNA 拷贝数,量化所有已知基因的信使 RNA(mRNA)表达,检测存在的可变剪接形式等。虽然对于某些分子特征来说,这种详尽搜索可能是可行的,但对于某些情况(特别是蛋白质),由于复杂性和技术原因,这是不可行的(参见 第 3.4 节 )。由于分子特征的定量应该尽可能详尽,允许进行这些测量的技术通常被称为基因组范围(genome-wide)技术。通常,这种研究特定类型分子特征的技术名称是将所研究的分子实体或生物功能与后缀 -omics 连接。例如,如图 3.1 所示,基因组学(genomics)研究 DNA 的改变(突变、拷贝数等),miR 组学(miRNomics)研究 microRNA(miRNA)表达,转录组学(transcriptomics)研究 mRNA 表达,剪接组学(spliceomics)研究不同的可变剪接形式,蛋白质组学(proteomics)研究不同的蛋白质,激酶组学(kinomics)研究蛋白激酶的磷酸化状态,表观遗传组学(epigenomics)研究表观遗传修饰,互作组学(interactomics)研究不同分子实体之间的相互作用,而表型组学(phenomics)研究细胞可观察的特征。后缀 -omics 来自希腊词根 omes ,表示“所有、每一个、整体或完整的”,提醒我们这些技术旨在实现详尽搜索。这些技术也被称为 高通量(high-throughput) 技术,因为它们在短时间内产生大量信息。值得指出的是,除了高通量技术外,还有其他方法或技术,但本书中不作讨论。在本章中,将详细介绍与 -omics 技术相关的技术细节。
    image-20241104100029045
    图 3.1 肿瘤学中的组学技术
    此图列出了癌症研究中使用的主要组学技术。请注意,还有其他组学方法存在。

    3.1 微阵列

    3.1.1 微阵列设计的基本原理

    随着对生物分子过程的更好理解以及 DNA 技术的进步,研究人员能够在体外(in vitro)模拟在体内(in vivo)发生的一些化学反应。1970 年限制性内切酶(restriction enzymes)和逆转录酶(reverse transcriptase)的发现、1977 年 DNA 测序、以及 1985 年聚合酶链式反应(Polymerase Chain Reaction, PCR)的发明(关于 DNA 技术的历史,参见 Nature Publishing Group, 2007 的里程碑年表)是生物技术领域的主要革命。化学、物理、光学、机器人、软件工程和分子生物学的进步促进了新的基因组范围定量工具的发展;微阵列(microarray)技术,也称为生物芯片(biochip)或芯片(chip),提供了微型传感器工具,使得可以在小于两平方厘米的玻片上对整个基因组的 mRNA 表达进行定量。微阵列于 1995 年出现,可以被视为过去 15 年中的重大生物技术革命之一。最初,微阵列出现在转录组学(transcriptomics)领域,并已广泛应用于所有组学(omics)方法中(参见 图 3.1 )。因此,开发了多种微阵列技术以适应不同的应用,例如 Hoonheisel (2006) 以及 Nature Genetics 在 1999、2002 和 2005 年发布的补充系列 Chipping Forecast 中均有报道。然而,所有微阵列技术依赖于以下介绍的相似特征。
    微阵列技术的基本原理如下:探针(probes,DNA、RNA 或蛋白质)固定在固体支持物上(即芯片),例如玻璃、塑料或硅(Southern 等, 1999)。它们作为特定的报告者,用于定量已知基因组位点的 DNA 拷贝数或蛋白质的量。探针需要特别选择,以便报告其目标的预期定量。
    对于 DNA 或 RNA 探针,通过探针序列与目标序列之间的特异性碱基配对互补性以及选择合适的抗体来确保蛋白质的特异性。探针被沉积在芯片上称为斑点或特征的显微区域中。然后,将 DNA、RNA 或蛋白质从肿瘤样本中提取并在芯片上杂交。如果样本中存在特定的 DNA 序列、RNA 序列或蛋白质,它们将与匹配的探针杂交。在一个微阵列中,存在数千甚至数百万这样的斑点,使其成为一种非常强大的基因组范围筛选工具。
    另一个微阵列的特征是使用称为荧光染料(fluorochromes)的荧光标记物(参见 框 3.1 ),用于测量 DNA、RNA 或蛋白质的量。实际上,由于在微阵列上无法直接量化附着在各自探针上的每个目标的数量,因此需要一种测量策略。这就是为什么要使用荧光染料来克服这一限制。在样品制备过程中,通过特定的化学反应使荧光染料被整合到核苷酸序列或蛋白质中。荧光信号的强度被量化,并与附着在探针上的目标量直接相关。不同波长(或颜色)的荧光染料可以在某些微阵列平台中同时使用。这些微阵列提供了标记和分析两个不同样本的可能性。例如,可以在不同实验中使用一个共同的参考。这些微阵列被称为双色或双通道微阵列。对于蛋白质组学微阵列,报告抗体通常与荧光染料耦合。由于蛋白质研究需要考虑蛋白质的化学性质,第 3.4 节 将专门介绍蛋白质组学。
    在基因组学、转录组学和 miR 组学研究中,Affymetrix 的 GeneChip® 被广泛使用,单个实验中可以测量大约 650 万个特征(参见 图 3.2A 和 Dalma-Weiszhausz 等人, 2006 的技术综述)。由于制造工艺的改进,特征尺寸的缩小使得表面上特征数量不断增加。其他微阵列(例如由 Agilent、Nimblegen 或 Illumina 公司提供的微阵列)也被广泛应用。例如,Illumina 公司推出了名为 BeadChip 的芯片。虽然探针和目标序列的原理仍然有效,但探针不再沉积在微阵列玻片表面,而是附着在硅珠上(参见 图 3.2B )。这些珠子在覆盖芯片的微孔中自组装(Fan 等人, 2006)。由于微孔中珠子的自组装是一个随机过程,每个珠子包含一个用于目标的探针序列和一个地址序列,可根据 Gunderson 等人(2004)描述的解码系统进行识别。除了商业平台外,许多实验室自制的微阵列也已被生产。所有这些微阵列技术已被广泛应用于肿瘤学(oncology),如 Cowell 和 Hawthorn(2007)所报道的。
    image-20241104100413201
    图 3.2 Affymetrix GeneChip® 和 Illumina BeadChip 设计
    (A) 芯片由一个 1.28×1.28 平方厘米的改性石英晶片组成。该表面包含约 650 万个 5 微米 × 5 微米 的特征。每个特征由数百万个相同的寡核苷酸(oligonucleotide)探针组成。寡核苷酸为 25 个碱基长的单链序列,作为基因组中已知位点的特定报告者。图片改编自 Dalma-Weiszhausz 等人(2006)。 (B) 硅珠,每个直径为 3 微米,随机自组装到中心间距为 5 微米的微孔中。每个探针在每个阵列上由平均 30-50 个珠子表示。每个珠子包含一个感兴趣的探针序列和一个地址序列,根据 Gunderson 等人(2004)描述的解码系统识别其身份。地址和探针共同代表每个珠子的特定寡核苷酸序列。每个珠子覆盖有数十万个该特定寡核苷酸序列的拷贝。图片改编自 Fan 等人(2006)和 http://www.illumina.com。

    3.1.2 基于微阵列实验的 DNA 拷贝数研究

    基因组范围的 DNA 拷贝数变化研究最初是使用 20 世纪 90 年代初开发的比较基因组杂交(Comparative Genomic Hybridisation, CGH)技术进行的。在该技术的第一个版本中,从肿瘤和正常对照细胞中分离出全基因组 DNA,用不同的荧光染料标记,并与正常中期染色体杂交(Kallioniemi 等人, 1992)。因此,该技术被称为染色体 CGH。然后,定量肿瘤荧光与中期染色体上的正常荧光的差异,以反映肿瘤基因组中 DNA 拷贝数的变化。
    随后,阵列比较基因组杂交(array Comparative Genomic Hybridisation, aCGH)技术被建立(Solinas-Toldo 等人, 1997;Pinkel 等人, 1998)。在这种技术中,带有基因组序列的微阵列取代了杂交载体的中期染色体,使用细菌人工染色体(Bacterial Artificial Chromosome, BAC)作为探针。aCGH 解决了使用细胞遗传学染色体制备所带来的许多技术难题和问题。aCGH 的主要优势是能够进行比染色体 CGH 更高分辨率的拷贝数分析。aCGH 已经广泛应用于肿瘤学的许多用途,例如全局分析拷贝数变异、潜在靶基因的识别、肿瘤分类或评估拷贝数变化的临床意义(Kallioniemi, 2008)。一个典型的 aCGH 微阵列实验的工作流程如下(参见 图 3.3 和 Pinkel 与 Albertson, 2005):
    • 从肿瘤样本(即测试 DNA)和正常样本(即参考 DNA)中分离全基因组 DNA。基因组 DNA 通常使用限制性内切酶消化,且 DNA 片段被差异标记:肿瘤 DNA 使用红色荧光染料(例如 Cy5)标记,而正常 DNA 使用绿色荧光染料(例如 Cy3)标记。
    • 将等量的肿瘤 DNA 和正常 DNA 结合。
    • 混合的肿瘤和正常 DNA 片段在芯片上杂交。在每个斑点内,肿瘤 DNA 目标序列与正常 DNA 目标序列之间进行竞争性杂交。
    • 扫描步骤定量红色和绿色通道的信号强度。生成的图像文件将每个像素分配红色和绿色强度。
    • 图像分析软件准确地重建每个斑点的信号强度。
    image-20241104100337919
    图 3.3 Array-CGH 协议
    该协议包括 DNA 的提取和标记、在芯片上的杂交、信号的扫描和图像分析以进行量化。(参见彩色插页。)
    一旦执行了该协议,我们如何期望信号随每个样本的 DNA 拷贝数而变化?对于每个斑点,肿瘤 DNA 和正常 DNA 之间会发生竞争性杂交。测试信号相对于参考信号的相对杂交强度(理想情况下)与测试和参考基因组中这些序列的相对 DNA 拷贝数成正比。如果肿瘤 DNA 拷贝数大于正常 DNA 拷贝数,则信号将偏向红色。相反,如果肿瘤 DNA 拷贝数低于正常 DNA 拷贝数,则信号将偏向绿色。因此,肿瘤 DNA 的 DNA 拷贝数与红/绿比值直接成正比,其理论值见 图 3.4 。出于统计原因,我们通常不使用红/绿比值,而使用该比值的 ,因此命名为 -ratio¹(¹ 对数变换允许值的分布更接近正态性,这通常在统计中是优选的。)。实际上,由于技术变异性,信号围绕其预期值波动,需要统计方法来提取真实信号。
    image-20241104110117366
    图 3.4 理论阵列-CGH 定量
    不同 DNA 拷贝数改变在肿瘤 DNA 中的理论比率和 -比率。
    此外,量化信号通常低于预期,原因有三:首先,该技术的量化并不完美,与真实 DNA 拷贝数相比,信号往往低于比例值(Pinkel 等人, 1998;Pollack 等人, 1999)。其次,肿瘤 DNA 通常含有来自邻近正常组织的正常细胞的污染;它们可以在样本中占很大比例,并降低来自癌细胞的信号。最后,肿瘤可能是异质的,因为它可以来自不同克隆群体(参见 图 2.5 ),这些群体具有不同的 DNA 拷贝数改变模式。
    aCGH 技术依赖于参考 DNA 为二倍体的假设。然而在实践中,这并不总是如此,因为即使在正常个体中,DNA 拷贝数变异也可能存在:基因组中的某些部分可以在许多拷贝中存在。这类基因组部分称为拷贝数变异(Copy Number Variant, CNV)(Iafrate 等人, 2004;Freeman 等人, 2006;Redon 等人, 2006),而基因组变异数据库(Database of Genomic Variants)提供了此类变异的目录。例如,Perry 等人(2007)发现唾液淀粉酶基因(AMY1)的拷贝数与唾液淀粉酶蛋白水平正相关,且高淀粉饮食人群的个体平均比传统低淀粉饮食人群拥有更多的 AMY1 拷贝。这是人类基因组中第一个关于拷贝数变异基因的正向自然选择实例。理想情况下,为避免测试 DNA 和参考 DNA 之间的 CNV 识别,aCGH 协议中使用的两种 DNA 应来自同一患者(在这种情况下,这些 DNA 被称为配对)。然而,患者的正常 DNA 并不总是可用,且商业参考 DNA 的使用通常是一种必要的折衷。重要的是,CNV 可能对癌症风险和个体的遗传特征有影响,在此类 CNV 中找到参考 DNA 可能成为其分析的缺点。
    典型的 DNA 拷贝数分子特征图的图形表示如 图 3.5 所示:x 轴表示沿基因组从染色体 1 到 22 以及 X 的探针位置;y 轴表示 DNA 拷贝数的 -ratio 值。在 IMR32 神经母细胞瘤(neuroblastoma)细胞系的特征图中,染色体 1p² 的丢失以及由于不平衡易位导致的染色体 1q 和 17q 的增益清晰可见。小尺度改变,例如染色体 2 上的 MYCN 扩增(MYCN amplification),可以通过相对于染色体 CGH 的 aCGH 技术的高分辨率检测到。
    image-20241104110613286
    图 3.5 IMR32 神经母细胞瘤细胞系的 aCGH 特征图
    显示了从染色体 1 到 22 以及 X 沿基因组排列的每个探针的 -比率。垂直黑线表示染色体之间的分隔。垂直虚线表示着丝粒位置。通过 aCGH 识别出 1p-17q 的不平衡易位和 1q 的增益。得益于 aCGH 技术的高分辨率,可以检测到小规模的改变,例如 MYCN 的扩增。数据来源:Janoueix-Lerosey 等人(2005)。 (参见彩色插页。)
    微阵列技术的最新进展已经从 BAC aCGH 转向寡核苷酸(oligonucleotide)aCGH(³ BAC 通常包含人类 DNA 序列的 100Kb;32,000 个 BAC 可以覆盖整个基因组。),从而允许每个芯片上的位点数量增加(Davies 等人, 2005;Ylstra 等人, 2006)。BAC 阵列主要由实验室自制,而寡核苷酸微阵列则由商业公司提供。在广泛使用的商业技术中,我们可以提到 Agilent 人类基因组 CGH 微阵列(Human Genome CGH Microarray)、Nimblegen 人类全基因组平铺阵列(Human Whole Genome Tiling arrays)、Illumina BeadChip 和 Affymetrix GeneChip®(请注意,对于 Affymetrix 和 Illumina 技术,协议中不需要正常 DNA,它们是一种单色微阵列,而对比于其他技术,这些技术使用正常和肿瘤 DNA 且为双色微阵列)。在 BAC 阵列的早期阶段,调查的位点数量约为 1,000-2,000,从未超过 32,000 个位点(Ishkanian 等人, 2004)。寡核苷酸阵列的使用允许大幅增加单芯片调查的位点数量。在撰写本章时,单个寡核苷酸阵列中人类基因组的位点数量范围为 100 万到 250 万,允许最大理论分辨率为 1.2Kb。这一数字很可能会增加。尽管最新的芯片更全面地覆盖了基因组,但它们的精确分辨率不仅取决于位点数量,还取决于灵敏度。Coe 等人(2007)为 aCGH 技术提出了一个分辨率定义,称为功能分辨率(functional resolution),它结合了基因组上位点间距的一致性,以及每个平台对单拷贝变化检测的灵敏度。从他们的研究来看,当前的商业平台允许单拷贝检测的分辨率在 35-55Kb 范围内,而染色体 CGH 为 10Mb,BAC aCGH 为 1Mb(在 Coe 等人(2007)研究时)。单个芯片中提供最多位点数量的是 Nimblegen 人类 CNV 阵列(Human CNV arrays),允许在整个基因组中量化 385,000 个位点。允许扫描基因组超过 50,000 个位点的寡核苷酸芯片通常被称为高密度或高分辨率芯片。Haraksingh 等人(2011)比较了这些技术的性能。除了寡核苷酸阵列分辨率的大幅提升外,Illumina 和 Affymetrix 在其设计中也结合了多态探针,以便在下节中讨论的异质性缺失(LOH)和 DNA 拷贝数的测量。

    3.1.3 基于微阵列实验的 LOH 研究

    尽管两个人的遗传组成非常相似,但他们的 DNA 序列之间的差异足以解释表型的多样性,包括许多疾病的易感性。这使得多态性特征的确定在生物医学科学中非常有用。2002 年,国际 HapMap 项目(International HapMap Project)启动,目标是确定人类基因组中 DNA 序列变异的共同模式,并将该信息免费公开(International HapMap Consortium, 2003)。为此,使用了来自亚洲、非洲和欧洲的 270 个个体样本。更近期地,千人基因组计划(The 1000 Genomes Project)于 2008 年启动,以获得人类基因变异的最详细目录(1000 Genomes Project Consortium, 2010)。单核苷酸多态性(Single Nucleotide Polymorphisms, SNP)是个体之间遗传变异的最重要来源(参见 框 3.2 )。因此,它们是微阵列设计中用于研究不同个体或群体之间基因组变异的非常有价值的探针。此外,在癌症研究中,SNP 探针可以评估 LOH,下一段将对此进行解释。Affymetrix 和 Illumina 公司提供了包含每个 SNP 等位基因特异性探针的微阵列设计。这种微阵列通常被称为 SNP 阵列。

    盒子 3.2:单核苷酸多态性(SNP)

    SNP(Single Nucleotide Polymorphism,发音为 snip)是一种 DNA 序列变异,当基因组中单个核苷酸(A、T、C 或 G)在两个个体之间的同一基因组位置上发生差异时,便形成了 SNP(Sachidanandam et al., 2001;Bunz, 2008)。以下是一个 SNP(C/G)的示例,其中存在两个等位基因(随意命名为 A 和 B):
    • A 等位基因:gtaccccatccctc c gtgtcgtgaatcaga
    • B 等位基因:gtaccccatccctc t gtgtcgtgaatcaga
    SNP 平均每 1,000 到 2,000 个核苷酸中出现一次,只有当这种变异在群体中 1% 或以上的个体中出现时,才被称为多态性。在 NCBI 的 dbSNP 数据库中已记录了约 1,000 万种此类变异(Sherry et al., 2001)。大约 96% 的 SNP 出现在非编码区:其中一些可能表现为表型沉默,而另一些则可能具有功能性影响(例如,若某 SNP 位于调控序列、选择性剪接位点等区域)。其他 SNP 被称为非同义 SNP,它们会影响蛋白质序列。这两种类型的 SNP 都可以作为寻找与疾病、药物反应和复杂表型相关基因的标记。
    image-20241104161144102
    图 3.6 BAF 值的示例 父源(father)染色体 F 用白色表示,母源(mother)染色体 M 用黑色表示。正常细胞状态(A)到癌细胞中可能发生的五种不同变异状态(B 到 F)均有展示,并计算每个 SNP 的 BAF 值。
    为说明 SNP 探针如何用于评估肿瘤中的 LOH(杂合性缺失),我们可以考虑图 3.6A 中的正常细胞。在这种情况下,一条染色体来自母亲(M),另一条染色体来自父亲(F)。沿染色体存在不同的 SNP。为便于说明,假设染色体上有四个 SNP,每个 SNP 具有两个等位基因(A 或 B)。对于每个位点,可以按以下方式计算 B 等位基因频率(BAF):
    其中, 分别表示等位基因 A 和 B 的数量。
    对于正常细胞,在杂合位点(例如 SNP2 和 SNP3)上,BAF 等于 0.5;而在纯合位点(例如 SNP1 和 SNP4)上,如果存在 A 等位基因则 BAF 等于 0,如果存在 B 等位基因则 BAF 等于 1。如果某个 SNP 是杂合的,它被称为信息性 SNP。接下来,考虑一个癌细胞,该细胞经历了父系染色体的丢失,随后伴随母系染色体的复制(见图 3.6B)。这对应于“拷贝中性 LOH”情况(即染色体的拷贝数与正常细胞相同,但两条染色体来自同一亲本来源)。
    对于给定的实例如 图 3.6 所示的例子并不详尽,还可以想象许多其他情境。重要的是要指出,由于正常细胞的污染,从肿瘤样本计算的 BAF 值可能会与理论值不同。事实上,理论上的 BAF 值可以按如下公式表示:

    其中, 表示正常 DNA 的污染比例, 分别代表肿瘤中 A 和 B 等位基因的数量, 分别代表正常样本中 A 和 B 等位基因的数量。我们期望 等于 2,因为正常 DNA 是二倍体的。在实践中,比例 一般未知。可以基于病理学家(pathologist)对组织切片(histological sections)的专业知识或使用专门的生物统计学方法来估算该值(Popova 等人, 2009)。
    在微阵列实验中,BAF 值将按以下公式计算:
    其中, 分别是从各自的探针量化得到的 A 和 B 等位基因在芯片上的信号强度。
    正如我们在上一节中已经提到的,可以使用这种类型的微阵列技术评估 DNA 拷贝数。对于多态性探针,可以通过计算每个等位基因的数量来获得 DNA 拷贝数(CN),其公式为:

    从微阵列实验获得的信号是强度值,需要将其转换为更易理解的值。即使是单色微阵列,来自正常 DNA 样本的信号测量(通过配对的正常样本或与研究的肿瘤样本无关的正常样本的组合)仍然用于计算对数比值(log-ratio),如同在 aCGH 实验中一样。在没有正常参考 DNA 的情况下,可以使用来自 HapMap 项目的个体样本,因为微阵列实验已在不同的 SNP 微阵列平台上完成,包括 Illumina 和 Affymetrix 平台。使用参考正常样本计算对数参考比率(LRR)的公式如下:

    其中, 分别是肿瘤样本中 A 和 B 等位基因的芯片上信号强度,而 是正常样本中 A 和 B 等位基因的信号强度。
    BAF(B 等位基因频率,B Allele Frequency)和 LRR(R 比值对数,Log R Ratio)值提供了互补的信息,有助于表征肿瘤样本中的 DNA 改变。例如,这两个值可以区分正常细胞和图 3.6 所示的拷贝中性 LOH(杂合性缺失,Loss of Heterozygosity)情况。实际上,在正常细胞中,当 LRR 值等于 1 时,BAF 值在正常细胞的有信息 SNP(单核苷酸多态性,Single Nucleotide Polymorphism)上为 0.5,而在拷贝中性 LOH 情况下为 0 或 1。同样,这两个值的组合可以帮助区分 FFMM(四拷贝)和 FFFM(四拷贝)情况。在这两种情况下,LRR 值等于 2,而 BAF 值在有信息 SNP 上为 0.5,在 FFFM 情况下则为 0.75 或 0.25。
    图 3.7 展示了在染色体拷贝数为 0 至 7 的情况下 BAF 和 LRR 值的不同可能性。需要注意的是,0 拷贝状态在数学上是特殊的,因为无法计算 LRR 和 BAF 值。实际上,由于背景噪声和正常细胞的污染,信号强度 通常不会为零。因此,LRR 值会具有非常低的值(例如 或更低),而 BAF 值在有信息 SNP 上将等于 0.5。
    图 3.8 显示了一个使用 Affymetrix GeneChip® SNP 微阵列技术对乳腺癌细胞系 T47D(数据来自 Hu 等,2009 年)的实际实验的 LRR 和 BAF 曲线(包含约 5 万个基因位点)。以下描述了该肿瘤细胞系中的一些染色体改变:
    LRR 曲线显示 1p 染色体臂存在 2 个拷贝,而 1q 染色体臂存在 4 个拷贝。这可以从核型(图 2.12)中确认,核型还提供了额外的信息,表明 1q 染色体臂的 2 个额外拷贝已融合到染色体 16 上,这可能是由于易位引起的。BAF 值表明 1p 染色体臂来自相同的亲本来源,因为 BAF 值接近 0 或 1,而 1q 染色体臂的 2 个拷贝来自父本,另 2 个拷贝来自母本,因为 BAF 值为 0.5。
    LRR 曲线显示染色体 12 的 p12-pter(即 p 臂的亚区域,延伸至染色体 12 的末端)有一个单一的缺失,这可以通过 BAF 曲线和核型确认。
    LRR 曲线显示染色体 15 存在 3 个拷贝。核型表明染色体 15 的 2 个拷贝分别与其他染色体(7 和 15)发生融合,而另一个拷贝单独存在。BAF 曲线显示来自一个亲本的 2 个拷贝和来自另一个亲本的 1 个拷贝,在有信息 SNP 上的 BAF 值约为 0.33 或 0.66。
    需要注意的是,LRR 曲线和 BAF 曲线均不能指示染色体结构变异中的易位情况,而核型可以提供此类信息。此外,平衡变异不会在 LRR 曲线中显示出来,因为拷贝数保持不变。在这种情况下,NGS 技术可以帮助揭示此类信息(参见第 3.2 节)。
    DNA 拷贝数改变可以影响基因表达的调控,接下来的部分描述了如何在 RNA 水平上执行微阵列研究。
    image-20241104161216366
    图 3.7 理论 BAF 和 LRR 值 对于可能的不同变异情况,展示了理论 BAF 和 LRR 值。F 和 M 分别表示父源和母源染色体。
    image-20241104114216482
    图 3.8 T47D 乳腺癌细胞系的 LRR 和 BAF 图谱 对于从染色体 1 到 22 以及 X 染色体沿基因组排序的每个探针,显示了 LRR 值(顶部图谱)和 BAF 值(底部图谱)。垂直黑线表示染色体之间的分隔,垂直虚线表示着丝粒位置。在 LRR 图谱中,分段黑线对应于每个基因组区域的平均拷贝数;绿色 = 1 拷贝,黄色 = 2 拷贝,红色 = 3 拷贝,蓝色 = 4 拷贝。T47D 细胞系的 Affymetrix Human Mapping 100K Xba 芯片数据已从 NCBI GEO 数据库检索。我们使用 CRMAv2 (Bengtsson et al., 2009) 和 GLAD (Hupé et al., 2004) 分析了 LRR 图谱数据,使用 ACNE (Ortiz-Estevez et al., 2010) 分析了 BAF 图谱数据。可以将这些图谱与图 2.12 中提供的 T47D 乳腺癌细胞系的核型和图 3.15 中通过 NGS 获得的结果进行比较。数据来源:Hu et al. (2009)。(参见彩色插图。)

    3.1.4 基于微阵列实验的 RNA 研究

    如前所述,微阵列技术的开发最早是在转录组学领域进行的,并已在文献中广泛讨论。最初的实验方案与 图 3.3 中描述的 aCGH 方案非常相似,但使用的是 mRNA 而不是基因组 DNA。Affymetrix 公司开发的新技术改变了芯片构建和协议,使得不再需要参考样品。Affymetrix GeneChip®(见 图 3.2 )提供了一种方法,能够获得 mRNA 的半定量水平,而不是相对于参考样品的相对值。最近,为识别基因表达微阵列实验中的可变剪接形式提出了新的探针设计。这种微阵列被称为外显子阵列(exon-array)。对于每个基因,针对不同外显子的不同探针被固定在芯片上。然而,这种设计允许识别在两种条件下差异表达的外显子,例如,但很难准确定位表达的是哪个同工型。为克服这一限制,增加了重叠两个相邻外显子的探针(因此该芯片被称为外显子连接微阵列)。除了 mRNA 之外,用于研究 miRNA 的芯片也已经开发出来,并依靠完全相同的原理。

    3.1.5 DNA–蛋白质相互作用研究

    在细胞中,DNA 和蛋白质之间的相互作用对于许多生物过程至关重要,例如 DNA 复制、重组、DNA 修复以及转录调控。例如,在环境压力的响应中,转录因子结合到它们的 DNA 结合位点并调控其目标基因的转录(见 图 A.6 )。一个转录因子可以调控许多不同的基因,这些基因并不总是能够通过序列分析或体外(in vitro)研究轻易预测的。因此,识别所有潜在的转录因子目标基因是一项挑战。为此,基于染色质免疫沉淀(Chromatin Immunoprecipitation, ChIP)和 DNA 微阵列(chip)组合的高分辨率基因组范围方法可以使用。这种技术被称为 ChIP-on-chip。典型的 ChIP-on-chip 实验的流程如下(见 图 3.9 Bulyk, 2006; Buck and Lieb, 2004):
    • 细胞在所需实验条件下培养。
    • 在细胞培养物中,蛋白质通常使用甲醛与 DNA 交联。此步骤形成 DNA-蛋白质之间的可逆键并将 DNA 关联到 POI。
    • 交联后,细胞被裂解,染色质被切割成 1Kb 或更小的片段。
    • 与目标蛋白(Protein of Interest, POI)交联的 DNA 片段通过使用识别 POI 的抗体进行免疫沉淀而富集。
    • 甲醛交联随后被逆转,DNA 被纯化。
    • 通常需要进行 DNA 扩增步骤,因为免疫沉淀得到的 DNA 量较低。
    • 然后将富集的 DNA 标记为带有荧光分子(如 Cy5)。此过程称为免疫沉淀(ImmunoPrecipitation, IP)部分。
    • 在双色微阵列平台中,在免疫沉淀前保留部分裂解产物,用于提取 DNA,作为对照,并同样被扩增并用不同的荧光染料(如 Cy3)标记。此过程称为输入(input)部分。
    • IP 和输入分数被结合并按照 aCGH 协议(见 图 3.3 )的相同方式杂交到单个 DNA 微阵列上。IP 信号和输入信号通过扫描仪在微阵列上进行量化。
    image-20241104113031357
    图 3.9 ChIP-on-chip 实验流程
    从细胞培养物中,目标蛋白(Protein of Interest, POI)和 DNA 之间的相互作用通过免疫沉淀分离。免疫沉淀(ImmunoPrecipitation, IP)部分和输入部分均在微阵列上杂交。图像改编自 Buck 和 Lieb(2004)。
    理想情况下,为了对 DNA-蛋白质相互作用进行全面且高分辨率的调查,ChIP-on-chip 必须包含覆盖整个基因组编码区和非编码区的探针。为此,使用了寡核苷酸平铺阵列(tiling arrays)。在这种设计中,选择探针以覆盖整个基因组或基因组的连续区域。这些探针可能部分重叠或连续排列。由于选定探针的精确位置是已知的,可以构建蛋白质-DNA 相互作用的全基因组图谱,如 图 3.10 所示。对于每个位点,计算免疫沉淀(ImmunoPrecipitation, IP)信号与输入信号的 比值。被目标蛋白质(Protein of Interest, POI)结合的区域具有较高的 比值,并在基因组图谱中显示为一个峰值。
    该方法的分辨率主要取决于两个因素:切割的染色质长度以及微阵列上探针的长度和间距。
    除了识别 DNA 蛋白结合位点之外,ChIP-on-chip 方法还被广泛用于研究染色质结构,例如核小体位置图和组蛋白修饰位置。对于后者,使用针对特定修饰的抗体,从而可以解码组蛋白代码(Schones 和 Zhao, 2008)。确实,表观遗传修饰在癌症中对组蛋白和 DNA 水平都非常重要。下一节将介绍如何在 DNA 水平研究表观遗传修饰。
    image-20241104113052682
    图 3.10 ChIP-on-chip 图谱
    沿基因组表示 IP 信号与输入信号之间的 比值。POI 的 DNA 结合区域在基因组图谱中显示为一个峰值。

    3.1.6 DNA 甲基化

    DNA 甲基化是一种表观遗传修饰,在基因调控和基因组稳定性中起着重要作用(关于表观遗传机制的介绍,见附录中的 节 A.1 )。由于甲基化和未甲基化状态下的基因组序列保持不变,因此基于杂交的微阵列实验不能直接用于检测 CpG 二核苷酸的甲基化状态。因此,几乎所有特异性 DNA 甲基化分析技术都依赖于对 DNA 的甲基化依赖性处理,然后进行扩增并在 DNA 微阵列上进行杂交。Schones 和 Zhao(2008)以及 Laird(2010)综述了三种主要的分析方法。
    第一种技术基于限制性酶,能够特异性区分甲基化和未甲基化的 CpG。限制性酶切割未甲基化的 CpG,而甲基化的 CpG 保持未切割状态,使得在微阵列上杂交后可以区分这两种甲基化状态(Schumacher 等人, 2006)。
    第二种技术基于亲和力富集,使用特异识别甲基化胞嘧啶的抗体。其流程与 ChIP-on-chip 实验中描述的协议非常相似。这些技术被称为甲基化-DNA IP(MeDIP, mDIP, mCIP)。
    第三种技术基于亚硫酸氢盐转化(Reinders 等人, 2008)。在使用寡核苷酸微阵列分析亚硫酸氢盐处理的 DNA 时,未甲基化的 DNA 在胞嘧啶位置包含尿嘧啶(与胸腺嘧啶类似),并且与含鸟嘌呤的寡核苷酸探针杂交较差。甲基化的 DNA 则会与对应的互补链探针杂交。因此,为了检测特定基因组位点的甲基化状态,设计了两个不同的探针,以区分甲基化状态,如 图 3.11 所示。
    image-20241104113901904
    图 3.11 DNA 甲基化探针设计
    在基于亚硫酸氢盐处理的方法中,为每个位点设计了两个不同的探针,以检测其甲基化状态。当探针与甲基化状态的目标位点配对时,未甲基化探针中的所有 G 核苷酸被替换为 A。根据研究位点的甲基化状态,发出或不发出荧光信号。

    3.2 新兴的测序技术

    1977 年,基因工程时代的一个重大突破是 DNA 测序技术的开发。同年,Maxam 和 Gilbert,以及 Sanger 和 Coulson 提出了基因组测序方法(Gilbert 和 Sanger 因对 DNA 测序的贡献于 1980 年获得诺贝尔奖)。Sanger 方法在接下来的近 20 年里被广泛应用,取得了许多重要成就,包括完成了首个人类基因组序列的测定。1990 年,人类基因组计划(Human Genome Project, HGP)启动,作为一个国际协作项目,旨在使用 Sanger 方法(也称为一代测序)测序完整的人类基因组。
    2001 年,国际人类基因组测序联盟(International Human Genome Sequencing Consortium, 2001)和 Celera Genomics(Venter 等人,2001)分别报告了初步序列,首次提供了人类基因组的整体视图。2003 年,人类基因组的测序完成(Collins 等人,2003),并通过国际合作将初稿序列转化为高精度且几乎完整的序列(International Human Genome Sequencing Consortium, 2004)。因此,人类基因组计划历时 13 年,全球约有 3000 名科学家参与,耗资约 27 亿美元,最终获得了第一个人类基因组序列(Wadman,2008)。Sanger 方法随后被改进并由 Levy 等人(2007)用于发布第二个人类基因组序列(J. Craig Venter 的基因组)。该项目耗时 4 年,涉及 30 名科学家,耗资 1 亿美元。尽管有所改进,但 Sanger 方法仍不适合在合理的时间或合理的成本下进行基因组测序。
    为克服这些限制,2004 年出现了二代测序(也称为新一代测序,next-generation sequencing),在提高通量能力的同时显著降低了成本。提供二代测序平台的主要公司包括 Illumina(Genome Analyzer™、HiSeq 2000™ 和 MiSeq 平台)、Life Technologies / Applied Biosystems(SOLiD™ 平台)、Life Technologies / Ion Torrent(Personal Genome Machine PGM™ 和 Ion Proton™ 平台)以及 Roche Applied Science(454 Genome Sequencer FLX 平台)(Rusk 和 Kiermer,2008;Chi,2008;Niedringhaus 等,2011;Rothberg 等,2011)。后一种平台用于测序 James Watson 的基因组(Wheeler 等人,2008)。该项目耗时 4.5 个月,约 30 名科学家参与,成本不足 150 万美元。高通量测序技术成为一个竞争激烈且快速发展的领域,三代测序(也称为下一代测序的下一个阶段)已于 2008 年出现(称为三代测序,third-generation sequencing),基于单分子分析的测序方法。主要公司包括 Helicos BioSciences(HeliScope 平台)和 Pacific Biosciences(PacBio RS 平台)(Blow,2008;Niedringhaus 等人,2011;Thompson 和 Milos,2011)。HeriScope 平台由 Pushkarev 等人使用,并耗资约 5 万美元。
    四代测序结合了单分子和纳米孔测序技术,主要公司是 Oxford Nanopore Technologies(GridION 平台)。随着测序成本大幅下降,同时通量能力不断提高,这些新技术预计能够在几分钟内以 1000 美元甚至更低的价格完成一个人类基因组的测序(Netterwald,2010)。
    Box 3.3 定义了测序领域中使用的关键概念。需要注意的是,我们将使用缩写 NGS 表示新一代测序(next-generation sequencing),以指代从二代测序到最新的任何高通量测序技术。

    BOX 3.3:测序中的关键概念

    • template(模板):它是测序仪需要读取的真实核苷酸序列。
    • read(读取):它对应于测序仪读取的模板序列。读取的长度从几十个碱基到上百个碱基不等,取决于所使用的技术。当前技术在一次实验中可产生数百万到数十亿个这样的读取。
    • sequencing error(测序错误):它是读取中的碱基,与模板中的真实碱基不对应。
    • depth of coverage(覆盖深度):它表示基因组中某个位置的读取数 ,通常表示为 。覆盖深度可以通过基因组内所有位置的平均覆盖深度来概括。由于测序仪可能产生测序错误,增加覆盖深度可以提高对齐或组装后获得的序列的准确性。
    • coverage(覆盖率):它表示至少被一个读取覆盖的基因组的百分比。
    • reference genome(参考基因组):它是样本中每条染色体的核苷酸序列,被认为是一个物种的代表。参考基因组通常通过从头测序(de novo sequencing)获得。人类基因组计划产生了第一个人类参考基因组。
    • alignment(比对):它是将读取映射到参考基因组上(即获取它们在染色体上的位置)的过程。由于读取中通常存在测序错误,因此允许读取与参考基因组之间存在不完全匹配。
    • sequence assembly(序列组装):将读取合并成更长的 DNA 片段的过程,以重建所研究样本的序列。
    • de novo sequencing(从头测序):它是将读取组装在一起形成新的、先前未知的序列的过程。
    • run(运行):测序仪为了生成读取而执行的一组步骤。
    • GC-content(GC 含量):它是 DNA 序列中为 G 或 C 的碱基百分比。

    3.2.2 基于扩增的高通量测序原理

    基于扩增的高通量测序需要一个 PCR(聚合酶链式反应,Polymerase Chain Reaction)步骤来扩增每个模板的 DNA 数量,从而提供足够的材料用于可靠的信号检测。我们以通过寡核苷酸连接和检测进行的测序(Sequencing by Oligonucleotide Ligation and Detection, SOLiD™)平台为例。DNA 剪切后(参见图 3.12A),模板被分离为单链,并在条件允许的情况下捕获到珠子上,确保每个珠子上有一个 DNA 分子(参见图 3.12B)。模板(长度在 150 到 180 bp 之间)通过乳液 PCR 进行扩增,以便在测序反应期间提供足够的信号。在油相中,水相微滴包围一个珠子,形成用于 PCR 反应的微型反应器。珠子上包含一个连接到 DNA 模板 5' 端的适配器 P1 和连接到 3' 端的第二个适配器 P2。这两个适配器被称为 DNA 序列,是启动 PCR 必不可少的。无论模板是什么,始终使用相同的 P1 和 P2 适配器。然后,将珠子沉积在玻璃片上。
    image-20241104230546263
    图 3.12 SOLiD 平台的文库构建
    (A) 对于单端测序和双端测序,DNA 被剪切成片段(片段或模板的两端 T1 和 T2 的长度范围为 150 到 180 bp)。单端测序进行一个测序步骤(从位置 ),双端测序进行两个测序步骤(从位置 )。
    (B) 创建油-水乳液以包封直径为 1 微米的珠子,珠子上带有 P1 和 P2 适配器以及单一模板。乳液 PCR 在微滴内进行后,珠子包含了几千个初始模板序列的拷贝。
    (C) 在 mate-pair 文库中,根据所需大小选择 DNA 片段(例如,选择两端 T1 和 T2 的片段大小为 3 Kb)。然后在片段的两端连接一个内部适配器,DNA 被环化并在内部适配器的两侧被切割,使得两个生成的模板长度均为 50 个碱基。进行两个测序步骤。
    以上内容改编自寡核苷酸连接与检测测序(SOLiD™)文档。
    这种测序技术的主要限制在于可获得的读取长度。实际上,检测到正确碱基的概率通常随着读取位置的增加而降低。因此,读取长度超过 75 个碱基是 SOLiD™ 平台所能允许的最大值。出于质量原因,较长的读取可能不可靠。为了获得较长的读取,公司逐步增加循环次数,以保证序列质量。然而,通过使用改进的酶学和化学方法,可以从位置 (对应 P2 适配器的起始点,参见图 3.12A)执行第二次测序。这一次,测序从 3' 端向 5' 端进行。这种方法称为成对末端标记(Paired-End Tag, PET)测序。对同一模板的两端进行测序有助于理解基因组结构和从头测序(Fullwood 等,2009a)。使用 PET,当前的 5500 XL SOLiD™ 理论上能够在 7 天内生成 300 Gb 的序列,相当于 48 亿条读取,每条读取长度为 75 个碱基(P1 端)和 35 个碱基(P2 端)。
    PET 的一种替代方法是 mate-pair 文库测序(参见图 3.12C),它能够生成大小在 2 到 10 Kb 之间的 DNA 片段。DNA 剪切后,通过内部适配器连接使 DNA 片段环化。环化的 DNA 在内部适配器的两侧切割,并连接到常用的 P1 和 P2 适配器。PCR 可在上述步骤后进行。以与 PET 相同的方式执行两次测序步骤。第一次测序从位置 开始,使用与 P1 适配器配对的引物,第二次测序从位置 开始,使用与内部适配器配对的引物。将 mate-pair 文库测序获得的数据与 PET 数据相结合,为基因组的最大覆盖提供了强大的组合。图 3.13 展示了如何通过 5500 XL SOLiD™ 的 mate-pair 测序识别基因组重排。
    image-20241105011529693
    图 3.13 使用 mate-pair 测序识别基因组重排
    在对肿瘤基因组进行 mate-pair 测序(使用 SOLiD™ 测序仪)后,mate-pair 读取被比对到参考基因组上。由于 mate-pair 之间的预期距离是已知的(例如, ),可以根据比对到参考基因组上时观察到的 mate-pair 之间距离 的变化来识别缺失或插入。平衡和非平衡易位也可以被识别。工具如 SVMDetect(Zeitouni 等,2010)可以用于识别这些重排。有关易位检测的应用,参见图 3.15。
    正如我们之前提到的,一种称为无荧光标记的后荧光(post-fluorescence)测序平台(即无激光)不再需要使用荧光染料,从而避免了扫描仪、摄像头和激光器的需求。在基于扩增的测序中,Ion Torrent PGM(Rothberg 等,2011)利用半导体技术取代了光学检测(参见图 3.14A)。在这种情况下,孔中形成一个离子敏感层。当聚合反应释放氢离子作为副产物时,该离子的电荷可以被离子敏感层检测到。在同聚物区,电压强度表明已合并的核苷酸数量。整个 Ion Torrent 系统被封装到芯片中。该芯片视图包含 318 个孔,每个孔大约包含 1200 万个孔,这些孔产生约 1 Gb 的序列,平均读取长度为 200 个碱基,耗时约 2 小时。
    image-20241105011431923
    图 3.14 从第二代到第四代测序,以 TAGGCT 模板为例
    (A) 第二代测序。在 Ion Torrent PGM 中,每个碱基被顺序添加并清洗。由于氢离子释放导致的电压变化,指示了已合并了多少个碱基。
    (B) 第三代测序。在 PacBio RS 中,四种标记的核苷酸被添加到阵列上方。每种颜色的光强度指示了聚合酶沿着 DNA 序列合并了哪个核苷酸。
    (C) 第四代测序。在 GridION 的外切酶测序中,外切酶连接到纳米孔上,从模板上逐个切割碱基。当碱基穿过纳米孔时,它暂时与适配分子结合,引起特征性的电流中断。
    (D) 第四代测序。在 GridION 的链测序中,模板由于聚合反应被穿入纳米孔中。只要模板穿过纳米孔,每个碱基会像外切酶测序一样引起特征性的电流中断。
    (参见彩色插页)

    3.2.3 单分子测序原理

    与第二代测序相比,信号是从一组模板中读取的,第三代测序的信号来自于单个 DNA 分子模板(Metzker, 2010;Efcavitch 和 Thompson, 2010;Hohlbein 等,2010)。在这种情况下,不再需要 PCR 扩增,因为可以直接从放置在孔中的单链 DNA 模板中获得序列。这种方法避免了与 PCR 步骤相关的成本和错误。单分子测序可以分为两大类。
    第一类是通过循环过程测序 DNA 模板。在每个循环中,仅加入一个核苷酸,如果在测序位置遇到互补核苷酸,它将被 DNA 聚合酶(polymerase)掺入,然后洗出剩余的核苷酸(与 Ion Torrent PGM 的方法类似)。HeliScope 平台是第一个提出这种方法的平台(Harris 等,2008)。在每个循环中,平台会量化标记核苷酸的荧光,指示给定核苷酸是否被掺入。
    第二类是实时测序。这类平台称为单分子实时(SMRT, Single Molecule Real Time)测序。在 SMRT 中,DNA 聚合酶执行的聚合反应可以实时连续记录,整个过程与 DNA 复制过程类似。Pacific Biosciences 开发了这种技术,其原理如下(Eid 等,2009)。一个玻片上包含数百万个称为零模波导(ZMW, Zero-Mode Waveguide)的孔,每个 ZMW 的直径为 70 nm,深度为 100 nm,反应体积约为 1.5 zeptoliter( 升)。在每个 ZMW 中,一个 DNA 聚合酶分子被固定在玻片底部。标记有不同颜色荧光染料的核苷酸被加入到 ZMW 的阵列中,达到所需浓度。在每个 ZMW 的底部,固定的 DNA 聚合酶可以从单链 DNA 模板复制互补链。ZMW 的纳米结构允许聚合反应的进行。当激光穿过玻片激发后,发射的荧光光表明聚合酶沿 DNA 序列掺入了哪个核苷酸(参见图 3.14B)。当前技术允许 75,000 个 ZMW 并行测序。有趣的是,Flusberg 等(2010)注意到给定核苷酸的甲基化状态会影响 DNA 聚合酶的动力学。在聚合反应过程中,SMRT 测序中的荧光脉冲不仅通过发射光谱表征,还通过脉冲的持续时间和连续脉冲之间的间隔表征。脉冲持续时间和间隔受 DNA 的表观遗传修饰影响,使得甲基化和非甲基化的胞嘧啶得以区分。结果是,基于荧光检测的单分子测序面临的主要挑战是避免标记核苷酸产生的不需要的背景噪音。ZMW 尤其设计用于减少此类问题。McCarthy(2010)报告称,该公司声称可以获得 10,000 个碱基的读取(比 Sanger 测序长 10 倍),测序速度大约为 10,000 到 20,000 碱基/小时(每秒 1-3 个核苷酸)。
    基于单分子 DNA 分析的其他策略使用纳米孔结构,其孔径略大于双链 DNA 分子的宽度(Stoddart 等,2010)。纳米孔被插入到脂双层生物膜中。碱基的检测是通过测量膜内孔道的电导变化来实现的。每个碱基的化学差异导致不同幅度的电流中断,从而区分四种碱基。有趣的是,电流中断的幅度还取决于碱基的甲基化状态,这允许检测 DNA 水平的表观遗传修饰(Wallace 等,2010)。目前,Oxford Nanopore Technologies 使用带有内嵌外切酶的生物纳米孔。外切酶作为 DNA 结合位点,从 DNA 链上切下单个碱基。每个切下的碱基通过纳米孔,检测到的电流允许识别碱基。外切酶调节 DNA 的运动,否则其移动速度将过快,难以精确检测(参见图 3.14C)。
    假设每个碱基的测序速度为 1 毫秒,一个纳米孔需要 69 天才能处理 60 亿个碱基。10 万个孔以完全的效率运行,理论上可以在 30 分钟内测序一个具有 30X 覆盖深度的基因组。为了实现更快、更精确的测序,Oxford Nanopore Technologies 正在开发一种链测序技术,其中单链 DNA 片段通过纳米孔,单个碱基在通过时被识别(参见图 3.14D)。
    未来的纳米孔技术一代将是固态纳米孔。这些纳米孔是人工在石墨烯片等合成材料上打的孔(Garaj 等,2010)。使用这些合成纳米孔克服了前两种方法中生物膜稳定性和蛋白质纳米孔定位的困难,但需要控制 DNA 链的运动(Luan 等,2011)。第四代测序允许实时测序,避免了如 Ion Torrent 一样的光学检测,不需要同步试剂清洗步骤,使其成为一种非常有前景的方法。

    3.2.4 靶向测序

    尽管基因组测序的成本大幅降低,它仍然是一项昂贵的技术。因此,目前尚不适合对大量不同的完整人类基因组进行测序。因此,已开发出不同的方案来缩小研究范围,以便在富集后可以选择性地测序特定的基因组区域(即靶向序列)。第一个方法包括使用 PCR 扩增感兴趣的区域,然后进行 NGS(新一代测序)。第二种方法基于捕获测序。在这种情况下,首先使用固定在微阵列或溶液中珠子上的探针捕获感兴趣的基因组 DNA(Mamanova 等,2010)。该方法的主要局限是探针设计用于靶向已知区域。从研究样本中提取 DNA,剪切并与探针杂交。靶向片段与各自的探针结合,而非靶向片段被洗去。随后,靶向 DNA 片段可以通过 NGS 进行测序。
    靶向测序通常与条形码多重化(barcode multiplexing)结合,这样不同的样本可以在同一次运行中同时处理。不同的条形码(即短的已知 DNA 序列,例如四个碱基对的条形码)可以使理论上在相同时间内对 256 个样本进行测序,并将其与每个样本的模板合并。每个样本都可以通过其条形码唯一地识别。所有样本的序列被混合并测序。条形码在运行过程中被测序,允许将模板分配到其样本中。
    靶向富集后结合 NGS 的典型应用是外显子组测序(Teer 和 Mullikin,2010)。该应用旨在测序所有对应于蛋白质编码区域的外显子(人类基因组包含约 180,000 个外显子,覆盖 30 Mb,即约占人类基因组序列的 1%)。这将有助于识别影响基因功能的突变。重要的是,退火条件(即两个 DNA 链结合在一起的条件)允许在捕获过程中发生配对错误,从而可以检测到 SNP 和突变。

    3.2.5 高通量测序在肿瘤学中的应用

    为什么重要的是要提及这些 NGS(新一代测序)技术?在不同的分子水平上,许多技术都涉及核苷酸序列,包括 DNA 或 RNA(参见图 3.1)。到目前为止,微阵列一直被认为是基因组学、转录组学或 miRNAomics 的首选工具。NGS 技术则被视为对肿瘤基因组进行全面实验的非常合适的工具,可用于 DNA、mRNA 和 miRNA 的分子分析。因此,这是一项尖端技术,很可能在不久的将来取代微阵列实验。此外,这些新平台可以探索生物学研究的新领域,包括古代基因组的研究、生态多样性的表征以及未知病因因素的鉴定。NGS 提供了许多应用,尤其是在医学领域(Schuster, 2007;Mardis, 2008a),特别是在肿瘤学中,为了:
    1. 定量 mRNA 表达(这称为 RNA-seq)
    2. 定量 miRNA 表达
    3. 鉴定替代剪接形式
    4. 定量 DNA 拷贝数(参见图 3.8,图 3.15)
    5. 鉴定 LOH(杂合性缺失)
    6. 使用 ChIP-seq 鉴定蛋白质与 DNA 的相互作用,即免疫共沉淀后测序(Farnham, 2009)
    7. 映射核小体在 DNA 序列中的位置
    8. 研究表观基因组修饰
    9. 发现突变
    10. 发现多态性
    11. 以单碱基分辨率映射染色体重排(易位、融合基因、缺失、扩增等)(Chen 等,2008;Campbell 等,2008)(参见图 3.15)
    12. 发现非编码 RNA(ncRNA)
    13. 研究染色质的空间组织
    image-20241105012242260
    图 3.15 使用 mate-pair 测序对 T47D 细胞系中的 DNA 拷贝数和染色体间易位进行鉴定
    染色体(黑色 = p 臂,灰色 = 着丝粒,白色 = q 臂)围绕一个圆圈表示。内圈中的黑色连线表示染色体间易位。在此实验中也鉴定了图 2.12 中所示的易位。外圈代表 DNA 拷贝数图谱,其外观与图 3.8 中的图谱非常相似。我们使用以下算法分析数据:读取使用 bowtie 算法比对(Langmead 等,2009),DNA 拷贝数由 FREEC 估计(Boeva 等,2011a),易位由 SVMDetect 鉴定(Zeitouni 等,2010)。使用 Circos 绘制结果(Krzywinski 等,2009)。图 3.13 解释了如何鉴定易位。数据来源于 Hillmer 等(2011)。






    请到「今天看啥」查看全文