蛋白质是生命活动的核心分子,能够精确调控细胞内复杂的生命过程。很多重要的蛋白质(例如:共价修饰后的组蛋白和转录因子等)通过与基因组DNA相互作用,调控了细胞的表观遗传状态,进而影响基因的转录活性和表达模式。大量研究表明,表观遗传修饰状态的变化与胚胎发育、癌症以及其他多种疾病的发生密切相关。因此,精准解析蛋白质-DNA的相互作用对于深入理解表观遗传修饰对于发育、癌症以及其他疾病的基因转录调控机制至关重要。
近年来随着测序技术的发展,染色质免疫共沉淀测序技术(ChIP-seq)已经成为研究蛋白质-DNA相互作用的“金标准”。然而,传统的ChIP-seq技术具有很多局限性,包括需要大量的起始细胞、重复性较差、信噪比低、成本高等问题。2015年,首个单细胞ChIP-seq技术scDrop-ChIP问世,但scDrop-ChIP在单个细胞中捕获的组蛋白修饰信号非常稀疏,限制了其应用潜力。随后,基于Tn5转座酶的一系列单细胞测序技术被开发出来,包括CoBATCH、CUT&Tag、Paired-Tag、scCUT&Tag等。
尽管这些技术在单细胞分辨率下探索染色质修饰方面的性能表现出色,但它们都是基于二代测序(Next-generation sequencing, NGS)平台。由于二代测序的读段较短(通常为单端150bp, 双端300bp),对于检测基因组复杂区域的染色质修饰等表观基因组信息存在明显的局限性,尤其是基因组中的重复序列区域(在人类基因组中占52%,约1.56 Gb;在小鼠基因组中占45%,约1.2Gb)、“黑名单”区域(在人类基因组中占 3.0%,约91 Mb(不包括着丝粒区域和 rDNA 区域);在小鼠基因组中占 7.0%,约191 Mb)以及基因组结构变异区域(如长片段插入或缺失、串联重复、染色体易位和倒位事件发生的区域等)。这些基因组复杂区域的可比对性(Mappability,即测序数据与参考基因组比对的准确性和唯一性)非常低,导致短读段测序数据难以准确定位到参考基因组中。目前,在基于二代测序平台的数据分析中,通常只能将重复序列的亚家族作为一个整体进行分析,常常无法对基因组中特定的单个拷贝的重复序列进行精准分析。此外,对于基因组“黑名单”区域,由于这些区域在基于二代短读段测序平台的表观遗传修饰测序数据中通常显示出异常高的信号,并且与实验样本类型和处理条件等无关,因此在数据分析时,研究人员通常直接将其排除以减少引入的显著噪音。这导致这些区域的表观遗传修饰状态目前依然是未知的。因此,基于二代测序平台来解析基因组复杂区域的染色质修饰状态仍然是一项重大挑战。
基于二代测序平台检测方法的另一个主要局限在于无法在单细胞水平上直接检测同一条DNA分子上相邻调控元件(例如相邻的启动子和增强子)是否存在相同组蛋白修饰或相同转录因子的共占位事件。此外,短读段也限制了其对染色质修饰进行单倍型分析的能力,而单倍型分析对于探究二倍体细胞中等位基因上调控元件间的相互作用及深入理解等位基因异质性至关重要。近年来,几种基于长读段的表观基因组测序技术被开发出来,包括Nanopore-DamID和DiMelo-seq,它们有助于解析基因组复杂区域的蛋白质-DNA相互作用。然而,这些技术无法实现单细胞分辨率,仍然局限于大量起始细胞的样本,难以应用于研究细胞群体内部的异质性。