Basic Information
-
英文标题:A multi-modal transformer for cell type-agnostic regulatory predictions
-
中文标题:一种细胞类型无关的调控预测多模态 transformer
-
-
-
-
文章作者:Nauman Javed | Bradley E. Bernstein
-
文章链接:https://www.sciencedirect.com/science/article/pii/S2666979X25000187
Highlights
Para_01
-
-
-
EpiBERT 提名 caQTLs、调控基序和基因表达
-
Summary
Para_01
-
基于序列的深度学习模型已成为解读人类基因组顺式调控语法的强大工具,但无法推广到未观察到的细胞环境中。
-
在这里,我们介绍了EpiBERT,一个多模态变换器,它通过基于掩码可及性的预训练目标,学习基因组序列和特定细胞类型的染色质可及性的一般化表示。
-
在预训练之后,EpiBERT可以进行微调以预测基因表达,其准确性可与仅基于序列的Enformer模型相媲美,同时还能推广到未观察到的细胞状态。
-
所学的表示是可解释的,并且对于预测染色质可及性数量性状位点(caQTLs)、调控基序以及增强子-基因联系是有用的。
-
我们的工作代表了朝着提高基于序列的深度神经网络在调控基因组学中的泛化能力迈出的一步。
Graphical abstract
Keywords
-
deep learning; transformer; gene regulation; genomics; chromatin accessibility; sequence code
Introduction
Para_01
-
据估计,人类基因组中有10%到20%编码了调控信息,这些信息控制着不同细胞类型和条件下的基因表达。
-
这些调控序列包含在顺式调节元件(CRE)中,包括靠近基因启动子和可能位于目标基因相当远距离之外的增强子。
-
通过全基因组分析已经鉴定出数百万个潜在的CRE,这些分析映射了松散包装在可及染色质中的区域、与特征性组蛋白修饰相关联的区域或特定细胞类型中转录因子(TFs)结合的区域。
-
-
对于绝大多数CRE,我们还不知道支撑其功能的具体DNA序列,也不知道它们所调控的基因。
-
尽管测量序列变化对CRE功能影响的实验方法正在发展,但它们缺乏足够的通量来进行全面的调控基因组表征。
-
因此,能够提名功能序列并预测突变影响的计算模型具有相当大的兴趣。
Para_02
-
深度神经网络代表了一种有前景的方法来建模和理解CRE功能。
-
这些模型被训练以从原始基因组序列预测目标信号(例如,基因表达、染色质可及性或转录因子结合)针对特定细胞类型。
-
一旦训练完成,这些模型可以被解释以预测遗传变异的影响,解析基序语法,或模拟增强子-启动子相互作用。
-
一个突出的例子是Enformer,这是一个基于大型变压器的模型,它预测基因表达、染色质可及性和其他调控信号,从基因组序列到ENCODE和FANTOM目录中的细胞类型。
-
Enformer采用多任务回归框架,在该框架中,单一基因组序列映射到许多不同的输出(即,对应于各种实验和细胞类型的不同的基因组轨迹)。
-
虽然这种方法非常强大,但仅基于序列的模型如Enformer的一个缺点是它们必须独立地对每种新细胞类型进行训练,或者至少进行微调,并且无法推广到未观察到的细胞环境。
Para_03
-
多模态模型通过整合基因组序列与辅助细胞类型特异性信息(例如,染色质可及性)来解决这一局限性。这种框架不依赖于细胞类型,并允许在新的细胞环境中进行预测和调控推断,前提是提供了额外的输入信息。
-
然而,现有的多模态模型通常在预测跨细胞状态的染色质可及性或基因表达时表现不如仅基于序列的网络,它们的预测分辨率较低(例如,二进制峰值预测或千碱基大小的区间),并且可能需要大量的辅助输入(例如,可及性和三维相互作用数据)。此外,那些以固定辅助信号作为输入的模型无法模拟这些输入本身如何受到基因组序列的影响,从而限制了可解释性。
Para_04
-
为了应对这些局限性,我们开发了一种多模态神经网络,以一种可泛化的模式预测染色质可及性和细胞类型中的基因表达驱动因素。
-
我们的模型首先通过掩码预训练学习基因组序列和染色质可及性信号的表示。
-
我们证明这些表示是可解释的,并且可以用来预测影响染色质可及性的序列变异(染色质可及性数量性状位点[caQTLs])以及跨细胞类型的调控基序,包括那些在训练过程中未观察到的细胞类型。
-
在预训练之后,我们将模型微调以预测基因表达,并在保留的基因和细胞类型上实现了与仅基于序列的Enformer模型相当的高准确性。
-
预训练方法提高了跨细胞类型的表达、功能基序和变异的预测,表明所学表示更准确地预测了上下文特定的CREs及其基因靶标。
Results
EpiBERT architecture and training overview
EpiBERT架构和训练概述
Para_01
-
我们试图创建一个深度学习模型,能够预测染色质可及性和基因表达的序列决定因素,用于训练过程中未遇到的保留细胞类型。
-
为此,我们开发了一种多模态神经网络(EpiBERT),该网络通过使用受BERT语言模型启发的预训练目标,整合了基因组序列和局部表观遗传状态(通过染色质可及性测量)(图1A)。
-
预训练之后,EpiBERT可以微调以用于下游任务,例如预测保留细胞类型的基因表达(图1B)。
图片说明
◉ 图1。EpiBERT训练概述(A)描绘EpiBERT掩码可及性预训练的示意图。在预训练过程中,模型观察特定细胞类型每个输入窗口的掩码ATAC-seq、相应的序列和全局基序富集(STAR方法)。然后,模型预测掩码ATAC-seq信号。预训练后,可以解释该模型以预测调控基序和变异效应。(B)预训练的EpiBERT模型可以微调以预测观察到和未观察到的细胞类型的基因表达。微调后,可以解释该模型以预测增强子-基因(E-G)连接。(C)EpiBERT预训练的高级网络图。在每次训练迭代期间,模型输入包括随机选择的位点的一热编码基因组序列(524 kb),随机掩码(约15%)归一化的ATAC-seq(对应于随机选择的细胞类型的相应位点,4 bp分辨率),以及相对基序富集(STAR方法)。输入通过卷积层和前馈网络(FFN)层传递,合并,并由线性(可扩展神经网络内核)注意力层处理。模型预测掩码区域内的归一化ATAC计数(128 bp分辨率)。训练过程进行2500万次独立迭代/示例(每个对应一个特定的位点和细胞类型)。
Para_01
-
EpiBERT的核心架构主要基于Enformer模型,这是一个处理基因组序列的混合卷积神经网络和变换器(图1C和S1A)。
-
然而,EpiBERT用线性缩放注意力层替换了普通的注意力层,这使得在最小的性能成本下可以处理非常大的序列窗口,适用于基因组任务(图S1B-S1D;STAR方法)。
-
在预训练过程中,EpiBERT通过类似于BERT中的掩码语言建模的掩码回归预训练目标来学习序列和可及性的嵌入。
-
它迭代地对约34,000个位点(大小=524kb)的DNA序列以及训练语料库中每种细胞类型的相应可及性谱进行采样(约740次转座酶可及染色质测序[ATAC测序]谱,从ENCODE、CATLAS和GEO收集;STAR方法)。
-
为了为每种细胞类型提供跨调节背景,我们还提供了归一化的相对基序富集(图S1E;STAR方法)。
-
在这个过程中,每个524-kb窗口中有15%的部分被掩码,即将随机选择的1.5-kb区域的可及性信号设置为零。
-
然后,该模型的任务是在这些区域内重建被掩码的信号。
-
为了模型评估和测试,我们保留了约4,000个524-kb位点(约占整个基因组的10%),这些位点的选择旨在最大程度地减少与预训练期间观察到的区域之间的序列相似性(STAR方法)。
-
我们还预留了34种具有不同元数据注释的细胞类型,这些细胞类型不同于训练集中的细胞类型,用于验证和测试(STAR方法)。
EpiBERT accurately predicts masked ATAC signal for hold-out genomic intervals
EpiBERT 准确预测留出基因组区间的掩蔽 ATAC 信号
Para_01
-
我们训练了模型2500万步,这大约相当于在整个训练集上进行了一次迭代。随后,我们在几个阶段评估了它的性能。
-
我们评估了它恢复隐藏的可及性信号的准确性,在从训练集中随机选择的17种细胞类型的保留基因组区域中(STAR方法)。
-
我们特别向模型展示了归一化的基序富集度、每个保留位置的序列以及相应的可及性谱,后者在一个特定的1.5-kb窗口内被屏蔽。
-
我们发现EpiBERT在屏蔽区域内定性地预测了可及性,并且对不同细胞状态之间的差异敏感。
-
以PPPR4位点为例,该模型在胎儿肾上腺神经元和心室心肌细胞的共享和细胞类型特异性增强子和启动子处恢复了屏蔽信号(图2A)。
-
为了更全面的评估,我们在保留区域内的约40,000个窗口中进行了屏蔽。这些窗口被选中以涵盖在17种细胞类型之间具有差异可及性的区域,以及随机选择的对照区域(STAR方法)。
-
然后,我们将任务交给EpiBERT来预测这些屏蔽区域内的可及性。
-
在所有屏蔽窗口和细胞类型中,EpiBERT定量地重现了真实的可及性信号(图2B)。
-
我们还评估了EpiBERT捕捉细胞类型特异性可及性模式的能力。
-
在这里,我们比较了每个屏蔽区域的预测信号和真实信号的分布。
-
该模型有效地预测了这种跨细胞类型的变异,在所有测试区域中达到了0.79的中位相关性(图2C)。
-
当对ATAC谱的基因组序列进行局部洗牌时,预测性能显著下降,这表明该模型学习了精细的序列和可及性特征。
-
与经过微调的Enformer版本以及使用局部信号平均值的简单基线相比,EpiBERT也表现出更好的性能(图2B、2C、S2A和S2B;STAR方法)。
图片说明
◉ 图2.EpiBERT准确地填补了跨保留区域和细胞类型的掩蔽ATAC信号。(A)对于胎儿肾上腺神经元(紫色)和心室心肌细胞(蓝色)的训练细胞类型,EpiBERT信号在PPP4R4位点的保留区域上的填补。ATAC-seq轨迹是每百万片段(FPM)归一化的。灰色条形表示应用了1.5-kb的掩码。每个条形下的标注显示了每个掩码区域的观测、预测(pred.)和真实信号。
◉ 基因轨迹对应于折叠的RefSeq22注释。(B和C)直方图显示了在40,000个保留区域上,针对17个随机选择的训练细胞类型之间的真实和预测信号之间的相关性分布(r)(B),以及针对每个保留区域的17个训练细胞类型之间的相关性分布(C)。
◉ (D)与(A)类似,EpiBERT信号在TMEM260位点的保留区域上的填补,涉及保留细胞类型,胰岛β细胞(紫色)和胎儿光感受器(蓝色)。(E和F)直方图显示了在40,000个保留区域上,针对17个保留细胞类型之间的真实和预测信号之间的相关性分布(r)(E),以及针对每个保留区域的17个保留细胞类型之间的相关性分布(F)。
◉ 图(B),(C),(E)和(F)中的相关性基于每个掩码中心512 bp内的总信号。虚线和M(r)对应于中位数相关性。线条颜色对应于使用未扰动输入的EpiBERT(紫色),局部洗牌ATAC-seq(棕色),局部洗牌序列(灰色),被破坏的基序富集(绿色),以及经过微调的Enformer模型(蓝色,EnformerFT)(STAR方法)。
EpiBERT accurately imputes masked ATAC signals for hold-out cell types
EpiBERT准确地填补了留出细胞类型的掩码ATAC信号
Para_01
-
接下来,我们评估了EpiBERT在17种从未见过的细胞类型中的预测准确性。这些细胞类型是在训练过程中没有见过的。
-
-
我们向网络提供了每个保留的细胞类型的相对基序富集情况以及每个保留的524-kb窗口内的细胞类型特异性可及性,不包括掩码区域。
-
EpiBERT再次定性地预测了特定位置的掩码信号,并且对不同细胞类型之间的差异敏感。
-
定量评估确认,该模型在所有保留区域和保留细胞类型上预测掩码信号的准确性与训练细胞类型观察到的相似,再次优于更简单的基准(图2D-2F和S2B)。
-
EpiBERT的预测准确性对于不同的序列特征具有鲁棒性,并且在不同类别的基因组元件之间没有显著变化(图S2C和S2D)。
Para_02
-
我们还评估了EpiBERT的样本外预测性能如何受到保留数据集相似性的影响。我们通过计算每个保留细胞类型的全局基序富集相对于所有训练数据集的最大皮尔逊相关系数来计算其独特性(STAR方法)。我们发现模型性能与每个细胞类型与其训练集最近邻相似性的相关性(r = 0.40,p < 0.05)。尽管如此,EpiBERT仍然实现了准确的可及性预测(r > 0.80),即使对于相对不相似的细胞类型(最近邻相似性 < 0.70;图S2E)。
EpiBERT attends to cis sequence and accessibility across input loci
EpiBERT关注顺式序列和输入位置的可及性
Para_01
-
为了更好地理解EpiBERT的表现,我们消融了各种输入特征和架构组件,并检查了模型嵌入。
-
首先,我们训练了模型的较小变体,并将每个输入中的三个输入之一替换为随机同分布噪声。
-
我们发现,消融未屏蔽的ATAC-seq信号或序列输入会导致验证集上的预训练性能显著下降(图S2F)。
-
相比之下,消融基因组范围的基序富集仅略微降低了性能,这表明该模型主要依赖于局部序列和可及性上下文,而不是转调控信息。
-
移除自注意力层中的位置编码也降低了模型性能,这与先前的研究一致,证明了位置嵌入对于基因组建模的重要性。
-
3我们还训练了模型的变体,旨在处理1Mb而非524kb的输入长度,但这并没有显著提高模型性能(图S2G)。
Para_02
-
我们接下来检查了EpiBERT用于染色质可及性预测所关注的特征。
-
对于一系列示例位点和假定增强子,我们引入了一个掩码,并从每个自注意力层中提取了查询矩阵和键矩阵。
-
然后,我们计算了所有层和头的平均注意力权重(STAR方法)。
-
对所得权重的可视化显示了一条强信号沿着对角线分布,表明每个输入位置都关注自身以及附近几个千碱基内的相邻bin(图3A)。
-
此外,我们观察到强烈的非对角垂直线,对应于由大量查询(行)关注的位置(键)。
-
这些非对角信号在不同细胞类型之间有所不同,并且经常与特定细胞类型的峰重叠。
-
人为地移动这些高度关注的区域导致模型关注新的位置(图S3A和S3B)。
-
因此,对于任何给定位点,EpiBERT根据周围染色质可及性的模式关注不同的序列。
-
-
我们使用了与之前相同的测试集,但用随机同分布噪声替换了每个524-kb输入窗口的外围部分(STAR方法)。
-
这一分析显示,当输入上下文长度减少到524 kb以下时,预测准确性降低,这表明EpiBERT关注整个输入窗口中的序列和可及性特征(图3B)。
图片说明
◉ 图3。EpiBERT预测保留细胞类型中的调控基序实例和caQTLs(A)热图显示了胰腺α细胞(左)和β细胞(右)一个524-kb区域所有层/头的平均注意力权重。上方显示了相应细胞类型的基因轨迹和ATAC-seq信号。(B)条形图显示了EpiBERT预测与真实信号之间的相关性(r),如图2E所示,但使用了不同的输入长度(STAR方法)。(C)EpiBERT(红色)和各种方法预测来自27,500个SNP阴性集的571个dsQTLs23的精确-召回曲线。EpiBERT预测使用了GM12878的ATAC,而Enformer预测使用了GM12878的DNAse-seq。(D)实验与EpiBERT预测效果大小之间的散点图以及Spearman相关系数(ρ)在LCLs中。23(E-H)实验与预测的caQTL效果大小之间的散点图,分别为:(E)批量肝组织,(F)神经祖细胞,(G)胰岛,(H)视网膜。25,26,27,28(I和J)PC3细胞中SAMD4A位点增强子处的基础级别输入∗梯度分数(I)和胰腺β细胞中KTN1位点增强子处的基础级别输入∗梯度分数(J)。每个位点下方是TFModisco输出样本,来自每个细胞类型聚合的输入∗梯度分数的12,500个掩蔽增强子。灰色条对应于PC3细胞中CTCF结合峰(黑条,GEO:GSM3498385)上的1.5-kb掩码或β细胞中JUNB结合峰(黑条,GEO:GSM3387453)上的1.5-kb掩码。图(C)-(H)中的CaQTL预测是基于预训练验证集中表现最好的两个模型的平均值。
EpiBERT predicts regulatory motifs and caQTLs in training and held-out cell types
EpiBERT在训练和预留的细胞类型中预测调控基序和caQTLs
Para_01
-
我们已经证明EpiBERT能够准确预测跨细胞类型的被屏蔽的ATAC-seq信号,接下来我们探讨我们的模型是否能够识别与染色质可及性相关的序列特征。
-
首先,我们评估了模型预测与实验上绘制的染色质可及性数量性状位点(QTLs)之间的符合程度。
-
我们从一个由29个研究淋巴母细胞样细胞系(LCLs)的70个供体中映射的DNase高敏感度QTLs(dsQTLs)集合开始,并将其与一个匹配的阴性背景单核苷酸多态性(SNP)集合进行比较。
-
我们在LCL GM12878的ATAC-seq图谱中,将每个变异位点为中心的1.5-kb窗口进行屏蔽,并计算了参考序列和替代序列之间预测信号差异的效果大小。
-
我们发现我们的模型能够有效地将dsQTLs与背景集区分开来(平均精度[AP]=0.51,AUROC=0.91;图3C),优于更简单的基线模型(例如gkm-SVM24),并且接近于专门针对相应细胞类型DNase数据训练的显著更大的仅序列Enformer模型的表现(AP=0.61,AUROC=0.95)。
-
然后,我们探究是否可以通过计算模型预测与实验测量之间的相关性来预测每个dsQTL的效果大小。
-
对于LCLs,EpiBERT准确地预测了这些效果大小(Spearman秩相关系数ρ=0.79,皮尔逊相关系数r=0.73),与Enformer的表现相当(Spearman秩相关系数ρ=0.80,皮尔逊相关系数r=0.77;图3D)。
-
在使用来自87个供体肝脏组织中映射的caQTLs进行的类似基准测试中,我们获得了相似的性能(ρ=0.75,r=0.65;图3E),再次接近Enformer的表现(ρ=0.75,r=0.65),以及在神经祖细胞中的表现(图3F)。
-
因此,在关注已观察到的细胞类型时,我们的方法和Enformer表现出相似的性能。
Para_02
-
我们接下来询问EpiBERT是否能够在保留的细胞类型中预测caQTL效应大小,这是一个仅使用序列模型如Enformer无法完成的任务。
-
采用与上述相同的方法,我们计算了在保留的视网膜28和胰腺岛细胞中映射的caQTL的预测效应大小与测量效应大小之间的相关性。
-
尽管在训练过程中没有观察到这些细胞类型,EpiBERT仍然准确地预测了caQTL效应大小(图3G-3I)。
-
这些变异周围序列的基序富集分析确认,它们破坏了这些组织中已知转录因子的基序,证实EpiBERT捕获了每个细胞调控语法的相关组成部分(图S3C和3D)。
Para_03
-
我们还采用了基于梯度的方法来识别EpiBERT预测的与特定位点和全局可及性模式相关的调控基序。
-
在这里,我们在保留的细胞类型和地区内屏蔽了感兴趣的增强子,并从底层序列和周围可及性环境中预测它们的可及性。
-
然后,我们计算了输出预测相对于输入序列的梯度,从而根据核苷酸对其局部可及性预测的重要性进行评分。
-
这种重要性评分突出了与实验验证的TF结合事件一致的基序(图3I和3J)。
-
例如,EpiBERT将一个CTCF基序与保留的前列腺癌细胞系PC3中的远端假定增强子的可及性联系起来。
-
它还在保留的胰腺β细胞类型中的假定增强子内突出了JUN/FOS基序。
-
在这两种情况下,染色质免疫沉淀测序数据证实了相应TFs对掩蔽增强子的结合。
-
我们还在选定的保留细胞类型中的12,500个掩蔽可及区域上汇总了基础层面的得分。
-
随后使用基序发现工具TFModisco来识别相应细胞模型中反复出现的高分基序,结果显示在PC3、胰腺β和视网膜细胞中分别发现了26、24和32个显著基序(图S4-S6;错误发现率<0.05)。
-
发现的顶级基序包括PC3细胞中的JUN/FOS、ETV1和TEAD1;胰腺β细胞中的RFX6、FOXA1和CREB1;以及视网膜细胞中的SP4、MEF2D和RORA,这些对应于这些细胞类型中已知的特征TF。
-
这些结果表明,EpiBERT学习到了有意义的细胞类型特异性序列特征。
EpiBERT predicts cell type-specific gene expression from sequence and accessibility
EpiBERT 从序列和可及性预测细胞类型特异性基因表达
Para_01
-
鉴于染色质可及性和转录之间固有的生物学关系,我们认为预训练模型可以微调以预测转录输出。
-
我们补充了58个ATAC-seq数据集与配对的RNA表达数据,用于相同的细胞类型(50个用于训练,8个用于保留)。
-
我们特别使用了RAMPAGE31表达数据(RNA注释和基因表达分析中启动子的映射),它明确地映射了每个基因的转录起始位点(TSSs)和定量输出。
-
我们首先向预训练模型中添加了一组随机初始化的输出层,包括逐点卷积层和密集层。
-
然后,我们在另外1000万个步骤中微调模型,针对50个训练细胞类型进行,使用与预训练相同的训练和保留位置集合。
-
在每一步中,模型观察基因组序列、ATAC-seq谱图以及一个随机采样的训练位置和细胞类型的全局基序富集,并被任务预测该位置的归一化RNA计数。
-
为了防止过拟合并关联序列特征对局部可及性和基因表达的影响,我们间歇性地屏蔽输入的ATAC谱图,并让模型预测被屏蔽的可及性以及RNA计数(图S7A;STAR方法)。
Para_02
-
我们评估了EpiBERT在预测保留的基因组区域中的RNA表达方面的性能,并将其与在同一RNA数据集上微调的Enformer模型进行了比较。
-
EpiBERT在训练细胞类型中的保留位点处预测了RNA计数分布(平均r = 0.64;图4A),其准确性可与Enformer(平均r = 0.62)相媲美。
-
接下来,我们重点关注模型在注释的TSS处特异性预测RNA输出的能力,利用两种独立的指标(STAR方法)。
-
第一个"跨基因"指标衡量模型在一个细胞类型内预测基因表达的准确性。
-
在这里,EpiBERT实现了高准确性(平均r = 0.88;图4B),几乎与Enformer(平均r = 0.87)相当,并明显优于简单基线的相关性(基因可及性和表达之间的相关性,平均r = 0.42;STAR方法)。
-
第二个"跨细胞类型"指标衡量模型在不同细胞类型中预测给定基因表达变异的准确性。
-
与"跨基因"指标不同,后者可能受到组成型表达管家基因的影响,该指标直接评估模型预测细胞类型特异性表达的能力。
-
在这项任务中,EpiBERT的表现(平均r = 0.72;图4C)超过了简单的基线(平均r = 0.20)和Enformer(平均r = 0.57)。
-
根据基因的细胞类型特异性分离基因后,我们观察到EpiBERT相对于Enformer在上下文特异性基因上的预测有了最大的改进(图S7B;STAR方法)。
-
高"跨细胞类型"表现似乎依赖于在掩码预训练期间学习序列-可及性关系,因为省略这一步骤会导致验证集上的表现显著下降(图S7C)。
-
我们还确认EpiBERT能够准确地建模CAGE数据集(图S7D和S7E)。
-
综上所述,这些结果表明,通过掩码ATAC预训练和随后针对RNA预测的微调,EpiBERT有效地学到了一个统一的模型,将ATAC-seq数据和基因组序列结合起来,以预测跨细胞类型的转录输出。
Para_02
-
EpiBERT的一个理论上独特的特征是它能够基于序列、可及性和基因表达之间普遍存在的关系,在训练过程中未观察到的持留细胞类型中推断RNA表达。
-
为此,我们评估了模型在8种未在训练过程中观察到的持留细胞类型上的性能。
-
当我们提供序列和可及性信息时,我们的模型可以准确地预测这些细胞类型的表达。
-
具体而言,EpiBERT准确地再现了RNA计数在持留位点的分布(平均r = 0.62),并且在"跨基因"(平均r = 0.85)和"跨细胞类型"(平均r = 0.60)指标上具有高准确性(图4D-4F)。
-
这种泛化性能部分依赖于全局基序富集,因为去除这种输入会降低"跨细胞类型"表达预测的准确性。
-
这些结果证实,经过微调的EpiBERT模型能够泛化到新的细胞状态。
Para_03
-
迄今为止的结果表明,EpiBERT 准确地从序列和可及性数据预测细胞类型特异性基因表达。这促使我们询问我们的模型是否实际上正在学习可访问元件与其靶基因之间的功能联系。
-
Para_04
-
我们专注于一组在K562细胞中经过实验验证的增强子-基因连接。
-
对于每个基因,我们将序列和周围主要转录起始位点(TSS)的可及性谱(524 kb)提供给EpiBERT,并计算了预测输出相对于这些输入谱的梯度。
-
检查梯度分数,我们发现高模型梯度区域大致对应于经过实验验证的增强子和预测的假定增强子-基因(E-G)连接(图4G;STAR方法)。
-
具体而言,EpiBERT为每个测试基因确定的相关基因组位置与经过实验验证的增强子-基因连接集很好地对应(图4H)。
-
虽然梯度分数在增强子优先级划分上存在噪声,但34这项分析使我们能够将EpiBERT与最先进的预测模型进行比较。
-
在距转录起始位点较近的距离(<12.5 kb)内,我们发现EpiBERT与活动接触33(ABC)和Enformer模型具有竞争力(STAR方法)。
-
然而,EpiBERT在优先考虑更远距离的增强子(>12.5 kb)方面表现出优于Enformer的性能,尽管两种方法的表现都不如ABC模型,该模型考虑了经过实验测量的E-G接触频率并且不模拟潜在的序列。
-
这些结果证实,经过微调的EpiBERT模型有效地捕获了经过验证的E-G连接。
Discussion
Para_01
-
基于序列的神经网络有可能解决基因组学中的一个基本挑战:预测人类基因组中每个可能的序列变异的影响。
-
基于Transformer的模型,如Enformer,在预测功能基因组分析的输出方面表现出了非凡的性能,并且有可能产生新的调控见解。
-
然而,这些模型存在局限性,包括无法推广到未观察到的细胞环境以及由于在多任务框架中整合了许多正交数据类型而导致的次优可解释性。
-
因此,我们开发了EpiBERT,这是一种多模态Transformer,专门针对序列和染色质可及性进行训练,以预测caQTLs、调控基序、基因表达以及增强子-基因联系,适用于已观察和未观察的细胞类型。
Para_02
-
我们的方法基于生物学假设,即序列定向相互作用驱动染色质变化,而这些变化反过来控制基因转录。
-
因此,我们的第一步是训练一个模型,该模型能够有效地学习序列和可及性之间的关系,并且这种关系能够在不同细胞类型之间进行泛化。
-
我们假设特定区域内的序列和可及性之间的局部关系可以从足够宽的基因组窗口周围的顺式模式中以非细胞类型特异性的方式推断出来。
-
为了实现这一点,我们利用了一个预训练步骤,在这个步骤中,我们的模型学会了使用周围序列和可及性信号来恢复被掩蔽的ATAC-seq信号。
-
我们利用高效的Transformer块来处理这么大长度的窗口,显著降低了网络训练和推理的内存和计算需求。
-
对预训练模型的评估表明,它能够泛化到保留的序列和保留的细胞类型。
-
模型学到了可以轻松解释的表示,这些表示可以用来恢复caQTLs和调控基序,其准确性与明显更大的仅序列模型相当。
-
此外,我们的模型能够在未观察到的细胞类型中恢复调控序列、基序和caQTLs,这仅靠序列模型是无法实现的。
-
在预训练之后,我们将模型微调为使用可及性和序列来预测RNA表达。
-
在这里,我们的模型展示了相对于仅序列模型的准确基因表达预测能力,并且具有向保留细胞类型的泛化能力。
-
重要的是,与实验数据的基准测试表明,该模型学习了增强子与其目标基因之间的长程相互作用。
-
我们的结果代表了朝着提高基于序列的神经网络在调控基因组中的泛化能力迈出的一步。
Limitations of the study
研究的局限性
Para_03
-
我们也承认了模型的局限性,并指出了进一步发展的方向。
Para_04
-
首先,EpiBERT的样本外泛化性能取决于保留单元类型中的调控基序使用情况与训练集中表示的相似性。
-
因此,在训练过程中从未遇到过的调控语法(例如,罕见且高度不同的发育状态)的细胞状态可能会削弱EpiBERT的表现。
-
虽然我们向EpiBERT提供了全局基序富集作为细胞身份的代理,但我们的分析表明模型的预测主要依赖于每个输入窗口内的局部序列和染色质状态(即未屏蔽的ATAC-seq信号)。
-
通过改进细胞状态的表示(例如,结合表达或TF结合数据,如其他工作所述),可以提高EpiBERT的泛化能力。
-
这种方法还可以通过允许预测特定反式调节因子如何与局部染色质状态特征(如增强子可及性和活性)相互作用来增强模型的解释性。
Para_05
-
其次,EpiBERT 仅依赖染色质可及性数据来推断每个输入位点的调控状态。
-
然而,我们认识到可及性数据无法捕捉诸如抑制性表观遗传状态和高级染色质组织等关键调控特征。
-
因此,整合其他方法类似的数据模态,如组蛋白标记、转录因子结合、DNA 甲基化或染色质拓扑结构,可能会显著提高 EpiBERT 的性能。
-
此外,尽管我们通过使用高效的变压器块将上下文长度增加到超过 1 Mb,但没有观察到模型性能的显著提升。
-
这突显了需要其他类型的数据(例如,3D DNA 接触频率)和/或替代训练技术,以便让模型能够学习长距离的调控相互作用。
Para_06
-
第三,EpiBERT预测染色质可及性和基因表达的分辨率相对较低(128 bp),并且没有纠正输入ATAC-seq数据中存在的实验偏差。
-
最近的工作9,36已经证明了碱基分辨率预测和明确的Tn5偏差校正对于建模ATAC-seq数据的好处,这两者可能提高EpiBERT的表现,特别是在caQTL预测方面。
-
最后,这里引入的掩码可及性预训练方法可能是对多模态单细胞基础模型的一个有用补充,目前这些模型并未明确包含基因组序列。
-
强制这些模型学习基因表达与局部基因组序列和可及性之间的依赖关系,可能会产生更丰富的细胞表示,从而有可能提供越来越精确的调控见解。
Resource availability
Lead contact
主要联系人
Para_01
-
Material availability
材料可用性
Para_01
-