Basic Information
-
英文标题: GeneCompass: deciphering universal gene regulatory mechanisms with a knowledge-informed cross-species foundation model
-
中文标题:GeneCompass:用知识驱动的跨物种基础模型解析普遍的基因调控机制
-
-
-
-
文章作者:Xiaodong Yang | Xin Li
-
文章链接:https://www.nature.com/articles/s41422-024-01034-y
Abstract
Para_01
-
破译不同生物体中普遍存在的基因调控机制,对于推进我们对基本生命过程的理解和促进临床应用具有巨大潜力。
-
然而,传统的研究范式主要集中在个别模式生物上,并未整合跨物种的各种细胞类型。
-
单细胞测序和深度学习技术的最新突破为解决这一挑战提供了前所未有的机遇。
-
在这项研究中,我们构建了一个包含超过1.2亿个人类和小鼠单细胞转录组的大型数据集。
-
经过数据预处理,我们获得了101,768,420个单细胞转录组,并开发了一个名为GeneCompass的知识引导的跨物种基础模型。
-
在预训练过程中,GeneCompass有效地整合了四种类型的先验生物学知识,以自监督的方式增强了我们对基因调控机制的理解。
-
通过微调用于多个下游任务,GeneCompass在单一物种的多样化应用中超越了最先进的模型,并开启了新的跨物种生物学研究领域。
-
我们还利用GeneCompass寻找与细胞命运转变相关的关键因素,并证明预测的候选基因能够成功诱导人类胚胎干细胞向生殖细胞命运分化。
-
总体而言,GeneCompass展示了使用人工智能技术破译普遍基因调控机制的优势,并显示出加速发现关键细胞命运调节因子和候选药物靶点的巨大潜力。
Introduction
Para_01
-
脊椎动物是复杂的系统,由多达数万亿个细胞组成,这些细胞被分类为数百种不同的类型。
-
这些细胞协作形成多种组织和器官,每个器官都有独特的生理功能。
-
阐明这些组织和器官背后的基因调控机制对于解析其发育模式和促进临床治疗至关重要。
-
随着组学测序技术的快速发展,我们已经开始以单细胞分辨率剖析不同器官中的细胞如何执行其特定功能,从而积累了大量的单细胞数据。
-
然而,基因表达在多个层面上受到调控,从染色质可及性到转录后修饰。
-
这表明仅通过湿实验全面解析基因调控机制既费力又耗时。
-
深度学习模型的出现,能够捕捉和表示大型数据集中的复杂模式,为解析多层次和跨物种的调控机制提供了机会。
Para_02
-
近年来,BERT、GPT、PaLM 和 LLaMA 等自然语言领域的基础模型以及 DALL-E 等视觉领域基础模型在各种下游任务中表现出色。
-
这些模型通常采用一种范式,首先通过自我监督学习在大量数据上进行预训练,然后通过微调步骤适应特定的下游任务。
-
-
类似地,转录组可以作为理解生物系统中基因调控活动的代表性层。
-
一些研究利用单细胞转录组数据构建了预训练的基础模型,如 scGPT、Geneformer、UCE 和 scFoundation。
-
这些研究共同之处在于利用数千万个人类单细胞转录组谱型来预训练基础模型,并在广泛的下游任务中表现出显著性能,例如细胞聚类、细胞类型注释、基因扰动模拟和药物靶点预测。
Para_03
-
尽管脊椎动物之间存在广泛的表型多样性,但基因调控网络表现出高度保守性。
-
-
因此,整合不同物种的数据集为揭示基因调控的复杂性提供了绝佳的机会。
-
-
这些知识包括识别参与基因表达的关键调控元件、验证基因之间的相互作用(基因调控网络和基因共表达关系),以及定义具有相似功能域的基因家族。
-
-
将这些知识纳入预训练过程可以显著引导模型以自监督的方式学习普遍的基因调控机制。
Para_04
-
在本研究中,我们提出了 GeneCompass,这是一种基于 scCompass-126M 预训练的跨物种基础模型,该语料库是最大的单细胞转录组集合,涵盖了来自人类和小鼠的超过 1.2 亿个单细胞转录组。
-
经过数据预处理后,共使用了 101,768,420 个细胞。
-
该模型结合了先验的生物学知识,包括启动子序列、基因共表达网络、基因家族信息以及转录因子与靶基因调控关系。
-
通过微调我们的预训练模型以执行各种下游任务,GeneCompass 在不同生物背景下实现了优于或可比于最先进(SOTA)模型的性能。
-
总体而言,我们的模型在开发用于解析从小鼠到人类的通用基因调控机制的基础模型方面取得了重大突破,并加速了细胞命运关键调节因子及潜在药物靶点的识别。
Results
The architecture of GeneCompass and pre-training
GeneCompass 的架构和预训练
Para_01
-
GeneCompass 是一个基于超过 1.2 亿个人类和小鼠细胞的转录组语料库进行预训练的跨物种基础模型(图 1a)。
-
四种类型的先验生物学知识(基因调控网络、启动子信息、基因家族注释和基因共表达关系)被整合到 GeneCompass 的自监督预训练中(图 1b)。
-
利用自注意力机制进行显式上下文编码,GeneCompass 可以根据输入的转录组理解细胞的本质和基因之间的复杂关系。
-
预训练的 GeneCompass 通过进一步微调有限的任务特定数据,旨在高效应用于各种下游生物任务。
Fig. 1: GeneCompass architecture and pre-training corpus.
-
GeneCompass 的框架。该模型在大规模人类和小鼠单细胞转录组上进行了预训练,并用于多种下游任务,包括细胞类型注释、扰动预测、剂量反应预测、基因调控网络推断等。
-
四种先验知识的嵌入,包括基因调控网络、启动子序列、基因家族和共表达。
-
scCompass-126M 中的人类和小鼠器官类型。
-
从 scCompass-126M 中采样子集的不同细胞类型的均匀流形逼近和投影。
Para_02
-
我们通过构建大规模的预训练语料库 scCompass-126M 来启动 GeneCompass 的开发。
-
该语料库包含来自公开可用数据集的 1.26 亿个人类和小鼠单细胞转录组,涵盖了广泛的器官和细胞类型(图 1c,d;补充信息,图 S1a–c)。
-
为确保数据质量,过滤了基因表达异常的细胞,最终保留了 scCompass-126M 中的 1.0176 亿个单细胞转录组。
-
此外,我们保留了在数据集中具有足够变异或表达水平的信息基因,以捕捉生物异质性和细胞类型特异性特征(补充信息,图 S1a)。
-
为了整合人类和小鼠细胞,使用人类 Ensembl ID 统一表示两个物种之间的同源基因。
-
没有同源基因的基因则用各自物种特定的 Ensembl ID 标记。
-
在本研究中,词典包含 36,092 个基因中的 17,465 个同源基因(补充信息,图 S1b)。
Para_03
-
当前的大规模转录组预训练模型主要利用相对基因排名或分箱的基因表达值作为输入,导致对转录组的表示不够充分。
-
为克服这一局限,我们首先在归一化和排序基因表达后选择了每个细胞的前2048个基因来构建上下文,这与Geneformer的做法相同,然后我们将绝对基因表达值和相应的基因ID连接起来(图1a),以实现更强的自我监督约束,用于GeneCompass。
-
为了进一步增强我们的预训练模型的能力,包括基因调控网络、启动子信息、基因家族注释和基因共表达关系在内的四种不同类型的生物先验知识被编码到一个统一的嵌入空间(图1b;补充信息,图S1d–f)。
-
一个额外的标记被添加到每个细胞的前面,表示物种(人类或小鼠)的信息(图1a),以实现跨物种预训练。
-
GeneCompass将基因ID、表达值和先验知识整合为基因输入,并利用一个12层的Transformer框架来编码细胞。
-
受自然语言处理领域自监督学习的启发,采用了掩码语言建模策略,随机掩码每个细胞中15%的基因输入。
-
GeneCompass建立了恢复被掩码基因输入的基因ID和表达值的代理自监督任务,这增强了其以情境感知方式捕捉复杂基因关系的能力(见"材料和方法")。
GeneCompass captures inherent gene features and relationships across species
GeneCompass 捕获了跨物种的固有基因特征和关系
Para_01
-
同源基因通常保留相似的表达模式和功能角色,使得已知的同源信息成为跨物种语料库整合的有效组成部分。
-
为了验证 GeneCompass 编码的基因嵌入是否保留了同源信息,我们随机选择了来自人类和小鼠语料库的总共 2000 个 B 细胞,并比较了不同物种中同源基因和非同源基因嵌入之间的余弦相似度。
-
我们发现,来自 GeneCompass 的同源基因嵌入比非同源基因嵌入更为相似,从基因嵌入相似度的统计分布来看(图 2a,左侧面板)。
-
还比较了同一小鼠或人类细胞内不同基因之间的余弦相似度。相似度分布的均值接近零,表明不同来源的人类和小鼠基因嵌入之间具有区分性(图 2a,右侧面板)。
-
在多种细胞类型如肝细胞、巨噬细胞以及通过随机选择不同细胞类型的更广泛场景中也观察到了类似的结果,这表明 GeneCompass 成功捕获了跨物种的基因同源性(补充信息,图 S2a–c)。
-
为了测试同源基因之间的相似性是否源自先验知识或自监督预训练,我们在各种情况下比较了同源基因的余弦相似度,包括使用先验知识预训练的 GeneCompass、不使用先验知识预训练的 GeneCompass 和未预训练但使用先验知识的 GeneCompass。
-
还将使用先验知识预训练的 GeneCompass 中非同源基因的余弦相似度作为基线进行比较(补充信息,图 S2d)。
-
结果表明,先验知识和自监督预训练都对 GeneCompass 的跨物种同源性有贡献,而后者起到了主要作用。
Fig. 2: Analysis of gene embedding generated from GeneCompass.
-
同源基因以及不同物种的非同源基因之间的余弦相似性(左图),以及相同小鼠或人类细胞中不同基因之间的余弦相似性(右图)。
-
GATA4 和 TBX5 在人类心肌细胞中被模拟删除后对不同类型基因的影响,包括它们的直接靶标、间接靶标、NOTCH1 靶标、NKX2-5 靶标和管家基因。
-
GATA4 和 TBX5 单独和联合删除的影响,以及它们与其他已知不共绑定管家基因和靶标基因的基因组合删除的影响。
-
GATA4 和 TBX5 在小鼠中被模拟删除后对不同类型基因的影响,包括它们的直接靶标、间接靶标、NOTCH1 靶标、NKX2-5 靶标和管家基因,这些结果是通过同源映射获得的。
-
GATA4 和 TBX5 联合删除对小鼠中管家基因和共绑定靶标基因的影响。(*P < 0.05, Wilcoxon 检验,NS 表示无显著性)
Para_02
-
接下来,我们进行了计算机模拟基因删除实验,以验证 GeneCompass 是否能够通过预训练捕捉基因调控关系。
-
先前的报道表明,GATA4 和 TBX5 对先天性心脏病有显著影响。
-
已确定 GATA4 和 TBX5 变异最异常调控的直接靶基因。
-
我们在人类胎儿心肌细胞中比较了这些基因在单独或同时进行 GATA4 和 TBX5 的计算机模拟删除后的余弦相似度。
-
与现有的湿实验结果一致,单独删除 GATA4 或 TBX5 对其直接靶基因的影响比对间接靶基因、管家基因和其他先天性心脏病相关基因(如 NOTCH1 靶基因和 NKX2-5 靶基因)的影响更大。
-
直接靶基因与管家基因之间的差异通过 t 检验具有统计学意义。
-
同时删除 GATA4 和 TBX5 进一步表明它们对共结合靶基因(由 ChIP-Seq 定义)的协同影响,并将管家基因作为基线进行比较。
-
我们还比较了单独删除和组合删除与其他它们不共结合的基因,结果进一步证明了预训练的 GeneCompass 学习到了 GATA4 和 TBX5 的共结合效应。
-
考虑到 GeneCompass 的跨物种能力,我们通过同源映射将 GATA4、TBX5 以及那些相应的靶基因和间接基因从人类映射到小鼠,在小鼠心肌细胞中进行了相同的实验,并获得了一致的实验结果。
Para_03
-
此外,我们通过在不同物种的各种细胞类型中进行更多的转录因子(TFs)的计算机模拟删除来评估GeneCompass,例如,在人外周血单核细胞中删除STAT1,在人急性髓系白血病细胞中删除SMARCA4,在小鼠胚胎干细胞中删除CBX8,以及在小鼠结肠上皮细胞中删除MTA2。
-
这些转录因子的计算机模拟删除对其对应的ChIP-seq数据集中的靶基因的影响大于对管家基因的影响。
Para_04
-
为了进一步验证 GeneCompass 学到的基因调控关系,我们通过两个新实验系统地评估了 GeneCompass 在基因调控网络(GRN)识别方面的能力,即计算机模拟基因敲除实验和基因扰动模拟实验。
-
结果显示,计算机模拟扰动获得的基因调控关系优于随机猜测。
-
此外,我们使用之前报道的方法进行了基因扰动模拟实验。
-
关于 CREB1、BLHE40 和 DDIT3 的结果表明,GeneCompass 能够在扰动条件下保持基因-基因关系。
Para_05
-
因此,大量实验表明,预训练的 GeneCompass 编码的基因嵌入能够捕捉到固有的基因特征,并进一步学习跨物种的基因调控机制。
GeneCompass boosts cell-type annotation from single species to cross species
GeneCompass将细胞类型注释从单一物种提升到跨物种水平
Para_01
-
尽管现有方法在细胞类型注释中表现出不错的性能,但它们仅专注于单一物种的任务。
-
GeneCompass 使用跨物种语料库和四种类型的先验知识进行预训练,这可能将细胞类型注释从单个物种提升到跨物种水平。
-
我们观察到,在人类多发性硬化数据集上进行细胞类型注释时,随着预训练语料库规模的增加,GeneCompass 的性能持续提高。
-
在相同规模的人类预训练语料库下,尽管使用的是6层变压器,GeneCompass(蓝色线)在宏观F1值和准确性方面始终优于其他基准方法,例如 Geneformer(绿色圆点)和 scGPT(绿色方点)。
-
此外,使用结合了人类和小鼠语料库进行预训练的 GeneCompass(黑色线)相比仅使用人类数据或等量小鼠数据训练的模型表现更为出色。
-
这些结果表明,纳入另一种物种的数据可以增强目标物种下游任务的性能。
-
此外,我们展示了使用12层变压器的 GeneCompass 性能优于6层变压器。
-
之后,我们比较了 GeneCompass 在有无这些先验知识的情况下在细胞类型注释任务中的性能,结果表明注入先验信息的优势。
Fig. 3: GeneCompass boosts the performance of cell-type annotations from single species to cross species.
-
GeneCompass与其他基线方法在人类多发性硬化症(hMS)数据集的细胞类型注释下游任务中的性能比较。GeneCompass使用人类和小鼠(HM,黑线)、仅人类(H,蓝线)以及仅小鼠(M,红线)单细胞转录组语料库进行预训练,这些语料库包含不同数量的细胞。绿色圆形点和绿色方形点分别代表Geneformer和scGPT。"Layers6"表示具有6层变压器结构的GeneCompass。
-
GeneCompass与其他基线方法在hMS、hLung和hLiver数据集上的性能比较。
-
GeneCompass与其他基线方法在mBrain、mLung和mPancreas数据集上的性能比较。
-
GeneCompass+CAME与原始CAME在跨物种细胞类型注释(使用小鼠和人类数据作为参考和目标物种)上的性能比较。在NMDA-Mnseq视网膜数据集中观察到7.5%的改进(第一列)。b至d中的人类和小鼠数据集分别标记为"h"和"m"。有关数据集的详细信息,请参见补充方法部分。"未预训练"表示GeneCompass的参数是随机初始化并在没有预训练过程的情况下直接微调的。
Para_02
-
接下来,为了评估 GeneCompass 在单物种细胞类型注释任务中的能力,我们对来自人类和小鼠的多个器官数据集进行了全面分析。
-
我们对四个模型进行了综合比较:未预训练的 GeneCompass、TOSICA、Geneformer 和预训练的 GeneCompass,在不同的人类数据集中,即多发性硬化症(hMS)、肺(hLung)和肝(hLiver),以及不同的小鼠数据集中,即脑(mBrain)、肺(mLung)和胰腺(mPancreas)进行了测试。
-
我们观察到,预训练的 GeneCompass 在人类数据集中比未预训练的情况提高了宏观 F1 分数 10%–18%,比 TOSICA 提高了 21%–28%,比 Geneformer 提高了 3%–8%(图 3b)。
-
同时,在小鼠数据集中,预训练的 GeneCompass 比未预训练的情况提高了宏观 F1 分数 16%–36%,比 TOSICA 提高了 16%–25%,比 Geneformer 提高了 10%–19%(图 3c)。
-
细致分析显示,在 mPancreas 数据集中,预训练的 GeneCompass 在 18 种细胞类型中的 16 种上实现了比 TOSICA 更高的召回率(补充信息,图 S5c, d)。
-
此外,与 Geneformer 相比,无论是原始版本还是使用与 GeneCompass 相同语料库重新训练的版本,GeneCompass 在细胞类型注释方面表现更好(补充信息,表 S3, S4)。
-
我们可以看到,GeneCompass 性能的提升归因于预训练输入数据和模型架构。
-
这些结果表明,通过预训练大规模跨物种语料库,GeneCompass 在细胞类型注释任务中表现出优越性。
Para_03
-
为了探索 GeneCompass 在跨物种细胞类型注释任务中的能力,我们将 GeneCompass 与最先进的方法 CAME 结合使用。
-
由 GeneCompass 生成的基因嵌入被用作 CAME 中初始基因节点的特征(补充信息,图 S5e)。
-
我们利用小鼠细胞类型作为参考,对来自四个不同器官(视网膜、大脑、胰腺和睾丸)的七个配对数据集的人类细胞进行注释。
-
在整合 GeneCompass 后,我们观察到整体性能相当,并且在七个配对数据集中的四个上相比 CAME 有所改进(图 3d;补充信息,图 S5f)。
-
值得注意的是,在复杂的跨物种注释任务中,例如视网膜(NMDA-Mnseq,第一列),涉及超过 12 种不同的细胞类型,我们观察到相比 CAME 提高了 7.5%,CAME 是一种领先的专门用于跨物种细胞注释的工具。
-
这一改进仅通过用 GeneCompass 生成的基因信息嵌入替换过程中生成的嵌入实现。
-
这一结果突显了 GeneCompass 在提升跨物种任务方面的潜力。
Para_04
-
总之,使用超过1.2亿个人类和小鼠细胞预训练的跨物种GeneCompass在单物种细胞类型注释任务中优于最先进的方法,并在跨物种任务中展现出巨大潜力。
Pre-trained gene embeddings improve the prediction performance in multiple biological contexts
预训练的基因嵌入在多个生物学背景下提高了预测性能
Para_01
-
为了进一步研究 GeneCompass 中编码的基因嵌入的能力,我们将其应用于多个下游预测任务,包括基因调控网络推断、药物剂量反应预测、基因表达谱分析和基因剂量敏感性(图4a;补充信息,图S6)。
Fig. 4: GeneCompass demonstrates enhanced performance for GRN inference, drug dose response prediction, gene expression profile prediction, and gene dosage sensitivity prediction tasks.
-
基因嵌入从 GeneCompass 生成并整合到四个下游任务的工作流程:GRN 推断、药物剂量反应预测、基因表达谱分析和基因剂量敏感性预测。
-
各模型在 GRN 推断任务上的性能比较,以 AUPRC 衡量。红线表示不同数据量训练的 GeneCompass 的结果。蓝色、橙色和棕色点分别代表 DeepSEM、scGPT 和 Geneformer 的结果。
-
各模型在药物剂量反应预测任务上的性能比较,以 R 平方值衡量。红线表示不同数据量训练的 GeneCompass 的结果。绿色和蓝色点分别代表 scGPT 和 Geneformer 的结果。
-
各模型在基因表达谱预测任务上的性能比较,以均方根误差作为评估指标。红线表示不同数据量训练的 GeneCompass 的结果。蓝色、绿色和棕色点分别代表 DeepCE、scGPT 和 Geneformer 的结果。
-
各模型在剂量敏感性预测任务上的性能比较,以 AUC 作为评估指标。红线和蓝线分别表示不同数据量训练的 GeneCompass 和 Geneformer 的结果。虚线表示未预训练的 GeneCompass 的结果。
Para_02
-
GRN 提供了有关基因调控和信号转导的信息,有助于了解疾病中的基因表达模式和关键调控基因。
-
在预训练过程中,GeneCompass 有效地捕捉了基因嵌入中的基因调控关系,这可能增强 GRN 推断应用的效果。
-
因此,我们基于 GeneCompass 基因嵌入之间的余弦相似性生成了基因-基因关系信息,通过将成对相似性转换为二进制邻接矩阵,并使用优化的通用阈值 0.4。
-
这些信息随后用于更新 DeepSEM 输出的 GRNs,DeepSEM 是一种先进的 GRN 推断工具。
-
此外,我们还使用其他预训练模型生成的基因嵌入进行了类似的实验,这些模型分别是 Geneformer 和 scGPT。
-
已知 GRN 推断任务是一个典型的不平衡问题,其中只有少量的基因对具有调控关系。
-
因此,我们使用精确率-召回率曲线下面积(AUPRC)作为评估性能的指标,该指标也源自 DeepSEM。
-
真实数据集基于 ChIP-Seq 并与 PECA GRN 的先验知识进行了去重。
-
通过这一指标,我们观察到 GeneCompass 在 GRN 推断性能上优于 scGPT、Geneformer 和普通的 DeepSEM(图 4b;补充信息,图 S7a–c)。
Para_03
-
预测不同类型和剂量药物对基因表达变化的反应对于药物功能评估至关重要。
-
为了验证 GeneCompass 和其他预训练模型生成的基因嵌入在这一任务中的潜在优势,我们将它们整合到组合扰动自编码器(CPA)框架中,以预测特定基因(例如 MDM2)的表达变化。
-
随着数据量的增加,GeneCompass 展现了持续更好的性能。
-
GeneCompass 达到了最高的分数,与 Geneformer 相同,并且在不同的药物条件下表现出比其他模型更低的方差。
-
除了预测单个基因的变化,我们还将 GeneCompass 生成的基因嵌入整合到广泛使用的 DeepCE 模型中,以评估其对预测药物诱导的基因表达谱变化的模型性能的影响。
-
随着数据量的增加,GeneCompass 的性能持续提高。
-
最终的 GeneCompass 性能与 Geneformer 相当,并优于其他预训练模型。
Para_04
-
确定剂量敏感基因对于解释遗传诊断中的拷贝数变异(CNVs)至关重要。
-
在此基础上,我们对 GeneCompass 进行了微调,以识别预定义的剂量敏感和非敏感基因数据集中的剂量敏感基因。
-
我们观察到,随着用于预训练的细胞数量增加,GeneCompass 在接收者操作特征曲线下面积(AUC)方面的预测性能持续提高,达到了 0.95。
-
在使用相同数量的训练数据集时,GeneCompass 的表现优于 Geneformer。
-
这种改进的效能可以归因于在预训练过程中战略性地引入了先验知识。
Para_05
-
总之,GeneCompass 在多个任务中展示了有希望的结果,包括基因调控网络推断、药物剂量反应预测、基因表达谱分析和基因剂量敏感性预测任务。
-
GeneCompass 的性能证明了其在各种下游生物任务中的适应性和有效性。
-
此外,广泛的实验还证明了丰富的语料库和新颖的架构提高了 GeneCompass 在所有下游任务中的性能。
Pre-trained gene embedding improves gene perturbation prediction
预训练的基因嵌入改进了基因扰动预测
Para_01
-
尽管基因剂量对疾病和药物治疗有显著影响,但功能突变直接改变基因功能,导致广泛的细胞变化。
-
我们尝试利用 GeneCompass 提供的基因嵌入来预测由功能基因突变引起的全局基因表达变化。
-
我们将 GeneCompass 基因嵌入整合到高级扰动预测工具 GEARS 中,通过替换原始过程中从共表达知识图中学习到的原始基因嵌入(图5a)。
-
这使得在 Norman perturb-seq 数据集上训练时,前20个差异表达基因(DEGs)的均方误差(MSE)降低了15.4%,表明这些关键基因的预测表达变化与实际表达变化之间的差异较小(图5b)。
Fig. 5: GeneCompass shows enhanced performance for the gene perturbation prediction task.
-
GeneCompass 工作流程用于扰动预测任务。
-
GeneCompass 和 GEARS 在预测前 20 个差异表达基因(DEGs)表达变化时的均方误差(MSE)。MSE 仅考虑前 20 个差异最大的 DEGs。
-
预测和实际基因表达变化的散点图。每个点代表一个特定的基因,Spearman 相关系数标记为"ρ"。
-
预测的扰动后差异表达方向与真实情况不符的前 20 个 DEGs 的总数。
-
GeneCompass 和 GEARS 分析的前 20 个 DEGs 预测和真实基因表达变化之间的偏差。
-
在比较 GeneCompass 与 GEARS 时,使用前 20 个 DEGs 的偏差作为标准,预测结果与真实情况之间偏差较小的扰动所占百分比。"GeneCompass 更好"定义为 GeneCompass 的偏差小于 GEARS。
-
结合 TGFBR2 和 PRTG 扰动的真实实验后基因表达变化由 GeneCompass 和 GEARS 预测。灰色误差条表示在扰动基因组合 TGFBR2 和 PRTG 后平均基因表达变化的标准差(n = 205)。红色三角形符号显示了在训练过程中排除 TGFBR2 和 PRTG 扰动的情况下,GeneCompass 预测的基因表达变化。蓝色方形符号显示了 GEARS 预测的基因表达变化。
Para_02
-
然后,我们进行了一次保留测试,以评估 GeneCompass 对 102 个单基因和 128 个双基因扰动预测的性能。
-
扰动后预测的基因表达变化与真实变化之间的斯皮尔曼相关系数显示,GeneCompass 相比 GEARS 提高了 2.2%,从 79.8% 提高到 82.0%。
-
-
接下来,我们研究了 GeneCompass 是否能更准确地预测扰动后基因表达变化的正确方向。
-
总结了每个扰动预测中前 20 个方向错误的差异表达基因(DEGs)。
-
将结果与 GEARS 的预测结果进行比较,我们观察到方向错误的 DEGs 数量减少了 13.7%,从 336 个减少到 290 个。
Para_03
-
此外,对每个扰动预测的偏差分析表明,GeneCompass 在单基因和双基因扰动的前 20 个差异表达基因中,相对于 GEARS 表现出更低的偏差。
-
与 GEARS 相比,GeneCompass 在单基因扰动中的偏差减少了 5.9%,在双基因扰动中的偏差减少了 12.5%。
-
例如,我们展示了当扰动 TGFBR2 和 PTRG 基因时,GeneCompass 对 17/20 个差异表达基因的预测结果比 GEARS 更准确。
-
-
总之,GeneCompass 中的基因嵌入提供了更有效的基因间关系表示,增强了基因扰动的预测能力。
GeneCompass enables cell fate prediction and identifies key regulatory factors
GeneCompass 实现了细胞命运预测并识别关键调控因子
Para_01
-
由于在自监督预训练过程中,基因的绝对表达值和相对排名指数都被遮蔽并重建,GeneCompass 能够捕捉复杂的调控机制,从而实现计算机模拟的定量基因扰动(图 6a)。
-
为了验证这一能力,我们模拟了 iPSCs 诱导过程,类似于现有工作中的一个经过充分表征的重编程范例(补充信息,图 S10b),通过在人成纤维细胞中过表达 OSKM 基因(OCT4、SOX2、KLF4 和 c-MYC)进行模拟。
-
我们为 OSKM 基因设置了两个过表达水平:基因在整个数据集中的中位值(低水平过表达)和细胞中的最大值(高水平过表达)。
-
与过表达其他四个随机基因的对照组相比,两种水平的计算机模拟 OSKM 过表达细胞都表现出向 iPSC 状态的转变。
-
值得注意的是,高水平过表达 OSKM 的细胞比低水平过表达的细胞更接近 iPSC 状态,反映了对细胞重编程的精确模拟。
-
在小鼠成纤维细胞中也观察到了一致的结果(图 6b)。
-
然后,GeneCompass 在细胞分化过程中的计算机模拟定量敲除任务中进行了评估。
-
据报道,Zbtb11 和 Zfp131 是维持小鼠胚胎干细胞(ESCs)多能性所必需的关键转录因子。
-
Zbtb11 和 Zfp131 的缺失可以诱导内胚层分化。
-
在我们的研究中,通过逐步将它们的表达水平降低到一半、四分之一和零,在小鼠 ESCs 中进行了 Zfp131 和 Zbtb11 的计算机模拟定量敲除。
-
与实际敲除结果一致,我们观察到所有模拟敲除细胞都表现出向内胚层状态的转变。
-
重要的是,我们发现这种转变的程度与计算机模拟敲除水平之间存在正相关关系(补充信息,图 S10a)。
Fig. 6: In silico quantitative perturbation for cell reprogramming and differentiation.
-
计算机模拟的细胞命运转变图。通过移除或在排名基因中向前移动突出显示的红色基因,进行计算机模拟的基因敲除或过表达实验。
-
在人类(上)或小鼠(下)成纤维细胞中,进行计算机模拟的低水平或高水平OSKM过表达,以计算模拟细胞状态与iPSCs之间的余弦相似度。使用其他四个随机基因的计算机模拟过表达作为对照。
-
在每个模拟组中,所有扰动的成纤维细胞和iPSCs之间的嵌入对用于计算余弦相似度。每组中的所有对的余弦相似度同时用概率密度图和箱线图展示。
-
响应于计算机模拟过表达,在人类ESC细胞中驱动细胞嵌入向Leydig细胞状态和性腺祖细胞状态转变的候选基因分布。排名前50位的基因,分别转向Leydig细胞(下)或性腺祖细胞(上)状态,并远离ESC状态。Venn图交集中的五个基因被选为性腺分化的候选基因。
-
间质/Leydig谱系和Sertoli细胞标志物的蛋白共免疫荧光染色,包括GATA4(GATA4+,红色;TCF21+,绿色;NR2F2/NR2F1+,青色)。比例尺:100微米
-
与野生型ESC衍生细胞相比,GATA4过表达组中上调的性腺谱系相关标志基因的鉴定,其变化倍数超过2倍。
-
使用DAVID对GATA4过表达组中总上调基因(变化倍数超过2倍)进行了基因本体论(GO)富集分析。(*P < 0.05,Wilcoxon检验)。
Para_02
-
接下来,我们利用 GeneCompass 通过计算机模拟分析预测细胞命运转变中的关键调控因子,旨在提高湿实验的效率并揭示新的机制。
-
在此,我们进行了人类胚胎干细胞向生殖系细胞分化实验(图6c;补充信息,图S10c)。
-
具体来说,每个初始胚胎干细胞中的基因都被计算机模拟过表达,以生成代表模拟分化状态的细胞嵌入。
-
通过比较初始、模拟和目标细胞嵌入之间的余弦相似性,我们确定了前五名基因,即 NR2F1、NR5A1、WT1、TCF21 和 GATA4,这些基因的模拟细胞嵌入与生殖系祖细胞和成熟的莱迪格细胞具有更高的相似性,而与原始胚胎干细胞的相似性较低(图6c,参见"材料和方法")。
-
有趣的是,这五个基因都是转录因子,其中三个基因,即 WT1、NR5A1 和 NR2F1,已被报道在小鼠体内生殖系发育中起着至关重要的作用。
-
因此,这些基因可能是触发胚胎干细胞向生殖系祖细胞分化的关键因素。
Para_03
-
为了进一步验证这些基因的作用,我们在 ESCs 中分别过表达 NR5A1 和 GATA4,并随后诱导其向生殖腺谱系分化。
-
免疫荧光结果显示,在人类 ESCs 中单独过表达任何一个基因都可以诱导生殖腺基因程序,这通过激活与生殖腺祖细胞相关的标志基因得以证明。
-
此外,全面的转录组比较分析显示,在 NR5A1 或 GATA4 过表达的细胞中,已知与生殖发育相关的标志基因显著上调,而未在 ESCs 中观察到这种现象。
-
-
直观地,NR5A1 和 GATA4 过表达的细胞直接上调了维持视黄酸稳态的 RBP1 基因以及睾丸细胞中类固醇激素合成相关基因 STAR 和 HSD3β1。
-
这些结果表明,预测的基因确实在人类 ESCs 向生殖腺分化过程中发挥了重要作用。
Para_04
-
总之,GeneCompass 展现了细胞命运预测和关键调控因子识别的能力,这些能力可以应用于提高湿实验的效率并揭示新的机制。
Discussion
Para_01
-
在这项研究中,我们引入了 GeneCompass,一个大规模预训练模型,整合了 1.26 亿个跨物种单细胞转录组与四种已知的生物知识类型。
-
GeneCompass 使用基于 Transformer 自注意力机制的深度学习架构,捕捉不同细胞背景下不同基因之间的长距离动态关联。
-
在预训练过程中,基因根据其表达值进行排序并进行双编码输入。
-
这使得 GeneCompass 能够有效地和灵敏地提取基因之间的关系,并在特定条件下提供更精确的基因-基因相互作用分析。
Para_02
-
我们发现,GeneCompass 使用大规模跨物种数据进行单个物种的下游任务时遵循了扩展定律:更大规模的多物种预训练数据产生的预训练表示优于单个物种的数据,进一步提升了下游任务的表现。
-
这一发现进一步证实了物种之间存在保守的基因调控模式,这些模式可以通过预训练模型学习和理解。
-
这也表明,随着物种和数据的扩展,模型性能有望持续提高。
Para_03
-
GeneCompass 是一个嵌入知识的跨物种预训练大型基础模型,应用于生命科学领域,能够实现多个跨物种下游任务的迁移学习。
-
与现有模型相比,它在多种下游任务中表现出更好的性能,例如细胞类型注释、基因调控网络推断、药物剂量反应预测、基因表达谱分析以及基因剂量敏感性预测和定量基因扰动预测。
-
这些结果证明了在多物种大规模未标注数据上预训练基础模型,并在有限的任务特定数据上进行微调的策略,可以成为解决各种与基因-细胞特征相关的生物学问题的有前途的通用解决方案。
-
此外,我们进行了广泛的交叉验证实验,以研究在预训练过程中引入不同先验知识对下游任务性能的影响。
-
这些结果表明,注入先验知识可以促进预训练基础模型对生物数据之间复杂特征关联的理解。
Para_04
-
-
-
在尝试加入其他物种的数据时,我们怀疑物种特异性的基因表达模式可能会抵消数据量扩增带来的好处。
-
除了现有的先验知识外,还应探索其他重要信息,如增强子和蛋白质序列。
-
此外,除了单细胞水平的转录组数据,大量表观基因组、蛋白质组和代谢组数据将为基因调控提供更丰富的见解。
-
研究将多模态信息有效整合到模型中的策略是未来研究的关键方向。
Para_05
-
GeneCompass在多个下游任务中表现出有希望的性能。
-
随着持续的演进和更广泛的应用,它有望在优化细胞命运预测和揭示关键调控因子方面提供重要价值。
-
这可以为临床应用开辟新的途径,例如疾病靶基因发现、肿瘤药物筛选和药物毒性预测。
-
未来,我们预计大型基础模型与湿实验的融合将在生命科学研究中创造一个新的范式,推动各个领域的进步。
Materials and methods
Collecting and preprocessing of multi-species training data
多物种训练数据的收集和预处理
Para_01
-
我们构建了一个大规模的预训练语料库,scCompass-126M,包含来自人类和小鼠的超过1.2亿个单细胞转录组。
-
具体来说,我们获得了53,568,337个人类单细胞,48,200,083个小鼠单细胞,总计101,768,420个人类和小鼠单细胞。
-
超过90%(约94.41%)的数据来自各种来源的公共数据集,包括美国国家生物技术信息中心(NCBI)的基因表达数据库、欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)的ArrayExpress以及中国国家生物信息中心(CNCB)(补充信息,表S1)。
-
原始序列数据从这些数据库下载,每个样本文件都标有唯一ID,并使用Cell Ranger获得基因计数矩阵。
-
基因计数矩阵中的另一部分数据主要从CELLxGENE数据库下载。
Para_02
-
-
该管道包括以下步骤:过滤表达基因少于200个的细胞,过滤包含少于4个细胞的样本,过滤表达超过7个蛋白质编码或miRNA基因的细胞,过滤线粒体基因比例超过15%的细胞,过滤在每个样本中基因表达矩阵中表达基因数超出所有细胞平均数三个标准差的细胞,并丢弃不在核心基因列表中的基因。
-
使用来自Ensembl的信息性基因注释来定义一个核心基因列表,包括蛋白质编码基因、lncRNAs和miRNAs。
-
类别如假基因、tRNAs、rRNAs和其他当前单细胞转录组学无法捕获的位点被排除在分析之外。
Para_03
-
我们的预训练语料库包括疾病细胞、癌细胞和永生化细胞系。元数据描述包括单细胞扰动、癌细胞识别、性别分布和细胞分化时间,用于评估数据集的多样性。
-
这些元数据描述包括单细胞扰动、癌细胞识别、性别分布和细胞分化时间,用于评估数据集的多样性。
GeneCompass architecture and pre-training
GeneCompass 的架构和预训练
GeneCompass architecture
GeneCompass架构
Para_01
-
GeneCompass 使用自注意力变换器对每个单细胞转录组数据进行编码。
-
我们将变换器层的数量表示为 L,自注意力头的数量表示为 H,隐藏层大小表示为 D。
-
我们主要使用了一个参数为 L=12、H=12、D=768 的变换器,其总参数量超过 1 亿。
-
GeneCompass 对每个细胞样本操作一个包含 2048 个基因的序列,每个序列根据相应的高表达排名获得。
-
对于给定的基因,信息包括基因 ID、表达值、相关先验知识(启动子、基因调控网络、基因家族和共表达)以及一个指示物种的特殊标记被连接并进一步编码为 768 维嵌入。
-
-
高斯误差线性单元 (GELUs) 用于非线性激活,自注意力层和全连接层的 dropout 概率为 0.02(权重矩阵初始化的标准差为 0.02;层归一化层的 epsilon 为 1 × 10–12)。
-
模型配置、数据加载和训练的代码由 Pytorch 和 Huggingface Transformers 库实现。
-
GeneCompass pre-training and optimization
GeneCompass的预训练和优化
Para_01
-
受自然语言处理领域中自监督学习的启发,采用了一种掩码语言建模策略,在预训练期间随机掩码基因,包括其ID、表达和先验知识。
-
具体来说,每个细胞中有15%的基因被随机选择进行掩码。
-
与现有研究相比,GeneCompass构建了一个多任务学习范式,基于编码的基因嵌入同时预测被掩码基因的表达值和ID。
-
Para_04
-
Para_05
-
预训练参数如下:为了充分利用 GPU,将批次大小调整为 12 层变压器模型的最大允许值 10。
-
学习率设置为线性衰减,前 10,000 步为热身步骤,最大学习率为 5e-5,使用 AdamW 优化器。
-
GeneCompass 进行了 3 个周期的预训练,在此期间损失基本不再减少。
-
整个预训练过程在 4 台配备 8 块 NVIDIA A800 GPU 的设备上完成,耗时 9 天。
Cell and gene embedding
细胞和基因嵌入
Para_01
-
我们可以从 GeneCompass 的最后一层输出中获得细胞和基因的嵌入。GeneCompass 将每个基因编码为一个 768 维的嵌入,其中包含了该基因在细胞中的上下文信息。并且使用特殊标记的嵌入作为细胞嵌入,以指示细胞状态。
Ablation experiments
消融实验
Downstream task fine-tuning
下游任务微调
Para_01
-
对于下游任务,预训练的 GeneCompass 使用有限的数据进行了进一步的全面微调。
-
一个特定于任务的解码器(例如,全连接层)被附加到 GeneCompass 的 12 层变压器编码器上。
-
为了确保公平比较,所有下游任务的比较方法的所有超参数都与 GeneCompass 采用相同的微调过程。
-
具体来说,我们首先使用了下游任务的比较方法的官方代码库;然后,我们在模型上执行了相同的参数微调过程(如学习率、批量大小和迭代次数);最后,我们使用每个模型达到的最佳性能进行比较。
Knowledge embedding and incorporation
知识嵌入与融合
Para_01
-
基因的四种先验生物学知识被编码成相同的768维嵌入,并与基因ID和表达值结合,这些知识包括基因调控网络、启动子信息、基因家族注释和基因共表达关系。
GRN embeddings
GRN嵌入
Para_01
-
我们使用DNA元件百科全书(ENCODE)中的配对基因表达和染色质可及性数据构建了PECA248基因调控网络。