专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  ​Science | ... ·  昨天  
生物学霸  ·  2025 ... ·  2 天前  
BioArt  ·  Science丨神经元- ... ·  2 天前  
生信人  ·  神经内分泌:聚焦难治性肿瘤 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

前瞻 | Nature | 人类细胞图谱:从细胞普查到统一的基础模型

生信菜鸟团  · 公众号  · 生物  · 2025-02-06 10:00

正文


Basic Information

  • 英文标题:The Human Cell Atlas from a cell census to a unified foundation model
  • 中文标题:人类细胞图谱:从细胞普查到统一的基础模型
  • 发表日期:20 November 2024
  • 文章类型:Perspective
  • 所属期刊:Nature
  • 文章作者:Jennifer E. Rood | Aviv Regev
  • 文章链接:https://www.nature.com/articles/s41586-024-08338-4

Abstract

Para_01
  1. 随着分子和空间分析方法的显著进步以及利用人工智能和机器学习的新计算方法的出现,细胞图谱的构建正在从数据收集进展到图谱整合及更远。
  2. 在这里,我们探讨了包括人类细胞图谱在内的细胞图谱已经在揭示有价值的生物学见解的五种方式,以及它们在未来几年内如何提供更大的益处。
  3. 特别是,我们讨论了细胞图谱作为细胞普查;作为身体中跨模态和尺度的细胞三维地图;作为连接基因型原因与表型效应的地图;作为发育的四维地图;最终,作为统一所有这些方面并帮助变革医学的生物学基础模型。

Main

Para_01
  1. 理解我们的细胞在健康和疾病中的功能对于基础人类生物学和医学诊断与治疗的进步至关重要。
  2. 虽然遗传学研究已经在人类基因组中绘制了超过10万个与疾病相关的变异,但我们不知道这些变异中的大多数在哪些细胞中活跃,以及它们执行什么功能。
  3. 没有这些知识,我们无法完全理解生物学,研究更强大的疾病模型,部署更好的诊断方法并开发更有效的治疗方法。
  4. 这个挑战是巨大的:人体估计有37.2万亿个细胞,跨越了令人难以置信的多样性类型和状态,并且每个细胞也受到我们固有的多样性的影响——包括祖先、地理、年龄、性别和生活经历——并且随着时间的推移不断变化。
Para_02
  1. 人类细胞图谱(HCA)倡议是由数千名科学家于2016年发起的一个联盟,旨在通过创建所有人类细胞的全面参考图谱来应对这一挑战,作为理解人类健康和诊断、监测及治疗疾病的基础。
  2. 图谱被广泛定义为地图的集合。
  3. 在地理学(制图学)中,这些通常涵盖各种地理区域,并可以提供同一地理区域的多个视图(地形、道路、政治边界、气候、人口统计)。
  4. 在数学(微分几何)中,一个图谱是一组图表,直观地描述流形的各种部分,共同允许在不同局部描述之间进行连贯的转换。
  5. HCA借用了这两个概念——类似于地理图谱,细胞图谱可以覆盖不同的器官(地理区域),并提供这些细胞的不同视图,包括哪些细胞构成组织或器官,它们可以假设哪些动态状态,它们如何在状态之间转换以及细胞位于何处,当作为一个集合来看时,这些视图可以给人类身体提供更广阔的视角,超越单一区域。
  6. 像一个流形一样,我们可以将每个细胞视为基于其分子或其他特征映射到连续高维空间中的一个点,个体细胞类型或状态表示为局部图表。
  7. 这些图表覆盖了流形的一部分,并提供了详细的局部细胞多样性视图,算法可以用于在不同细胞状态之间平滑过渡(有关细胞图谱概念的进一步讨论可以在HCA白皮书中找到)。
  8. 利用新的实验室和计算技术生成这样的图谱成为可能,包括大规模单细胞和空间基因组学,以及人工智能和机器学习(AI/ML)和数据科学的实质性进展。
  9. 自成立以来,HCA已成为生物学、技术和医学交汇处的主要推动力量。
  10. 它已经成为多个相关倡议努力的合作伙伴或模型,专注于疾病生物学(例如,人类肿瘤图谱网络和肾脏精准医学项目)和特定器官(例如,BRAIN倡议和肠道细胞图谱),以及多模态(如NIH HubMAP)、多尺度(CIFAR MacMillan多尺度人类项目)和模式生物(例如,果蝇细胞图谱)图谱。
Para_03
  1. 在初步规划和数据收集阶段之后,HCA社区现在进入了一个整合和组装第一个草图图谱的时代,主要关注迄今为止收集的主要数据:单细胞分辨率的分子谱,主要是RNA。我们报告了许多关于数据收集、数据整合和计算方法开发的努力,这些努力体现在与这一观点同时发表的一系列论文中。
  2. 这些进展共同表明,现在可以收集、建模、分析和查询越来越大的单细胞和空间基因组数据集,为细胞和组织生物学的基础图谱开辟了令人兴奋的前景。
  3. 在这里,我们探讨了细胞图谱的五个当前和未来的视角:作为细胞普查、三维地图、时间发育地图、基因型到表型地图以及细胞生物学的多模式基础模型(图1)。
  4. 我们强调了在这些领域中的显著进展和剩余的挑战,并说明这些细胞图谱的应用将如何影响生物医学。

Fig. 1: Five perspectives on cell atlases.

- 图片说明 - a–e,细胞图谱可以是对特定器官或系统内细胞的普查(a);体内细胞和组织的多尺度、多模态3D地图(b);将基因型(即来自GWAS分析)与细胞、组织或全身水平的表型连接起来的地图(c);提供一个框架和资源,用于比较模型系统和疾病中的组织样本的4D发育地图(d);并且,通过结合这些层次并利用AI/ML计算进步,创建生物学的基础模型(e)。p.c.w.,受孕后周数。 - ,

The cell atlas as a census

Para_01
  1. 构建一个全面的参考图谱需要系统地、连贯地发现、编目和描述所有组织、器官和系统中存在的细胞类型和状态,并且在计算和生物学上严格进行。这既需要在单细胞和空间层面上进行大规模、综合性的实验,涵盖多种生物模式(例如分子和非分子形态学),也需要开发相应的算法用于数据整合、解释和分析,并生成可测试的预测以填补未观察到的特征或细胞的空白。
  2. 这需要在单细胞和空间层面上进行大规模、综合性的实验,涵盖多种生物模式(例如分子和非分子形态学),也需要开发相应的算法用于数据整合、解释和分析,并生成可测试的预测以填补未观察到的特征或细胞的空白。
Para_02
  1. 迄今为止收集的单细胞和单核分子谱数据现在正在被整合到初始图谱中,这些图谱由注释的组织和器官参考数据对象组成,这将成为第一个HCA v.1草案。类似于人类基因组计划中将‘金路径’组装成整个染色体的过程,这种迭代工作越来越为广泛的生物医学界提供了一个可靠和标准化的研究资源,一个查询和研究的参考,并且是一个早期的‘真实情况’来训练更好的算法。
  2. 为了确保图谱是开放的并赋予用户权力,所有图谱都在HCA数据门户(https://data.humancellatlas.org/)和CELLxGENE Discover门户上可用,这些门户提供了预先计算的、高度可访问的表示形式及相关查询工具,适用于广泛的用户。
  3. 我们将逐步将这些综合图谱演变成一个完整而全面的人类细胞类型和状态的普查。
Para_03
  1. 前四个草稿版HCA图谱——人类肺细胞图谱v.110、NIH BRAIN计划的全脑和皮层图谱18(https://data.humancellatlas.org/hca-bio-networks/nervous-system)以及HCA眼科生物网络的人类视网膜细胞图谱v.119——已经被证明是强大且有影响力的参考,类似的非人类物种图谱也是如此9,20,21。每个图谱都带来了即时的见解。
  2. 例如,肺图谱识别了稀有细胞类型,健康个体之间的变异以及不同肺疾病(如COVID-19、肺癌和纤维化)之间的相似性。
  3. 这些草稿图谱使研究人员能够通过识别与感兴趣细胞类型相似的细胞类型,或深入研究驱动特定细胞、组织或有机体表型的基因程序和分子机制,将疾病数据集与健康状态进行比较22,23,24。
  4. 比较人类和非人类图谱,例如小鼠和人类脑图谱18,21,提供了更好地理解人类图谱中差距、模型生物反映人类生物学的程度以及图谱完整性差距的背景。
  5. 其他尚未整合到草稿图谱中的普查也产生了影响。
  6. 例如,子宫内膜普查揭示了月经周期期间子宫内膜如何再生而没有疤痕,并暗示在子宫内膜异位症中,蜕膜化的基质细胞和巨噬细胞可能失调。
Para_04
  1. 作为参考普查,图谱必须严谨、信息丰富且以社区为中心,并且随着新数据和方法的出现而逐步演变。为了实现严谨且以社区为导向的图谱,每个由生物领域专家领导的18个HCA生物网络(https://www.humancellatlas.org/biological-networks/)与一个具有AI/ML和计算生物学专业知识的中央计算集成团队合作。他们共同开发了一个通用的图谱集成框架,针对不同生物系统的独特特征进行了具体调整(例如,神经元倾向于分成更离散的组,而许多免疫细胞遵循连续性)。
  2. 首先,团队为每个图谱设定了特定的目标(例如,在发育图谱中统一的发展轨迹;在血液细胞图谱中疾病特异性的细胞状态)。根据系统比较,评估整合方法是否能够实现这些目标,从而指导方法选择、质量控制阈值和广泛共享步骤中的特征选择。
  3. 随着整合工作的进行,团队应对额外的挑战,包括通过不同类型和共享基因程序的角度描述细胞的需求;以及在捕捉不同生态位特异性特征的同时,跨不同器官/系统图谱关联细胞的需求。
Para_05
  1. 随着每个图谱的组装,社区对不同整合方法的性能有了更多的了解,如何开发更好的基准测试以及整合不同组织图谱的挑战是什么,尤其是那些缺乏对图谱试图代表的基本真相的理解的图谱。
  2. 值得注意的是,算法可以帮助揭示评估指标中的盲点,这些盲点可能导致倾向于忽略重要生物信号的整合方法和算法。
  3. 这种方法帮助揭示了评估框架很容易被一个简单的玩具方法‘愚弄’。
  4. 系统地改进基准测试框架是HCA社区的一个活跃研究领域。
Para_06
  1. 对实际影响至关重要的一个组成部分是对细胞类型和状态的生物注释。第一种图谱注释范式结合了计算分析(例如,聚类细胞特征、生成差异表达基因集、评分预先存在的基因标记)和人类专家知识来为细胞子集命名。
  2. 结果,‘相同’的细胞可能被赋予了相似但不完全相同的标签,并由相似但不完全相同的特征定义。
  3. 有四个关键杠杆可以协调这些:细胞本体论,它建立了一致的术语和关系集合;HCA细胞注释平台,用于社区驱动的创建、探索、存储和服务注释(https://celltype.info/);迁移学习,通过现有注释算法地标注新细胞;以及生物网络,让专家参与注释。
  4. 同时,在注释的HCA数据上训练的基础模型可以重新定义注释,将所有这些特征在组织内和跨组织中包含进来(参见‘作为生物学基础模型的图谱’部分)。
  5. HCA社区现在已经开发了一系列计算方法来生成参考(例如,Azimuth),将其与新数据集成(例如,SCArches),对其进行注释(例如,CellTypist,CellHint),查询它们(例如,SCimilarity)等等(例如,SEACells,CellRank)。
  6. 最终,我们设想配备了大型语言模型的自主代理将利用图谱数据、文献和人类专业知识来增强注释,包括疾病图谱的注释。
Para_07
  1. 一个成功的图谱普查必须是可查询的。例如,给定一个细胞或一组相似细胞的特征,用户应该能够标记(注释)它们的类型,将它们映射到图谱中,并找到在它们中活跃的图谱基因程序。
  2. 如果用户有一个异质性的细胞样本,他们应该能够同时查询所有这些细胞。
  3. 他们应该能够查询他们的细胞或样本与参考之间的偏差和差异(在基因特征和比例方面)。
  4. 还应该能够用一个或一组基因查询图谱,并找到表达这些基因的细胞和程序,在绝对和相对尺度上。
  5. 社区开发的几种工具使其中一些查询成为可能,而其他查询尚未得到解决。
  6. 这些工具包括基础模型,如scGPT34和GeneFormer33;细胞特征搜索和查询工具,如SCimilarity22;用于疾病特异性分析的工具,如MultiMIL42;以及细胞类型注释和协调方法,如CellHint36。
  7. 这些只是研究人员可用的积极增长工具箱中的几个组件。
  8. 然而,请注意,仍有关键机会进行新方法的发展,既包括对现有查询的新方法,也包括解决全新查询的方法,如多细胞配置。
  9. 其中一些新查询可能很难一般性地定义。
  10. 此外,随着社区开发越来越多基于人工智能的查询方法,这些方法需要结合支持结果的相关证据机制(如同检索增强生成中使用的那样),并评估输出的质量和不确定性,以防止过度解释或过于自信。

The atlas as a multimodal and multiscale 3D map

Para_01
  1. 单独的细胞普查并不是一个全面的生物图谱,因为它无法捕捉人体固有的多模态、多尺度和3D特性,从细胞内组织到显微组织学再到大体解剖。
  2. 为了理解细胞的功能,我们需要知道它们在不同测量模式下的内在组织方式以及它们在相同和不同长度尺度上的外在位置,既要基于一个共同的坐标框架,也要相对于其他细胞和生物实体。
  3. 因此,细胞图谱还必须是一个可推广的、多模态和多尺度的地图,它在组织、器官和整个身体的抽象3D表示中关联多种不同的分子、细胞和视觉特征。
Para_02
  1. 随着多模态图谱的发展,不同的模态为学习生物学的不同方面提供了机会,因为每种模态中编码的信息可能是不同的。特别是,染色质、RNA 和蛋白质的变化在不同时间尺度上运作,不仅在变化的速度上,而且在其持久性上,并且在不同的生物系统中以不同的方式变化。
  2. 例如,在完全分化的细胞中,染色质对环境变化相对不变,RNA 是一个领先指标(反映细胞当前和未来的行为,如 RNA 速度所捕获的那样),蛋白质水平是一个滞后指标,而蛋白质修饰比 RNA 更快速、更短暂并且是领先指标。
  3. 相反,在发育系统中,染色质通常是领先指标,而 RNA 落后于它,因为在分化过程中染色质的变化先于 RNA 的变化。
  4. 在具有较大可塑性的分化细胞中(例如,辅助 T 细胞),染色质可以反映当前和未来状态的能力,而 RNA 主要反映当前的细胞状态。
  5. 即使在同一细胞系统中,信息内容也可能在不同过程之间有所不同。例如,细胞周期在 RNA 中比在染色质中更能反映出来。
  6. 最后,也是至关重要的是,对于旨在将各层次联系起来并推断因果关系的机制研究,多模态性是无价的,即使可以从较少的模态中推断出相似的细胞状态信息。
Para_03
  1. 空间分析实验室方法、临床成像和人工智能的进步现在使得学习作为3D多模态、多尺度生成模型的图谱成为可能。
  2. 实验上,现在可以在超细胞、细胞和亚细胞尺度上对二维切片和整体三维进行细胞和分子的分析。
  3. 当前的数据收集工作正在迅速转向以原位空间测量为主要重点。
  4. 例如,一个人类肢体发育数据集结合了单细胞和空间分析,识别出两个人类肌肉发育波,并在与短指症和多指症相关的基因之间存在解剖学分离。
  5. 非分子成像技术对于构建作为3D地图的图谱将是至关重要的。
  6. 这些技术包括来自活体患者的常规临床成像(磁共振成像和计算机断层扫描)、目前应用于离体的大体积成像,如光散射或基于拉曼的成像,以及适用于透明或固定标本的技术(如DISCO)。
  7. 最近的例子包括带有发育中的头骨和骨骼标记的整个胚胎的光片成像,以及大脑中的3D-DISCO。
  8. 这种成像及相关元数据将有助于将高分辨率测量与位置联系起来。
Para_04
  1. 从计算的角度来看,现代的AI/ML开启了学习多尺度、多模态表示的可能性,无论是否有共同的锚点。这些模型学习了捕捉多个模态及其相互关系显著特征的共同潜在空间,并且在训练后还可以从一个模态生成另一个模态。
  2. 现在有一些模型可以关联细胞、组织学和解剖学,而且在一个数据集或技术上学习到的地图甚至可以推广到其他未在训练中见过的技术的数据映射。
  3. 例如,HCA研究展示了如何在肿瘤的组织学(苏木精和伊红染色)和单细胞分析(单细胞RNA测序)数据上训练模型,然后从组织学染色生成单细胞RNA测序数据,或者如何从空间和细胞蛋白及RNA谱系的地标重建胸腺叶的自动化公共坐标框架。
Para_05
  1. 成功实现从分子到组织学和解剖学领域的整体统一将需要实验和计算方面的努力。
  2. 在实验方面,人类细胞图谱(HCA)必须收集为算法的规模和需求量身定制的数据,以便它们能够学习适当的模型。
  3. BRAIN 计划的努力尤其值得注意,因为小鼠大脑中收集的数据使这种模型成为可能,并且现在正在对更大的人脑进行类似的尝试。
  4. 在计算方面,我们需要不仅能学习共享表示并具有生成能力的算法,还需要方法来查询这些表示以寻找生物学上有意义的模式和对组织生物学的见解。
  5. 这既需要对细胞的关键空间特征(例如包含形态特征和细胞环境的类型定义)进行普查,也需要对组织特征(例如组织学、细胞群落和多细胞程序)进行普查。
  6. 重要的是,算法应学习既能推断缺失信息又能从具体的三维测量抽象到广义坐标直至捕捉个体间变异性的全身通用坐标框架的模型,并与医学成像相链接。

The atlas as a genotype-to-phenotype map

Para_01
  1. 完整的多尺度HCA必须包含基因型,并以这种方式作为基因型到表型的映射。这种映射将捕捉人类多样性的重要特征,包括那些在基因组研究中迄今未得到充分研究的特征,其中近90%的数据来自欧洲血统的个体。为了更好地涵盖人类多样性,跨越祖先、年龄、性别和其他轴线,可能需要比迄今为止分析的细胞/组织数量增加至少十倍才能获得足够的统计功效。
  2. 鉴于空间技术的迅速发展及其对先前保存(固定和/或冷冻)材料的适用性,这种扩展的数据收集最好与空间分析工作相结合。这还需要按照HCA公平工作组设定的框架,深入参与全球科学家和社区的合作,并与专注于常见复杂疾病的倡议合作。
  3. 许多生物银行(如英国生物银行、FinnGen和AllofUS)不仅涵盖人类遗传学数据,还包括外周血单核细胞转录组学、血浆蛋白质组学和代谢组学等数据,而在亚洲、非洲和拉丁美洲类似工作的增长提供了一个平台,可以生成更具代表性的祖先多样性图谱。
Para_02
  1. HCA的遗传多样性生物网络与HCA在拉丁美洲、非洲、中东和亚洲的区域网络合作,率先开展了几项努力,以收集一个基因、祖先和地理多样化的图谱,从免疫系统开始。
  2. 例如,这些网络的早期努力有助于识别自身免疫疾病中细胞类型特异性的剪接调控,并识别不同祖先女性乳腺组织中的变异,这可能有助于解释一些依赖于祖先的乳腺癌差异。
Para_03
  1. 计算分析对于识别细胞和组织特征变异的因果遗传基础至关重要。
  2. 最初,通过与相关基因座中的基因84以及全基因组关联研究(GWAS)摘要统计数据25、85、86结合,HCA数据定义的细胞类型、状态和程序与人类遗传学相结合。
  3. 随着图谱工作的推进,遗传研究直接将变异与单细胞数据中数百种疾病组织样本(例如,阿尔茨海默氏病患者的尸检脑组织87;系统性红斑狼疮患者的外周血单核细胞88或类风湿性关节炎患者89)的特定细胞类型的表达、基因程序和/或细胞比例特征联系起来。
  4. 最近的研究表明,在人体血细胞90和小鼠组织细胞中,此类分析还可以恢复细胞间相互作用的遗传基础。
  5. 因此,随着血液和组织参考图谱扩展到具有遗传成分的广泛基于人群的数据集,这些将有助于将图谱转化为对疾病中细胞和组织状态的遗传影响。
Para_04
  1. 生成基因型-表型图谱作为图集将必然需要大量的计算推断,因为与种系基因组学不同,我们永远无法期望在整个生命周期中对所有个体的所有细胞进行分析。衍生的计算图谱对于‘填补空白’至关重要,并且在迭代构建过程中指导数据收集工作以最大化知识。
  2. 通过迭代数据收集和计算分析,机器学习可以从数据中学习并建议下一步所需的采样或数据,以代表更广泛的人群。
  3. 这些图谱还可以通过在疾病、实验室模型和计算机模拟扰动中收集的扰动数据进一步补充。预测缺失生物扰动的机器学习方法正在稳步改进。
  4. 如果成功,这个最终的图谱将能够从个体的基因型预测细胞状态的范围或组织的细胞组成。

The atlas as a temporal map of development

Para_01
  1. 细胞在其整个生命周期中都是动态的,但在发育过程中尤其如此,这一过程在人类身上传统上很难研究。
  2. 绘制人类在四维空间中的发育图对于理解不同细胞类型和复杂组织结构如何在健康发育中形成至关重要,并且对生殖和再生细胞疗法非常重要。
Para_02
  1. 发育细胞图谱旨在绘制和描述从受精到出生的关键阶段所有主要器官和组织类型的细胞,已经为人类发展提供了大量见解。
  2. 例如,对产前皮肤的多模态空间分析揭示了皮肤形态发生是如何通过免疫细胞和非免疫细胞之间的相互作用来调节的;
  3. 一项关于人类胎盘的研究提供了调控妊娠的基因程序和胎盘-子宫相互作用的参考;
  4. 而大脑成熟期间健康细胞的参考可以为神经发育障碍提供启示。
  5. 这些努力得到了类器官细胞图谱的补充,该图谱揭示了无法在人体组织(来自切除、活检或尸检)中捕捉到的发育生物学见解,并有助于表征扰动和疾病状态。
Para_03
  1. 单细胞基因组学使得通过学习(伪)时间轨迹从细胞特征中计算推断生物连续性成为可能。这是发育细胞图谱的一个重要方面,但最终它还需要包括和结合命运图(将当前细胞状态与其未来潜力联系起来)、谱系图(追踪一系列细胞分裂事件)和形态发生图(用于细胞运动和形状形成),每个方面都提出了关键挑战。
  2. 许多变化是快速的,跨器官系统的变化,或者仅在非常早期且难以接近的妊娠阶段发生,并且所有这些变化都是在四维空间中进行的,因此一个适当的发育图谱必须捕捉形态发生。
  3. 其中一些挑战可以通过活体测量(包括人类类器官模型)来解决,从中可以计算生成分子特征。除了从它们的测量中学习单个时间过程的表现之外,发育图还可以概括过程内部和跨过程的关键模式(例如命运和双/多分支),就像人口普查恢复细胞类型并关联不同器官中的‘共享’类型一样。
Para_04






请到「今天看啥」查看全文