撰文 | 染色体
细胞是生命的基本单位,其复杂性对物理和计算模型提出了极大挑战。作为一种动态的适应性系统,细胞的行为由分子间的复杂相互作用驱动。科学家通过虚拟细胞模型来模拟和预测细胞功能,目前已有的模型多基于规则和数学方法,如微分方程【1】或随机模拟【2】,并已成功构建了一些全细胞模型【3】。然而,现有技术在应对复杂生物系统时仍面临诸多难题,包括多尺度建模的复杂性、过程和相互作用的多样性,以及非线性动力学的影响,这些问题限制了虚拟细胞对更复杂系统(如人类细胞)的全面模拟能力。
近日,来自美国陈和扎克伯格基金会的Stephen R. Quake,Emma Lundberg,Theofanis Karaletsos与斯坦福大学计算机科学系的Jure Leskovec,以及Genentech的Aviv Regev共同在Cell期刊发表题为How to build the virtual cell with artificial intelligence: Priorities and opportunities(如何利用人工智能构建虚拟细胞:前沿挑战与未来机遇)的观点文章。作者提出结合人工智能和组学技术构建的人工智能虚拟细胞(AI virtual cell,AIVC),提供了模拟细胞功能和行为的新途径。AIVC通过构建多尺度、多模态模型,有助于加速科研发现、指导实验研究,并促进跨学科合作,推动生物学研究的变革。
人工智能(AI)与基因组学的突破为构建AIVC提供了可能。AIVC基于神经网络,能多尺度模拟细胞和组织行为。随着实验数据和AI技术的快速发展【4】,AIVC将推动生物学研究,帮助解析突变、发育及病毒感染的影响,并优化假设验证,加速细胞功能的探索。
AIVC的概念与核心目标
AIVC是一个用于模拟细胞及其系统在多种条件和环境变化下表现的学习工具。它的研究范围涵盖分化状态、扰动、疾病状态、随机波动及外界环境条件等多个方面。在这一框架下,AIVC旨在整合广泛的细胞生物学知识,跨越不同时间尺度和数据模式,帮助揭示细胞系统的“编程语言”,为工程和研究提供接口。通过AIVC,研究者能够构建统一的生物状态表示,预测细胞功能、行为和动力学,探索潜在机制,并在虚拟环境中生成和验证科学假设。AIVC的关键在于设计通用表示(universal representation,UR),整合跨物种、模式、数据集和环境的生物状态,涵盖分子、细胞和多细胞三个层次。这种UR不仅具备描述现有状态的能力,还能预测未被直接观察到的新状态。例如,通过模拟巨噬细胞的炎症状态,AIVC可以推测小胶质细胞的相似状态,并指导设计产生这些状态的干预措施。这一功能在细胞工程和合成生物学领域具有特别重要的意义。
AIVC的功能与技术实现
AIVC的核心功能之一是模拟细胞动态,包括响应内外因子的变化以及在多细胞环境中的行为。通过训练基于时间分辨和干预数据的模型,AIVC不仅能预测细胞在未曾实验条件下的变化,还能描绘多细胞动态过程,例如组织发育、稳态维持和疾病进展。它还可以建模干预措施的效果,提出表型变化的因果机制假设,为机制研究提供新方法。AIVC另一显著特点是其虚拟实验能力。研究者可以利用它模拟传统实验无法实现的情景,例如研究难以培养的细胞类型、低成本预测高成本数据或筛选复杂扰动的影响。通过赋予预测置信度,AIVC还能优化实验设计,特别是在低置信度区域收集补充数据。通过迭代的实验-计算循环,这种能力不断增强。AIVC的构建依赖于一套多尺度基础模型和虚拟仪器(VI),后者负责对UR进行操作或解码。多模态AIVC基础模型将高维、多尺度的生物数据嵌入到一个统一的表示空间中,使其可以在分子、细胞和多细胞水平上进行整合。每个层次的UR通过自下而上的方式设计,从分子水平的语言模型到细胞和组织的空间表示,从而确保不同尺度上的一致性和互操作性。虚拟仪器可以操纵UR以生成新的细胞状态,或通过解码提供可视化数据和生物学洞察。在分子尺度上,AIVC优先考虑DNA、RNA和蛋白质的建模,这些分子数据可以通过大规模测序获得,并通过语言模型学习其序列特性。在细胞尺度上,AIVC整合转录组学、成像和蛋白质组学数据,以统一表示单个细胞的分子和功能状态。这种多模态整合对于解析亚细胞组织和信号网络至关重要。在多细胞尺度上,AIVC模拟细胞间相互作用以及它们如何组织成复杂的组织结构。空间分子分析和图神经网络等技术为这一层的建模提供了工具。通过整合不同层次和模式的数据,AIVC不仅能够预测生物学动态,还能在多个物理尺度上揭示潜在的机制假设。这种能力使得AIVC成为解码生命系统复杂性和推动生物学研究的重要工具。
综上所述,作者探讨了AIVC的发展愿景,提出数据生成、模型优化与安全性等关键问题。他们强调,通过跨学科的深度合作,AIVC有望革新科学研究,深化对细胞机制的理解,推动药物发现的进展,并实现个性化医学的突破。
https://doi.org/10.1016/j.cell.2024.11.015
制版人:十一
[1] Karr, J.R., Sanghvi, J.C., Macklin, D.N., Gutschow, M.V., Jacobs, J.M., Bolival, B., Assad-Garcia, N., Glass, J.I., and Covert, M.W. (2012). A whole-cell computational model predicts phenotype from genotype. Cell 150, 389-401.
[2] Eling, N., Morgan, M.D., and Marioni, J.C. (2019). Challenges in measuring and understanding biological noise. Nat. Rev. Genet. 20, 536-548.
[3] Slepchenko, B.M., Schaff, J.C., Macara, I., and Loew, L.M. (2003). Quantitative cell biology with the Virtual Cell. Trends Cell Biol. 13, 570-576.
[4] Srivatsan, S.R., McFaline-Figueroa, J.L., Ramani, V., Saunders, L., Cao, J., Packer, J., Pliner, H.A., Jackson, D.L., Daza, R.M., Christiansen, L., et al. (2020). Massively multiplex chemical transcriptomics at single-cell resolution. Science 367, 45-51.
BioART战略合作伙伴
(*排名不分先后)
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。