专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
新闻广角  ·  小米SU7 ... ·  14 小时前  
哈佛商业评论  ·  从管人到管机器人,务必关注这三类问题 ·  2 天前  
51好读  ›  专栏  ›  智药邦

Science|用人工智能学习生命语言

智药邦  · 公众号  ·  · 2025-02-14 08:00

正文

2025年1月30日,Science发表文章Learning the language of life with AI。文章主要讲述了人工智能通过构建生命大语言模型(LLLM)破解了从蛋白质折叠到基因调控、细胞运作的多维度生命密码,正在将生物学从观察科学转化为可设计、可编程的工程科学,开启生物医学研究、药物开发和生命本质认知的革命性时代。

2021年,在生成式人工智能掀起ChatGPT风暴的一年前,AlphaFold 2破解了困扰科学界50年的蛋白质折叠难题,成功从氨基酸序列预测出超2亿种蛋白质的三维结构。 这一成就预示了生命科学领域大语言模型(LLM)即将迎来的空前爆发 。而这仅仅是个开始。近几个月,我们已进入基础模型研发的超高速阶段——这些经过海量数据预训练的模型,能够执行多种任务,帮助我们理解蛋白质、RNA、DNA、配体等生物分子的结构、生物学特性、演化规律及设计原理,以及它们的相互作用机制。
与处理文本、音频、图像的多模态LLM(如GPT-4、Gemini、Claude)不同,这类生命大语言模型(LLLM)具备"多组学"特性。这意味着它们不仅多模态,更能解析分子生物学的不同层面。例如,基于270万种噬菌体与原核生物基因组(约合3000亿个DNA核苷酸)训练的Evo模型,能预测DNA、RNA或蛋白质变异对结构与功能的影响,判断基因对细胞功能的关键程度,并生成全新DNA序列。
近期报道的模型进展之迅猛令人目眩。AlphaFold 3可预测由蛋白质、DNA、RNA、小分子及配体组成的复合物三维结构,其对80%蛋白质-配体复合物的预测精度与实验误差仅差2埃(1埃=0.1纳米=百亿分之一米)。 Boltz-1的预测精度与AlphaFold 3相当,且完全开源。MassiveFold通过并行计算显著缩短了AlphaFold的运行时间。EVOLVEpro专攻AI引导的蛋白质工程,PocketGen可解析蛋白质-配体相互作用的原子结构。 其他如PIONEER能深化对蛋白质在健康与疾病中相互作用的理解,AbMAP可高效设计抗体(包括对新冠病毒结合亲和力提升20倍以上的抗体)。
在蛋白质之外,RhoFold能根据核酸序列预测RNA三维结构,其姊妹模型RhoDesign专攻RNA适配体设计(即高亲和力结合靶蛋白的短链RNA)。GET模型通过转录特异性预测,精准判断不同人类细胞类型中的基因转录情况。新型DNA语言模型可评估人类基因组编码区与非编码区变异的功能影响,涵盖约90亿种潜在单核苷酸变异。甲基化模型MethylGPT与CpGPT(预印本阶段)专注于表观遗传分析(如生物年龄预测)。SyntheMol从300亿化合物库中设计出针对鲍曼不动杆菌的新型抗生素。
单细胞层面,SCimilarity通过机器学习相似性分类识别细胞类型——人类细胞类型已从传统认知的200种跃升至超5000种。该模型源自"人类细胞图谱"计划(汇集100国3000名科学家,已绘制6200万细胞,目标10亿),标志着细胞研究的范式转变。

单一模型突飞猛进之际,AI多智能体协同科研时代已然开启。斯坦福大学James Zou团队开发的"虚拟实验室"系统堪称典范:五位AI专家(首席研究员、免疫学家、机器学习专家、计算生物学家、科学评论员)通过定期"组会"与人类有限监督,结合AlphaFold-Multimer、Rosetta、ESM三大模型,成功设计出两种高效抗新冠病毒纳米抗体(经实验验证)。
LLLM的蓬勃势头催生了构建"AI虚拟细胞(AIVC)"的 愿景 —— 通过多模型协同模拟分子、细胞与组织的动态行为 。得益于人类基因组计划、人类细胞图谱、癌症基因组图谱、ENCODE(DNA元素百科全书)、人类蛋白质图谱等全球项目积累的海量数据,机器学习训练资源充沛。尽管AIVC建成时间未定,但其革命性潜力已获40余位顶尖科学家背书:"AIVC有望彻底改变科研范式,推动生物医学研究、个性化医疗、药物发现、细胞工程与可编程生物学取得突破。"
生命科学基础模型的多维度突破,正深化人类对生物分子结构、功能、演化、互作及细胞运行机制的理解。
英伟达CEO黄仁勋断言:"人类历史上首次,生物学有机会成为工程而不仅是科学。"
DeepMind的Demis Hassabis进一步阐释:"我称之为工程科学,因为与自然科学不同,你需要先构建目标产物,再用科学方法解析其组件。"
但正如Philip Ball在《生命如何运作:新生物学用户指南》中所警示: 生命语言的复杂性远超人类想象 。"将生命比作机器、机器人、计算机是低估了它。生命是过程的级联,每个过程都具有独特完整性与自主性,其逻辑在非生命世界中无迹可寻。"或许Ball所言不虚,但AI已开始解码生命语言的重重迷雾——而更精彩的篇章,正在路上。
参考资料:
https://www.science.org/doi/10.1126/science.adv4414

--------- End ---------

感兴趣的读者,可以添加小邦微信加入 读者实名讨论微信群







请到「今天看啥」查看全文