专栏名称: 生信宝典

生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程；高通量测序数据分析学习教程；生信软件安装教程。所有内容均为原创分享，致力于从基础学习到提高整个过程。

浙大于浩然合作Nat Commun｜基于蛋白质语言模型与自动化设施构建蛋白质体外连续进化平台

生信宝典 · 公众号 · 生物 · 2025-02-25 21:00

正文

遇见/摘要

蛋白质是生命的基础，广泛应用于医药、化工、能源、农业和消费品等领域。然而，为了满足工业需求，蛋白质往往需要经过工程改造，以增强其稳定性、活性、选择性和结合能力。传统的蛋白质工程方法，如定向进化，虽然有效，但通常耗时且劳动密集。近年来，人工智能和自动化设施的发展为优化这些过程提供了新的机遇。近日，浙江大学 于浩然 研究员、 陈华钧 教授、张强研究员团队合作在 Nature Communications 发表了题为“ Integrating Protein Language Models and Automatic Biofoundry for Enhanced Protein Evolution ”文章。文章报道了一个基于蛋白质语言模型（ Protein Language Models, PLMs ）与自动化生命铸造厂（ iBioFoundry ）联合应用所建立的蛋白质体外连续进化平台。通过该平台，研究团队在短短 10 天内完成了目标酶的四轮进化，成功将酶的活性提升了 2.4 倍。这一成果不仅为蛋白质工程带来了新的突破，也为未来的工业应用铺平了道路。

遇见/内容

传统蛋白质工程的挑战

传统的蛋白质工程方法，尤其是定向进化，依赖于随机突变和高通量筛选，以筛选具有所需特性的蛋白质突变体。这种方法虽然有效，但存在几个明显的缺点，比如耗时且劳动密集，每一轮进化都需要大量的实验操作，时间成本高。另外，传统定向进化面临局部最优陷阱，由于通常一次只引入一个突变，进化过程容易陷入局部最优，限制了进一步的改进。为了克服这些挑战，研究人员开始探索机器学习（ ML ）在蛋白质工程中的应用。机器学习辅助的定向进化（ MLDE ）通过预测携带多个突变的蛋白质变体的适应性，帮助绕过局部最优，实现更大的序列空间跳跃。然而， ML 的应用仍然面临数据获取和建模的挑战，尤其是对于多底物酶的功能数据收集与进化。

PLMeAE ：蛋白质语言模型驱动的自动化进化平台

蛋白质语言模型（ PLMs ）是一种基于大规模蛋白质序列数据训练的模型，能够捕捉蛋白质结构和功能的基本规律。 PLMs 已经在多个领域展示了强大的能力，包括功能蛋白质建模与改造、新型蛋白质设计等。特别是， PLMs 可以实现 “ 零样本 ” 优化特定蛋白质，即在不依赖实验数据的情况下，预测高适应性的突变。然而，一个关键问题是： PLMs 从自然进化中学习到的信息，是否有助于在特定选择压力下高效进化特定蛋白质？这正是本研究试图回答的问题。

在这项研究中，本团队提出了一种 蛋白质语言模型驱动的自动进化平台 （ P rotein Language Model-enabled Automatic protein Evolution, PLMeAE ），这是一个在设计 - 构建 - 测试 - 学习（ DBTL ）循环中用于自动化蛋白质工程的闭环系统。该平台利用蛋白质语言模型（ PLM ）来助力学习和设计阶段，而构建和测试阶段则由自动化的生命铸造工厂 iBioFoundry 执行。首先蛋白质语言模型 ESM-2 通过零样本预测 96 个变体，启动该循环；然后 iBioFoundry 对这些突变体进行构建和测试，并将结果反馈给多层感知器 MLP ，用于训练适应性预测器，进而预测第二轮 96 个具有更高适应性的突变体，用于进一步测试。

图 1 PLMeAE 的流程示意图

具体来说， PLMeAE 平台通过以下步骤实现蛋白质自动进化

1 ）设计阶段 ： PLMs 通过零样本学习预测高适应性的蛋白质突变体。在设计阶段，研究团队设计了两个模块，对于没有已知突变位点的蛋白质， PLMs 扫描整个蛋白质，预测单点突变；对于已知突变位点的蛋白质， PLMs 预测多点组合突变。

图 2 基于蛋白质语言模型 PLM 进行蛋白质零样本设计的两个模块

2 ）构建和测试阶段 ：自动化设施 iBioFoundry 自动构建和测试这些突变体，并将结果反馈给多层感知器（ MLP ）以训练适应性预测器。 iBioFoundry 在合成生物学研究中有着广泛的应用价值，能够提升实验通量、降低实验成本、快速积累优质数据以提高研究效率。研究团队利用 iBioFoundry 平台执行目标酶突变体的构建和测试流程，包括高通量、自动化的进行 PCR 扩增，质粒转化，细胞培养，菌落挑选、酶活性测试等。为了提高平台的可靠性，系统在 PCR 、细胞转化、细胞培养、酶活检测等多个环节设置质量控制，并自动处理异常情况。系统支持 96 个突变体的同时构建及测试，整个流程从引物合成到酶活性数据检测仅需 59 小时，实现了高效的酶构建与测试。

图 3 iBioFoundry 执行构建及测试环节流程图

3 ）学习阶段 ：多层感知机 MLP 模型预测下一轮的高适应性变体，继续进行下一轮进化。通过这种迭代过程， PLMeAE 平台能够在短时间内高效探索蛋白质的适应性景观，获得性能提高的蛋白质突变体。为了使得 MLP 更好的学习到蛋白质序列和功能之间的关系，研究者开发了一种先进的采样策略 Information Transport Complexity （ ITC ）。基于 ITC 打分，模型在选择测试的突变体时既考虑突变体预测的活性数值，也考虑所有采样突变体之间的多样性。

图 4 基于 ITC 的蛋白质突变体采样策略

实验结果： pCNF-RS 的自动化定向进化

为了验证 PLMeAE 平台的有效性，研究团队选择了古菌詹氏甲烷球菌的 p- 氰基苯丙氨酸 tRNA 合成酶（ pCNF-RS ）作为模型酶。 pCNF-RS 是基因密码子扩展技术中的常用工具，广泛用于将非天然氨基酸（ ncAAs ）引入到蛋白质中，但其对某些 ncAAs 的掺入效率较低。通过 PLMeAE 平台，研究团队在四轮进化中共设计了 384 （ 96*4 ）个突变体，并在 10 天完成了四轮突变体的测试。结果显示，第四轮进化中获得的变体 M-R4 的酶活性比野生型提高了 2.4 倍，且表达含有非天然氨基酸 p AcF 蛋白质产量提高了 12.2 倍。这一成果显著优于传统的随机选择和定向进化策略。

图 5 PLMeAE 平台用于氨酰 tRNA 合成酶的快速进化

PLMeAE 的优势与未来应用

PLMeAE 平台的成功不仅体现在其高效性上，还体现在其 通用性 和 可扩展性 上。与传统的蛋白质工程策略相比， PLMeAE 利用 PLMs 进行零样本预测，并结合监督学习模型探索蛋白质的适应性景观。这种方法不仅适用于已知突变位点的蛋白质，还能通过 PLMs 发现新的突变位点，进一步优化蛋白质功能。未来， PLMeAE 平台有望扩展到更多类型的酶工程中，甚至是那些需要通过高效液相色谱（ HPLC ）、气相色谱（ GC ）和质谱（ MS ）检测活性的酶。随着自动化技术的进一步发展， PLMeAE 将为蛋白质工程带来更多突破，推动蛋白质工业应用的快速发展。

结语

蛋白质工程正迎来一个全新的时代， 人工智能与自动化技术的结合 正在改变这一领域的“游戏规则”。浙江大学团队的这项研究不仅展示了 PLMeAE 平台在蛋白质进化中的强大能力，也为未来的蛋白质工程提供了新的思路。随着技术的不断进步，我们有理由相信，未来的蛋白质工程将更加高效、精准，将为医药、化工、能源等领域带来更多创新解决方案。

浙江大学国际联合学院研究员张强、浙江大学化学工程与生物工程学院博士生 陈婉姨 、浙江大学软件学院博士生秦铭为论文共同第一作者，浙江大学化学工程与生物工程学院 于浩然 研究员，计算机科学与技术学院 陈华钧 教授为共同通讯作者。该研究得到了浙江省“尖兵”“领雁”研发攻关项目、科技部重点研发计划合成生物学重点专项、国家自然科学基金等的支持。研究同时得到了浙江大学杭州国际科创中心生物与分子智造研究院大仪平台和 iBioFoundry 自动化设施平台的大力支持。