传统蛋白质工程的挑战
传统的蛋白质工程方法,尤其是定向进化,依赖于随机突变和高通量筛选,以筛选具有所需特性的蛋白质突变体。这种方法虽然有效,但存在几个明显的缺点,
比如耗时且劳动密集,每一轮进化都需要大量的实验操作,时间成本高。另外,传统定向进化面临局部最优陷阱,由于通常一次只引入一个突变,进化过程容易陷入局部最优,限制了进一步的改进。
为了克服这些挑战,研究人员开始探索机器学习(
ML
)在蛋白质工程中的应用。机器学习辅助的定向进化(
MLDE
)通过预测携带多个突变的蛋白质变体的适应性,帮助绕过局部最优,实现更大的序列空间跳跃。然而,
ML
的应用仍然面临数据获取和建模的挑战,尤其是对于多底物酶的功能数据收集与进化。
PLMeAE
:蛋白质语言模型驱动的自动化进化平台
蛋白质语言模型(
PLMs
)是一种基于大规模蛋白质序列数据训练的模型,能够捕捉蛋白质结构和功能的基本规律。
PLMs
已经在多个领域展示了强大的能力,包括功能蛋白质建模与改造、新型蛋白质设计等。特别是,
PLMs
可以实现
“
零样本
”
优化特定蛋白质,即在不依赖实验数据的情况下,预测高适应性的突变。然而,一个关键问题是:
PLMs
从自然进化中学习到的信息,是否有助于在特定选择压力下高效进化特定蛋白质?
这正是本研究试图回答的问题。
在这项研究中,本团队提出了一种
蛋白质语言模型驱动的自动进化平台
(
P
rotein Language Model-enabled Automatic protein
Evolution, PLMeAE
),这是一个在设计
-
构建
-
测试
-
学习(
DBTL
)循环中用于自动化蛋白质工程的闭环系统。该平台利用蛋白质语言模型(
PLM
)来助力学习和设计阶段,而构建和测试阶段则由自动化的生命铸造工厂
iBioFoundry
执行。首先
蛋白质语言模型
ESM-2
通过零样本预测
96
个变体,启动该循环;然后
iBioFoundry
对这些突变体进行构建和测试,并将结果反馈给多层感知器
MLP
,用于训练适应性预测器,进而预测第二轮
96
个具有更高适应性的突变体,用于进一步测试
。
具体来说,
PLMeAE
平台通过以下步骤实现蛋白质自动进化
1
)设计阶段
:
PLMs
通过零样本学习预测高适应性的蛋白质突变体。在设计阶段,研究团队设计了两个模块,对于没有已知突变位点的蛋白质,
PLMs
扫描整个蛋白质,预测单点突变;对于已知突变位点的蛋白质,
PLMs
预测多点组合突变。
图
2
基于蛋白质语言模型
PLM
进行蛋白质零样本设计的两个模块
2
)构建和测试阶段
:自动化设施
iBioFoundry
自动构建和测试这些突变体,并将结果反馈给多层感知器(
MLP
)以训练适应性预测器。
iBioFoundry
在合成生物学研究中有着广泛的应用价值,能够提升实验通量、降低实验成本、快速积累优质数据以提高研究效率。研究团队利用
iBioFoundry
平台执行目标酶突变体的构建和测试流程,包括高通量、自动化的进行
PCR
扩增,质粒转化,细胞培养,菌落挑选、酶活性测试等。为了提高平台的可靠性,系统在
PCR
、细胞转化、细胞培养、酶活检测等多个环节设置质量控制,并自动处理异常情况。系统支持
96
个突变体的同时构建及测试,整个流程从引物合成到酶活性数据检测仅需
59
小时,实现了高效的酶构建与测试。
图
3
iBioFoundry
执行构建及测试环节流程图
3
)学习阶段
:多层感知机
MLP
模型预测下一轮的高适应性变体,继续进行下一轮进化。通过这种迭代过程,
PLMeAE
平台能够在短时间内高效探索蛋白质的适应性景观,获得性能提高的蛋白质突变体。为了使得
MLP
更好的学习到蛋白质序列和功能之间的关系,研究者开发了一种先进的采样策略
Information
Transport Complexity
(
ITC
)。基于
ITC
打分,模型在选择测试的突变体时既考虑突变体预测的活性数值,也考虑所有采样突变体之间的多样性。
实验结果:
pCNF-RS
的自动化定向进化
为了验证
PLMeAE
平台的有效性,研究团队选择了古菌詹氏甲烷球菌的
p-
氰基苯丙氨酸
tRNA
合成酶(
pCNF-RS
)作为模型酶。
pCNF-RS
是基因密码子扩展技术中的常用工具,广泛用于将非天然氨基酸(
ncAAs
)引入到蛋白质中,但其对某些
ncAAs
的掺入效率较低。通过
PLMeAE
平台,研究团队在四轮进化中共设计了
384
(
96*4
)个突变体,并在
10
天完成了四轮突变体的测试。结果显示,第四轮进化中获得的变体
M-R4
的酶活性比野生型提高了
2.4
倍,且表达含有非天然氨基酸
p
AcF
蛋白质产量提高了
12.2
倍。这一成果显著优于传统的随机选择和定向进化策略。
图
5
PLMeAE
平台用于氨酰
tRNA
合成酶的快速进化
PLMeAE
的优势与未来应用
PLMeAE
平台的成功不仅体现在其高效性上,还体现在其
通用性
和
可扩展性
上。与传统的蛋白质工程策略相比,
PLMeAE
利用
PLMs
进行零样本预测,并结合监督学习模型探索蛋白质的适应性景观。这种方法不仅适用于已知突变位点的蛋白质,还能通过
PLMs
发现新的突变位点,进一步优化蛋白质功能。未来,
PLMeAE
平台有望扩展到更多类型的酶工程中,甚至是那些需要通过高效液相色谱(
HPLC
)、气相色谱(
GC
)和质谱(
MS
)检测活性的酶。随着自动化技术的进一步发展,
PLMeAE
将为蛋白质工程带来更多突破,推动蛋白质工业应用的快速发展。
结语
蛋白质工程正迎来一个全新的时代,
人工智能与自动化技术的结合
正在改变这一领域的“游戏规则”。浙江大学团队的这项研究不仅展示了
PLMeAE
平台在蛋白质进化中的强大能力,也为未来的蛋白质工程提供了新的思路。随着技术的不断进步,我们有理由相信,未来的蛋白质工程将更加高效、精准,将为医药、化工、能源等领域带来更多创新解决方案。
浙江大学国际联合学院研究员
张强
、浙江大学化学工程与生物工程学院博士生
陈婉姨
、浙江大学软件学院博士生
秦铭
为论文共同第一作者,浙江大学化学工程与生物工程学院
于浩然
研究员,计算机科学与技术学院
陈华钧
教授为共同通讯作者。该研究得到了浙江省“尖兵”“领雁”研发攻关项目、科技部重点研发计划合成生物学重点专项、国家自然科学基金等的支持。研究同时得到了浙江大学杭州国际科创中心生物与分子智造研究院大仪平台和
iBioFoundry
自动化设施平台的大力支持。