在过去的十年中,酶生物催化已成为传统化学转化的有希望的替代方法,用于可持续生产有价值的化学品,如生物燃料和药物。为了满足大规模工业生产的要求,新的生物技术被开发出来以发现新的酶或优化现有的酶生物催化剂,以提高它们的催化活性、底物特异性、选择性、稳定性等。尽管基于结构的酶设计策略在合理设计、半合理设计和从头设计中有许多成功案例,但通过导航庞大的蛋白质适应度景观来设计特定反应的新生物催化剂仍然是一个挑战。近年来,机器学习作为一种有效的策略出现,通过利用可用数据,加速了酶生物催化剂的发现,并能够准确预测突变位点,以实现具有理想属性的生物催化剂。
2024年7月11日,来自贝尔法斯特女王大学的化学化工学院黄美兰副教授团队在Chemical Society Reviews上发表综述Navigating the landscape of enzyme design: from molecular simulations to machine learning。
本文综述了酶设计的发展历程,从分子模拟到机器学习的应用。
随着全球环境问题和可持续发展的需求,生物催化作为一种替代传统有机合成的技术受到了广泛关注。
文章回顾了基于结构的酶设计方法和机器学习指导的酶设计的应用,并讨论了将传统分子模拟与机器学习整合以有效利用酶设计方法的挑战和前景,以及数据库建设和算法发展在实现预测性机器学习模型中的重要性。
图1:蛋白质数据库和UniprotKB/TrEMBL数据库数据增长速率。图1a展示了蛋白质数据银行(PDB)和UniProt数据库中蛋白质序列和结构数据的增长情况。可以看出,蛋白质序列的数量远远超过已知结构的数量,这表明结构表征的能力远远落后于序列获取的能力。图1b:展示了蛋白质建模方法,包括基于模板的建模(同源建模和蛋白质 threading)和无模板建模(ab initio建模)。图1c:使用不同的蛋白质建模方法为新的倍半萜合酶JeSTS4建模的结构。包括使用已知结构作为模板的同源模型,以及使用I-TASSER和AlphaFold2构建的ab initio模型。图1d:为Ga98变体使用ColabFold预测的结构,这些变体具有进展的单突变。
图2:酶设计方法。图2a:展示了酶适应度景观图,描述了不同酶变体与它们的适应度(如催化效率、热稳定性、底物特异性等)之间的关系。图2b:展示了定向进化如何通过多轮随机突变、筛选和选择来模拟自然进化过程,以提高蛋白质的功能。图2c:在半合理设计方法中,基于酶结构识别的关键位点通过饱和突变以提高酶功能。图2d:在合理设计方法中,基于动态结构和酶的催化机制识别的位点进行突变以提高蛋白质功能。图2e:de novo设计方法用于从头构建蛋白质骨架,以生成具有新功能的蛋白质结构。
图3:酶设计中的热点区域识别。图3a:展示了通过工程化改造隧道(绿色显示)来提高卤化酶的催化效率。这个结构是基于依赖黄素的卤化酶的晶体结构(PDB ID: 7CU2115)。图3b:展示了通过I-Tasser和AlphaFold2对野生型JeSTS4进行结构建模的结果。图3c:通过结合共进化分析和MD模拟获得的结构信息,识别了JeSTS4的两个热点区域,并通过对这些区域的突变实现了转化率的显著提升。
图4:多域酶的界面残基工程化。展示了通过工程化改造β-氨基酸脱氢酶的界面残基E310,创造了额外的空间,从而扩大了底物谱。
图5:改变酶的立体选择性和区域选择性。图5a:展示了通过单点突变F434或L437来逆转野生型环己酮单加氧酶(WT-CHMO)的天然对映体选择性。图5b:展示了通过替换F279为小残基(如缬氨酸)来逆转CHMO对多种底物的对映体选择性。图5c:展示了通过删除PAMO中存在的而CHMO中不存在的隆起区域(S441-S444),将PAMO转变为PCHMO,从而扩大了底物谱。图5d:展示了通过在两个相邻的半胱氨酸残基之间创建额外的二硫键来提高CHMO的热稳定性。
图6:表面电荷对活性的影响。图6a:展示了两个同源酶CrmE10和AlinE4的蛋白质表面静电势。图6b:展示了CrmE10和AlinE4的叠加图,表面的关键极性残基以棒状模式显示。图6c:展示了CrmE10和AlinE4的pH活性曲线
文章总结了计算机辅助酶设计的技术应用,并提供了通过分子模拟、机器学习和实验验证相结合的有效酶设计的视角。随着机器学习的发展,尤其是在AlphaFold2的基础上,预测蛋白质3D结构的能力得到了极大的提升,这为基于结构的酶设计提供了更多的可能。同时,文章也强调了为了实现预测性机器学习模型,数据库建设和算法发展的重要性。未来的酶设计将更多地依赖于这些技术的综合应用,以探索序列适应度景观并设计出具有理想催化特性的酶。
https://doi.org/10.1039/d4cs00196f