专栏名称: 代谢组metabolome
分享代谢组学最新文献、新闻、干货知识、视频课程和学术直播讲座
目录
相关文章推荐
51好读  ›  专栏  ›  代谢组metabolome

Science | 诺奖得主David Baker团队:AI从头设计酶,效率飙升且结构精准!

代谢组metabolome  · 公众号  ·  · 2025-03-05 07:50

正文

请到「今天看啥」查看全文


图片 点击蓝字“ AI4ST ”,轻松关注不迷路

生科云网址: https://www.bioincloud.tech/


编译:微科盟时绥,编辑:微科盟Tracy、江舜尧。

微科盟原创微文,欢迎转发转载。

导读

设计能够催化多步反应且具有复杂活性位点的酶,依然是计算酶设计领域的一个重大挑战。本研究以丝氨酸水解酶为模型体系, 结合RFdiffusion的生成能力与一种用于评估活性位点预组织的集成生成方法,从最小化的活性位点描述出发进行酶的设计。实验表征显示催化效率(k cat /K m )高达2.2×10 5 M −1 s −1 ,获得的晶体结构与设计模型高度吻合(Cα RMSDs < 1 Å)。通过选择在反应坐标轴上具有结构兼容性的设计,能以低通量筛选鉴定五种不同于天然丝氨酸水解酶折叠类型的新型催化剂。这种从头设计方法不仅揭示了催化的几何基础,更为设计催化多步转化反应的酶提供了路线图。


论文ID


原名: Computational design of serine hydrolases

译名: 丝氨酸水解酶的计算设计

期刊: Science

IF: 44.7

发表时间: 2025.02

通讯作者: David Baker & Samuel J. Pellock

通讯作者单位: 华盛顿大学

DOI: 10.1126/science.adu2454


实验设计



实验结果


1. 实验设计


酶是强大的催化剂,能够在温和的水性条件下显著加速化学反应速率。构建能够催化任意化学反应的酶将在众多应用领域中具有巨大的价值,因此,酶设计一直是计算蛋白质设计的长期目标。从头酶设计通常从反应过渡态周围的催化残基排列(即理论酶)开始,并试图在现有的蛋白质框架中寻找这种活性位点的合适位置。使用固定的蛋白质主链限制了催化几何结构的实现精度,并且可能限制设计酶的活性。酶设计的另一个挑战是活性位点的预组织,即催化功能基团相对于过渡态的精确定位。对于多步反应机制,实现预组织尤其困难,因为酶必须优先稳定多个过渡态和中间体,而当前用于评估设计预组织的计算方法受到低精度或计算成本的限制。为了实现多步酶的精确设计,需要开发新的方法,用于生成包含特定活性位点的蛋白质,并评估它们与反应中每一步的结构兼容性。

酯水解反应数十年来一直被用作计算酶设计的模型反应,这是因为酯水解可以利用多种机制,从而为针对这一反应的设计提供了多种独特的方法;其活性可以通过使用报告基因底物的吸光度和荧光轻松监测;此外,酯酶在工业过程中具有极高的价值。丝氨酸水解酶所采用的双置换反应机制是酶酯水解的经典例子,其中丝氨酸亲核试剂发生酰化反应,形成酰基酶中间体(AEI),随后被活化的水分子水解。尽管人们对天然丝氨酸水解酶的机制进行了广泛的结构、突变和计算表征,但尝试利用这一机制的从头设计均未成功。据我们所知,此前没有任何成功构建出超出天然折叠空间的丝氨酸水解酶的研究。

设计丝氨酸水解酶的一个主要挑战是克服AEI的稳定性,当使用活化酯时,AEI的分解通常是速率限制步骤。许多先前设计的酶和基于肽段的系统在酰化后失活或显著减缓。除了这一化学挑战外,构建丝氨酸水解酶的活性位点还结合了当前蛋白质设计中的一些最困难的挑战:1)催化位点非常复杂,需要以原子精度构建至少四个独立残基的支架,这是一项最先进的设计工具也难以实现的任务;2)丝氨酸亲核试剂需要通过构建复杂的氢键网络来激活;3)在整个多步催化循环中,活性位点必须经历细微的构象变化。尽管在多状态设计方面最近取得了进展,但当所需状态之间的能量差异较小时,这一任务仍然具有挑战性。

此前设计酯酶的工作通过采用更简单、更易于设计的活性位点,利用比丝氨酸更具活性的亲核试剂,以及靶向不需要形成稳定共价中间体的反应机制,从而绕开了丝氨酸水解酶所带来的挑战。例如,先前设计的金属水解酶通过激活水分子在单一步骤中切割酯来跳过AEI;非典型氨基酸N δ -甲基组氨酸被用来使AEI更不稳定;由于半胱氨酸具有更强的亲核性,也被用来替代丝氨酸。对此产生的半胱氨酸酯酶的结构分析表明,半胱氨酸亲核试剂与所需二元体或三元体中的组氨酸碱基之间的关键相互作用并未形成,这表明所使用的残基的固有化学反应性,可能是导致观察到的稳态速率增强的原因。即使有了这些化学干预,初始计算设计的效率仍然远低于天然酶的范围。

目前尚无设计丝氨酸水解酶的报道,一种假设是复杂的水解酶活性位点与之前使用的固定蛋白质支架库之间可能存在几何不兼容性。我们研究了增加支架多样性是否有助于更准确地识别并重建所需活性位点的骨架,并开展了一项初步设计活动,寻找基于核运输因子2(NTF2)折叠的大型支架库中丝氨酸水解酶活性位点的放置位置(补充图S1)。正如之前的研究一样,设计的丝氨酸被活化,但在酯类底物上没有催化转化,尽管实验结构与设计结构非常接近(补充图S2)。我们怀疑无法将所有丝氨酸水解酶共有的关键催化特征(如主链氧负离子孔接触)整合到NTF2中,从而限制了这些设计的功能。

我们认为,蛋白质设计中深度学习的进步可以使从头开始设计蛋白质成为可能,直接构建丝氨酸水解酶活性位点,并评估整个多步催化循环的设计兼容性。最近,在一系列设计任务中,RFdiffusion支架功能位点的设计成功率在计算机和实验中已经被提高,我们的目标是采用相同的方法,从活性位点的几何描述开始生成丝氨酸水解酶(图1A)。为了评估催化循环每一步中的预组织和功能相互作用,我们试图利用基于深度学习的蛋白质-小分子复合物预测进展,通过建模催化中间体的结构集合来实现(图1B)。

图1 设计方法。(A) 基于RFdiffusion的活性位点特异性主链生成。给定一个可能的活性位点构型的几何结构,RFdiffusion通过去噪轨迹生成主链坐标,从而为该活性位点构建支架。(B) 利用PLACER生成活性位点集合。在反应的每一步中,活性位点周围的侧链坐标以及任何结合的小分子的坐标被随机化,并通过n次采样生成一系列预测结构。这些预测结构构成了活性位点的集合。(C) 丝氨酸水解酶催化酯水解的机制。(D) PLACER集合用于反应坐标上的不同状态。图中展示了天然丝氨酸水解酶(上)和第三轮设计的非活性丝氨酸水解酶(下)在4MU-乙酸水解过程中不同状态的PLACER集合。


2. 使用PLACER评估反应路径的兼容性


我们着手研究为什么之前设计的丝氨酸水解酶未能显著催化酯水解,并假设对反应的每一步进行建模对于评估设计实现催化转化的能力至关重要。为了模拟设计酶沿反应坐标稳定时每个关键状态的程度,以及评估活性位点残基在所需催化几何结构中的预组织情况,我们开发了一个深度神经网络。该网络在给定以下条件时,能够生成结合位点的完整原子坐标,包括:小分子结合口袋或活性位点的主链坐标;每个位置的氨基酸残基的身份;结合小分子的化学结构(而非其位置)。该网络生成的结合位点的完整原子坐标涵盖了蛋白质侧链和小分子。我们称这个网络为PLACER(Protein-Ligand Atomistic Conformational Ensemble Resolver,蛋白质-配体原子构象集合解析器)。我们在PDB中的蛋白质-小分子复合物上训练了PLACER,通过在包含多达600个重原子的球形区域内随机化侧链和小分子的原子坐标,并试图最小化一个评估区域内原子坐标复现的损失函数。在基准测试中,PLACER对天然结构中的区域预测的均方根偏差(RMSD)为1.1 Å。PLACER是随机的,从不同的随机种子重复运行可以为预测区域生成一组模型(图1B)。

我们利用PLACER为一组天然和先前设计的丝氨酸水解酶的催化循环的每一步生成结构集合。丝氨酸水解酶的催化循环可以分为四个步骤(图1C):1)底物与无配体的酶(apo)结合,催化丝氨酸在催化组氨酸的去质子化作用下攻击酯的羰基碳,形成第一个四面体中间体(TI1)。2)催化组氨酸对离去基团氧进行质子化,促使其离去,使活性位点的丝氨酸与底物的酰基共价连接(即上述的酰化酶中间体,AEI)。3)组氨酸对一个水分子去质子化,该水分子攻击AEI,生成第二个四面体中间体(TI2)。4)通过组氨酸介导的丝氨酸质子化和酰基的释放,该中间体被分解,重新形成自由酶并完成催化循环。在整个催化过程中,带负电荷的过渡态和中间体通过氧负离子孔中的至少两个氢键供体进行稳定。组氨酸pK a 值的变化,会调节其酸/碱功能,这是通过与三联体中的最后一个残基(天冬氨酸或谷氨酸)的相互作用实现的。

使用PLACER对这一催化循环进行建模表明,天然丝氨酸水解酶的预组织程度高于先前设计的系统(图1D和补充图S3)。在反应坐标的每一步中,与先前设计的丝氨酸水解酶相比,我们设计的天然丝氨酸水解酶的催化残基对催化所必需的关键氢键进行了更频繁地采样(补充图S3)。由于反应速率应与酶处于活性状态的比例成正比,设计的活性位点预组织有限,预计会削弱催化能力。为了量化PLACER集合中活性位点形成的程度,我们计算了催化功能基团与反应中间体之间关键相互作用在反应每一步中的形成频率(详见计算方法),并使用这一指标在以下部分评估新的设计。


3. 丝氨酸水解酶的设计和表征


接下来,我们着手设计具有越来越复杂活性位点的蛋白质,利用RFdiffusion构建丝氨酸水解酶活性位点基序,并通过PLACER评估它们在反应每一步中的预组织情况(图2,A和B)。我们设计了用于水解4-甲基伞形酮(4MU)酯的催化剂(图2C),这些酯在水解时会发出荧光。为了生成活性位点基序,我们基于天然水解酶的分析以及QM优化的过渡态(详见计算方法),对催化侧链围绕过渡态的位置进行了采样,并为每个催化残基枚举了α-螺旋和β-折叠主链构象,同时保持与过渡态的相互作用在空间中固定不变。对于每个催化残基的主链N、C α 和C原子的每种组合,我们使用RFdiffusion从随机噪声开始构建主链,使其坐标几乎完全匹配输入的催化残基主链位置(所有原子的RMSD约为0.1 Å),并形成一个适合底物结合的口袋(详见计算方法)。为了驱动折叠到设计状态,并与底物及活性位点残基形成有利的相互作用,我们使用了LigandMPNN进行序列设计。Rosetta FastRelax用于优化蛋白质主链和配体的构象,随后以新的主链作为输入,重复进行LigandMPNN的序列设计。经过三轮LigandMPNN和FastRelax的循环后,我们使用AlphaFold2(AF2)预测了设计结构,并选择了所有催化残基的C α 原子与设计模型偏差在1.0 Å以内的设计进行实验表征(详见计算方法)。

图2 设计的丝氨酸水解酶的功能表征。 (A) 丝氨酸水解酶活性位点的化学示意图。(B) 设计方法总结及每轮设计中探针标记、单次转化酰化和催化转化的实验成功率。(C) 描述探针标记、酰化和催化转化的化学示意图。(D) 丝氨酸水解酶设计模型的折叠结构(左侧)和活性位点(右侧)。(E) 亲本设计及催化残基敲除突变体的反应进程曲线。虚线表示酶的浓度,阴影区域表示三次技术重复的标准偏差。(F) 基于初始速率(shh25, rem6507)或稳态速率(win, super)的米氏图。误差棒表示三次技术重复的标准偏差。


在前两轮设计中,我们构建了相对简单的活性位点,由丝氨酸(Ser)和组氨酸(His)组成的二元体以及来自丝氨酸主链酰胺的单个氧负离子孔氢键供体组成(图2,A和B)。我们明确评估了PLACER在选择实验表征设计中的效用。第一轮设计仅通过AF2进行筛选,而第二轮设计在通过AF2筛选后,如果PLACER在无配体状态下的集合显示关键的Ser-His氢键形成,则被选为实验筛选对象(详见计算方法)。为了实验测试,我们分别获得了编码第一轮和第二轮设计的合成基因,分别为129个和192个,用于大肠杆菌的过表达和筛选。

我们使用荧光磷酸盐(FP)活性探针以及荧光4MU酯底物(4MU-Ac和4MU-Bu)来分别鉴定具有活化丝氨酸和酯酶活性的设计(图2C)。从第一轮到第二轮,被FP探针标记的设计比例在大肠杆菌裂解液中增加了5倍,从3%增加到17%(图2B和补充图S4)。与FP探针反应的设计被纯化并与4MU酯孵育,第一轮设计中有两个(1.6%)和第二轮设计中有十个(5.2%)显示出催化活性。对第一轮设计进行回顾性PLACER分析发现,两个具有催化活性的设计中Ser-His氢键被预测为最高度预组织(补充图S5)。PLACER对第二轮设计的筛选不仅增加了显示FP探针标记和酶活性的设计比例,还显示了更高的活性(图2,E和F)。这些第一轮和第二轮设计的反应进程曲线在大约形成一个酶当量的荧光产物后趋于平稳(图2E),表明丝氨酸发生了酰化,但随后形成的AEI未能水解,这是活化酯水解的速率限制步骤。当与底物孵育时,这些设计的质谱显示出与酰化相对应的质量偏移,进一步支持了在酰化中间体形成后蛋白质失活的观点(补充图S6)。

我们假设,在第三轮设计中引入稳定组氨酸的催化酸和第二个氧负离子孔氢键供体,并在apo和AEI状态下进行PLACER预组织筛选,可以生成能够通过AEI水解实现催化转化的设计。对于第三轮设计,我们要求在apo和AEI状态下的PLACER集合中,所有催化三联体和氧负离子孔的氢键都高度预组织。在132个第三轮设计中,有111个(84%)显示出FP探针标记,20个水解了4MU底物(18%),两个设计(1.5%)显示出多轮催化活性(图2,B和E)。所有第三轮设计酶的活性在催化残基(Ser、His、Asp/Glu和氧负离子侧链接触)突变后都降低了(图2E),表明观察到的活性依赖于设计的活性位点。为了确定活性设计的动力学参数,我们分别测量了单轮转化和多轮转化设计的初始速率或稳态速率,以确定 k 2 /K m k cat /K m (图2F和补充图S7)。对于两个显示出催化转化的设计,我们分别称为“super”和“win”,它们对两种4MU底物中更偏好的底物(win和super分别优先水解4MU-Ac和4MU-Bu,见补充图S8)的 k cat /K m 值分别为22 M 1 s 1 k cat = 0.00137 ± 0.00005 s 1 K m = 64 ± 6 μM)和410 M 1 s 1 k cat = 0.00117 ± 0.00003 s 1 ,K m = 2.8 ± 0.3 μM)。但win的 K m 值较低,我们通过将底物浓度增加到100 μM,仍无法达到反应初始爆发相的饱和(补充图S9),这表明 K s >> K m ,win观察到的低 K m 值是由于快速酰化而非底物紧密结合的结果。


4. 设计的丝氨酸水解酶的结构表征


我们通过X射线晶体学来确定“super”和“win”设计的准确性。我们成功解析了“super”和“win”的晶体结构,发现它们与设计模型的C α RMSD非常低,分别为165个残基的0.8 Å和160个残基的0.83 Å(图3,A和D)。设计的准确性体现在活性位点的几何结构上:对于“super”,催化残基的侧链构象在原子水平上与设计模型一致(22个原子的全原子RMSD为0.38 Å);对于“win”,除了氧负离子孔接触位点的苏氨酸(Thr99)发生了构象异构外,催化残基的侧链构象也与设计模型一致(20个原子的全原子RMSD为0.86 Å)(图3,B和E)。在“super”的活性位点中,一个水分子位于丝氨酸的上方,并与氧负离子孔的接触位点形成氢键,这可能模拟了其酯类底物中羰基氧的定位(图3B)。类似地,在“win”中,一个乙酸分子位于催化中心,并与催化丝氨酸(Ser142)、侧链氧负离子孔(Thr99)和组氨酸残基(His17)形成氢键(图3E)。

图3 设计的丝氨酸水解酶的结构表征。 (A和D)设计模型(灰色)与晶体结构(彩色)的结构叠加,分别展示了“super”(A)和“win”(D)的对比情况。(B和E) 活性位点的叠加图,展示了“super”(B)和“win”(E)的设计模型(灰色)与晶体结构(彩色),并显示了1σ水平的2Fo-Fc电子密度图(蓝色网格)。(C和F) 底物结合位点的叠加图,展示了“super”(C)和“win”(F)的设计模型(灰色)与晶体结构(彩色),并显示了1σ水平的2Fo-Fc电子密度图(蓝色网格)。图中所示距离单位为 Å。


尽管这些结构是在没有结合小分子底物或过渡态类似物的情况下解析的,但设计模型与晶体结构的叠加显示了“super”与其偏好底物的丁酰基具有很高的形状互补性(图3C和补充图S8)。同时,4MU基团大部分暴露在外,这进一步证实了“super”对4MU-Bu的选择性高于4MU-Ac,并表明在这种情况下,底物结合主要是由酰基的结合所驱动的。对于“win”,晶体结构中F98的构象异构会与丁酰基发生冲突,因此“win”对较小的底物4MU-Ac表现出偏好,从而避免了这种冲突(图3F和补充图S8)。

“super”和“win”的结构与已知结构非常不同。通过Foldseek对所有数据库进行搜索,找到的最接近的匹配结构与“super”和“win”的TM分数分别为0.52和0.46(TM分数在0.5或以下时,结构被认为具有不同的拓扑折叠),这些结构是功能未知的蛋白质,并且在折叠或活性位点水平上与已知的水解酶没有相似性(补充图S10,A和B)。这表明,这里采用的设计方法能够产生超出自然界中已知结构的丝氨酸水解酶,扩展了这一古老酶家族的结构空间。


5. 沿反应坐标筛选预组织以提高催化效率


接下来,我们试图通过PLACER显式筛选在两个状态(apo和AEI)或反应路径的所有四个状态上具有预组织的设计,并从活性设计“win”出发,固定四个催化残基的身份,进行额外的LigandMPNN和FastRelax迭代(图4A和补充图S1)。我们获得了45个经过两个状态(apo和AEI)筛选的设计,然后用于实验表征。这些设计在序列上比亲本设计更多样(与亲本设计的平均序列一致性为58%,活性位点内为61%),其中38个(84%)被FP探针标记(补充图S11A),9个(20%)在裂解物筛选中显示出高于背景的活性(补充图S11C)。其中三个设计,win1、win11和win31,显示出比起始设计更高的催化转化率:“win”的 k cat 为0.00117 s -1 ,win1增加了15倍(0.018 s -1 ),win11增加了17倍(0.0197 s -1 ),win31增加了9倍(0.0105 s -1 )(图4B和补充图S7)。

在测试的11个四个状态筛选的设计中,10个(91%)被FP探针标记(补充图S11B),8个(73%)显示出活性(补充图S11D)。其中两个设计,dadt1和wint4,显示出比“win”更高的催化效率,其 k cat / K m 值分别为3800 M -1 s -1 和640 M -1 s -1 ,这是由于与“win”相比,它们的 k cat 增加和 K m 降低(图4,B到D,以及补充图S7)。所有设计的催化三联体的残基敲除均显示出活性的降低,对于win11和win31,在第二层活性位点中与催化天冬氨酸形成氢键的稳定残基发生突变,也会降低酶的活性(补充图S12)。具有最高 k cat 值的两个新设计(win1和win11)没有显示出初始爆发相动力学,表明去酰化不再是控速步骤(补充图S7)。

图4 计算重新设计和更复杂的折叠改善了催化作用。 (A) win 的计算重设计流程。(B到D) 与亲本win相比,计算重设计的 k cat (B)、 K m (C)和 k cat / K m (D)。(E到G) win1(E)、win31(F)和dadt1(G)的设计模型与晶体结构的叠加图,显示了1σ水平的2Fo-Fc电子密度图(蓝色网格)。(H到K) 具有不同折叠结构的活性设计的设计模型(H和J)以及米氏图(I和K)。(L) n和n+1氧负离子孔基序的化学和结构比较。(M) Chai-1预测的momi120_103与4MU-苯甲酸酯(4MU-PhAc)复合物的结构。(N) momi120_103与4MU-苯甲酸酯(4MU-PhAc)的米氏图。图中的误差棒表示三次技术重复的标准偏差。

我们解析了win1、win31和dadt1的晶体结构,与设计模型相比,它们的C α RMSD分别为1.42 Å、0.7 Å和1.2 Å(图4,E到G)。对于win1,活性位点与设计结构非常接近(平均全原子RMSD为0.54 Å)(图4E),并且氧负离子孔的接触位点T99是设计的主要构象,这可能是其与win相比 k cat 增加了15倍的原因,因为相对于win T99的构象发生了旋转(图3E)。在win1结构的B链中,催化丝氨酸的部分占据了一个第二构象,其占据率为0.23(补充图S13A)。对于win31,其非对称单元中有五个链,它们在主链水平上与设计模型非常接近(平均C α RMSD为0.7 Å)(图4F和补充图S13B)。对非对称单元中所有链的活性位点进行分析发现,催化丝氨酸、侧链氧负离子孔的苏氨酸以及第二层的酪氨酸存在一定的移动性(补充图S13C),但总体上与设计模型的活性位点非常接近,平均全原子RMSD为0.7 Å。来自结晶溶液的酒石酸能够很好地拟合所有五个链的活性位点中的电子密度,并且与丝氨酸、组氨酸以及氧负离子孔的接触位点形成氢键(图4F),这很可能模拟了催化循环中的关键相互作用。对于dadt1,其活性位点与设计模型非常接近,平均全原子RMSD为0.95 Å,氧负离子孔的侧链残基T99占据了设计的主要构象。

接下来,我们探讨了是否可以通过PLACER对整个反应坐标进行严格的筛选,以获得具有新骨架拓扑结构和活性位点几何结构的活性酶。我们在排除win的第三轮骨架上进行了序列设计和PLACER筛选(补充图S1),在测试的20个设计中,有两个(charliet2和kent1)显示出酯酶活性,其催化效率分别为180 M -1 s -1 和1400 M -1 s -1 (图4,H到K),这表明反应坐标中间状态的结构变异可能限制了其他情况下功能正常的设计。我们还通过序列设计结合PLACER筛选,修改了win1的底物选择性,使其从仅接受较小的4MU-Ac酰基转变为处理较大的4MU-苯乙酸酯(4MU-PhAc)底物(补充图S14)。

为了测试RFdiffusion与PLACER筛选的普适性,我们将其应用于一种不同的活性位点构型,其中氧负离子孔由两个主链酰胺组成,而不是一个主链酰胺和一个侧链氢键供体,并且氧负离子孔的第一个主链酰胺是催化丝氨酸之后的残基(N+1),而不是催化丝氨酸本身(N),如之前的设计(图4L)。我们使用RFdiffusion和LigandMPNN/FastRelax设计流程,为这种新的催化位点和较大的4MU-PhAc底物生成了66个设计(补充图S1)。其中最活跃的设计momi,其 k cat / K m 为1240 M -1 s -1 k cat 为0.1 s -1 ,比之前的最佳设计win11(以转化次数计算)快了5倍。RFdiffusion为这种活性位点几何结构生成的折叠分布,与原始几何结构不同,产生了更多的α/β折叠方案(如momi所示),这表明RFdiffusion可以根据特定的活性位点定制整体蛋白质的拓扑结构。据我们所知,天然酯酶专门使用momi的N+1氧负离子孔基序,这表明它特别适合酯水解。这种新催化位点在没有任何先前实验表征的情况下实现了高活性,表明对整个反应循环的预组织进行筛选可以在一次尝试中产生新的催化剂。

一些实验结果揭示了需要改进以提升功能的领域。首先,kent1在大约10次转化后失活,催化剂与底物孵育后的质谱显示存在稳定的酰化物质(补充图S15),这表明能够水解AEI的设计仍然容易失活,可能是由于活性位点中非机制性的酰化事件或酰化诱导的构象变化。其次,侧链氧负离子孔残基的突变对活性的影响各不相同。在经过严格PLACER筛选的第四轮和第五轮设计中,有三个设计(dadt1、charliet2和kent1),侧链氧负离子孔残基的突变对活性的影响较小,表明其对催化作用的贡献有限(补充图S12)。对这些设计以及其他早期设计轮次中的氧负离子孔几何结构的分析表明,它们与底物羰基氧形成了平面内的氢键(补充图S16),这与自然界中发现的垂直于羰基平面的氢键形成对比,后者可能更有利于稳定sp 3 氧负离子过渡态而非sp 2 羰基基态。

接下来,我们探索了是否可以通过RFdiffusion重建次优区域来改进现有设计。以momi主链作为RFdiffusion的输入,我们扩展了N端以进一步稳定活性位点,但没有改变亲本主链或序列(补充图S1和S17)。在测试的65个设计中,所有设计都显示出活性,其中一个设计momi120的催化效率达到4300 M -1 s -1 ,比momi高出3.5倍,这是由于 k cat 增加了2倍, K m 降低了1.5倍(补充图S17)。我们还利用RFdiffusion改进了super中Gln71形成的次优平面内(相对于底物羰基)的氧负离子孔氢键。枯草杆菌蛋白酶样丝氨酸蛋白酶使用了一个化学上类似的侧链氧负离子孔Asn155,其酰胺基团垂直于底物羰基平面(补充图S16A)。以枯草杆菌蛋白酶的氧负离子孔几何结构为指导,我们将super中的Gln71突变为Asn,并重新定位,以与底物羰基形成类似的平面外氢键,然后利用RFdiffusion重建周围的主链以适应这一变化(补充图S18)。在筛选的150个设计中,活性最高的两个设计superfast和supercool的 k cat 比亲本设计super( k cat = 0.00137 s -1 )分别提高了8倍和7倍, k cat / K m 分别提高了19倍和13倍(补充图S18)。这些结果突显了RFdiffusion能够实现富有成效的设计干预,这些干预措施是传统工程工具(如理性突变和定向进化)难以实现的,因为这些工具虽然可以轻松改变序列,但难以添加新的结构特征。

我们对momi120进行了重新设计,使其能够水解聚对苯二甲酸乙二醇酯(PET),并筛选了85个设计,以评估它们对空间结构相似的4MU-PhAc底物的活性。所有85个设计在裂解物筛选中均显示出高于背景的活性,其中两个最活跃的设计经过进一步的动力学表征,发现其 k cat / K m > 10 4 M -1 s -1 (补充图S19)。效率最高的设计momi120-103对4MU-PhAc的 k cat 为0.057 s -1 K m 为0.26 μM, k cat / K m 为2.2×10 5 M -1 s -1 (图4N)。PLACER和Chai-1的预测表明,4MU-PhAc与重新设计的口袋具有很高的形状互补性;构成结合口袋的替换残基,特别是F76G(补充图S19),似乎提供了一个更深的口袋。


6. 催化的结构决定因素


天然丝氨酸水解酶中催化几何结构的高度保守性表明,其结构接近于催化作用的最优状态,但很难评估活性如何依赖于过渡态与催化丝氨酸、组氨酸和氧负离子孔功能基团相互作用的详细几何结构。尽管可以通过突变轻松改变催化残基的身份,但系统地改变主链几何结构并非易事。相比之下,我们的从头构建方法涵盖了广泛的催化几何结构。为了研究活性位点几何结构和预组织如何影响催化活性,我们为所有812个经过实验表征的设计生成了PLACER集合,这些设计被分为无活性、FP探针标记、酰化和催化转化几类,并针对4MU-Ac水解反应的每一步(包括第1-3轮设计和之前的基于NTF2的设计)进行了分类。

更高的预组织程度和Ser-His氢键的弯曲与更高的探针标记率、酰化率和转化率相关。所有能够催化转化的设计在四个状态下都显示出高度预组织的Ser-His氢键,而无活性的设计通常由于构象异构导致相互作用的丧失(图5,A和B)。能够催化转化的设计具有更小的Ser(Oγ):His(Nε-Cε)键角(所有状态的中位数为94°),而无活性的设计则具有更接近天然丝氨酸水解酶中Ser-His的氢键角度(PDB中约为125°,所有状态的中位数为108°)(图5C)。这种锐角氢键与反应机制吻合,因为这种几何结构允许组氨酸在不改变构象的情况下参与所有必要的质子转移过程,包括丝氨酸、TI1中的含氧离去基团和水解的水分子。这种折中的定位不仅在我们的活性设计中观察到,而且在自然界中发现的许多设计中也存在。

图5 PLACER集合揭示催化作用的几何决定因素。 (A) 按实验结果分类的每个反应步骤中PLACER集合中催化Ser-His氢键形成的频率。(B) 代表性无活性(上)和酰化(下)设计的apo状态PLACER集合。(C) 在无活性和酰化设计的PLACER集合中,Serine Oγ、组氨酸Nε和Cε之间的中位角(α)。(D) 代表性无活性(上)和酰化(下)设计的apo状态PLACER集合,角度表示中位数α。(E) 经历酰化或完全转化的设计,在AEI状态下氢键结合频率的PLACER集合。(F) 酰化(上)和多轮转化设计(下)的apo状态PLACER集合。(G) 经历酰化(上)和催化转化(下)的代表性设计的AEI状态PLACER集合。图中显示的测量值代表每个集合中标注的关键氢键的中位距离(Å),百分比表示所有PLACER轨迹中氢键形成的频率。(H) 丝氨酸g+和g-构象状态的Newman投影(左)。(I) 酰化设计(上)和催化转化设计(下)的PLACER集合。(J) 对于催化酰化或转化的设计,TI1和AEI状态PLACER集合中丝氨酸χ1角的中位数(左),以及按氧负离子孔氢键数量中位数分类的相同设计。(K) win、win1、win31和dadt1的AEI状态PLACER集合,显示了正确氧负离子孔构象的帧百分比、Ser χ1角和催化Ser-His氢键距离。箱线图表示中位数、上下四分位数;须线分别延伸至上下四分位数的1.5×IQR(四分位距)之外。超出这些范围的观测值以异常值的形式绘制。


在整个催化循环中,丝氨酸构象的几何结构与实验结果也表现出强烈的相关性。对于表现出酰化或催化转化的设计,我们发现丝氨酸在apo状态下主要占据活性的g-构象。能够催化转化的设计在形成AEI时保持了g-丝氨酸构象,而不可逆酰化的设计则在AEI中转变为g+构象(图5,H到J)。g+丝氨酸构象在这些设计中是无法催化的,因为它导致的酰基构象阻碍了水解的水分子与组氨酸的相互作用(图5G),增加了Ser-His氢键的中位数距离(图5G),并降低了Ser-His和氧负离子孔-酰基氢键形成的频率(图5E)。在天然晶体结构中也观察到了在AEI中保持g-构象。PLACER分析还揭示了第二个氧负离子孔残基的存在有利于活性g-丝氨酸构象的形成:那些只有一个氧负离子孔氢键(来自丝氨酸亲核取代的主链酰胺)的设计在酰化时从g-转变为g+,而具有两个氧负离子孔氢键的设计主要占据g-丝氨酸构象(图5J,右侧)。因此,丝氨酸水解酶中第二个氧负离子孔的存在不仅稳定了过渡态,还有助于中间体形成具有催化活性的构象。

不同的预组织程度也可能解释了win、win1、win31和dadt1系列设计中的活性趋势。对这些设计的晶体结构进行PLACER分析显示,在AEI状态下,更活跃的重设计win1、win31和dadt1分别在56%、60%和100%的预测中选择了设计的T99氧负离子孔构象,而活性较低的win从未采用这种构象(图5K)。尽管两种观察到的构象都将T99 Oγ置于与氧负离子的氢键距离内,但重设计所采用的设计构象——氧负离子二面角(91°)与天然丝氨酸水解酶中观察到的角度更为接近,表明它可能更有利于过渡态的稳定。我们还在AEI状态下观察到丝氨酸构象状态和酰基预组织的差异。win和win31在整个AEI集合中都占据了不利于催化的g+构象,而win1和dadt1表现出不太明显的构象转变,这导致了更短的Ser-His氢键距离(win1和dadt1的平均氢键距离为2.8 Å,而win和win31为3.1 Å)。总体而言,win1的酰基,尤其是win31和dadt1的酰基,表现出比win更少的构象异质性,这可能增加了组氨酸介导的水分子攻击的可能性(图5K)。


讨论


本文所描述的丝氨酸水解酶设计在催化效率、活性位点复杂性以及原子精度方面代表了计算酶设计的重大突破。丝氨酸催化三联体加上氧负离子孔的机制涉及更复杂的催化装置,这比Kemp消除酶(仅需要在疏水环境中提供一个通用碱)更具挑战性,需要化学激活丝氨酸,并通过一个复杂的多步机制来跨越化学稳定的AEI。本文所述的丝氨酸水解酶设计达到了高达2.2×10 5 M -1 s -1 的催化效率,这是计算设计酶功能的重大提升。例如,先前设计的酯酶OE1的 k cat / K m 为210 M -1 s -1 ,尽管使用了更具活性的N δ -甲基组氨酸亲核取代,经过四轮定向进化和筛选超过12,000个克隆后,其效率仅达到了3190 M -1 s -1 。在机制上最接近的从头设计的 k cat / K m 为3.7 M -1 s -1 k cat 为0.0005 s -1 ,分别比本文描述的最高效(momi120-103)和最高转化率设计(momi120)低60,000倍和慢400倍。加速稳定的酰化酶中间体的水解一直是酶设计领域数十年来的挑战。为了估算去酰化速率,我们将乙酸乙酯的非催化水解速率(2.5–5.0)×10 -10 s -1 与momi的去酰化速率常数下限( k cat = 0.076 s -1 ,pH 7.0,25℃)进行比较,得出的估算速率提升超过10 8 。综合来看,设计出涵盖五种天然酯酶中不存在的折叠结构的丝氨酸水解酶、与先前设计的酯酶相比显著提升的活性以及去酰化速率的加速,代表了酶设计领域的关键进展。

尽管本文所述的设计尚未达到天然丝氨酸水解酶与其天然底物(例如,乙酰胆碱酯酶对乙酰胆碱的 k cat / K m > 10 8 M -1 s -1 )的催化效率,但它们的效率与天然蛋白酶对活化酯的效率相当或更优(α-胰凝乳蛋白酶对对硝基苯乙酸酯的 k cat / K m 为3530 M -1 s -1 k cat 为0.0053 s -1 ;枯草杆菌蛋白酶对对硝基苯乙酸酯的 k cat / K m 为610 M -1 s -1 k cat 为0.23 s -1 ),并且处于自然界观察到的效率分布范围内。通过优化催化几何结构、进一步预组织活性位点以及增加活性位点复杂性,有望实现更高的 k cat 。有研究表明,乙酰胆碱酯酶利用三个主链酰胺氢键连接氧负离子,并通过额外的氢键网络稳定催化的天冬氨酸。当前设计尚未采用这种机制,与高效天然丝氨酸水解酶中的催化三联体和氧负离子孔几何结构进行比较,我们发现了可能导致活性差距的差异(见补充文本)。我们采用RFdiffusion结合PLACER集合分析的从头构建方法,确保设计的准确性和预组织,这将使我们能够通过直接构建来验证这些假设,从而对基于结构检查、计算分析以及通过定向进化等传统实验方法进行补充。

以往基于催化三联体的设计未能实现多轮催化转化;在某些情况下,例如我们初步基于NTF2的设计,由于支架限制,无法实现主链酰胺氧负离子孔的生成(补充图S20)。而其他基于天然支架的设计则难以控制组氨酸的几何结构,这可能限制了离去基团和水的活化。本文描述的从特定活性位点向外构建的RFdiffusion从头主链生成方法(最近也用于生成逆醛缩酶)克服了这些限制,能够生成几乎满足任何期望的催化几何结构。我们进一步展示了深度神经网络PLACER能够快速为一系列反应中间体生成集合,以预测预组织,并提供通常需要繁琐结构研究才能获得的见解。例如,PLACER揭示了酰化酶中间体中普遍存在的非靶向构象变化,为设计缺陷提供了反馈,而这些缺陷在仅考虑催化循环中单一状态时可能会被忽视。这种方法的价值在于通过PLACER筛选后实验成功率的显著提高,表明这种集合生成方法将对未来的酶设计具有重要意义。尽管本文描述的设计确实采用了已知的机制,但所采样的几何结构以及支撑它们的折叠与天然蛋白中的截然不同,而PLACER为这些几何结构提供的见解表明,这种方法对于评估没有天然先例的催化几何结构也具有价值。我们预计,利用RFdiffusion精确定位多个催化基团的能力,以及利用PLACER在整个复杂反应循环中评估活性位点组织的能力,将使我们在不久的将来能够设计出各种新的催化剂,例如PET水解酶、酰胺酶和连接酶。


原文链接:
https://www.science.org/doi/10.1126/science.adu2454

----------微科盟精彩文章----------


重磅综述(IF=58.7) | 华西杨胜勇联合温州医大张康团队阐述人工智能在药物研发中的应用

Nature|AI用于蛋白质工程!浙江大学开发基于蛋白质语言模型的自动进化平台,加速蛋白质工程工业化应用

如果需要原文pdf,请扫描文末二维码


获取此文献原文PDF、申请加入学术群,联系您所添加的任一微科盟组学老师即可,如未添加过微科盟组学老师,请联系组学老师47,无需重复添加。


请关注下方名片









请到「今天看啥」查看全文