Sci Adv｜自监督机器学习在蛋白质设计的优势与挑战

智药邦 · 公众号 · · 2025-02-20 08:00

正文

近年来，机器学习（ML）在计算蛋白质设计领域取得了显著进展，数据驱动的方法在实验成功率上逐渐超越了传统的基于生物物理的方法。然而，这些方法大多以案例研究的形式呈现，缺乏整合和标准化，难以进行客观比较。

2025年2月12日，Moritz Ertelt等人在Science Advances上发表了一篇题为Self-supervised machine learning methods for protein design improve sampling but not the identification of high-fitness variants的研究论文，探讨了自监督机器学习方法在蛋白质设计中的应用，尤其是在采样和评分方面的表现。

研究背景

蛋白质的计算设计和工程一直是科学界长期追求的目标，能够快速生成新型蛋白质药物和材料。传统的分子建模和设计软件如Rosetta，已经在设计首个从头蛋白质、酶和抗体等方面取得了成功。然而，蛋白质设计中的两个基本问题——采样问题和评分问题——仍然存在挑战。采样问题涉及如何在序列空间中高效地探索可能的突变，而评分问题则涉及如何准确评估这些突变的适应性。

近年来，机器学习方法在蛋白质结构预测、分子对接、蛋白质序列设计和蛋白质工程等任务中表现出色。特别是基于深度学习的ProteinMPNN方法，在从头蛋白质设计方面取得了重大突破。然而，机器学习模型是否能够在零样本（zero-shot）方法中超越经典的生物物理设计算法，仍然是一个悬而未决的问题。

研究方法

为了比较不同的机器学习方法和传统的生物物理方法，研究团队在Rosetta软件框架内建立了一个多样化的工具箱，用于预测氨基酸概率，并允许这些模型进行并排比较。研究使用了现有的蛋白质适应性景观数据集，对16种不同的协议进行了基准测试，重点评估了它们在采样和评分方面的表现。

研究团队选择了四个案例研究，涵盖了不同的蛋白质设计任务，包括提高蛋白质结合亲和力和酶活性。为了准确评估序列的适应性，研究团队训练了一个简单的预测模型（称为“oracle”），用于预测不同适应性方面的表现。

研究结果

研究的主要发现是，机器学习方法在从采样空间中剔除有害突变方面表现更好。然而，在没有模型微调的情况下，评分结果并没有显示出比Rosetta更好的改进。具体来说：

采样表现：机器学习方法在生成候选序列时，能够更有效地剔除有害突变，尤其是在高采样温度下，生成的序列多样性更高。然而，不同方法在生成高适应性序列方面的表现差异较大。例如，ProteinMPNN和FastRelax组合生成的候选序列中，适应性大于1.5的序列数量最多，但也生成了大量适应性较低的序列。

评分表现：在评分和排名候选序列方面，机器学习方法的表现并不理想。尽管某些方法能够生成高适应性序列，但这些序列在评分模型中的排名并不高。例如，在GB1蛋白质的适应性景观中，MIF-ST的伪困惑度（pseudo-perplexity）与预测的适应性值相关性最强，但Rosetta的总评分也表现出色。

案例研究：在四个案例研究中，机器学习方法在某些任务中表现出色，但在其他任务中表现不佳。例如，在提高绿色荧光蛋白（avGFP）的荧光活性方面，所有设计方法的预测荧光中值都没有超过野生型，且高荧光序列的比例较低。

讨论与结论

研究结果表明，尽管机器学习方法在采样方面表现出色，但在评分和排名候选序列方面仍然面临挑战。特别是在没有模型微调的情况下，机器学习方法在识别高适应性变体方面的表现并不优于传统的生物物理方法。这表明，机器学习方法目前更多地是作为生物物理方法的补充，而非替代。

研究团队提出了两种可能的策略，以应对不同的实验需求：一种是迭代采样，每次生成少量变体并进行实验验证；另一种是增加采样温度，生成更多样化的候选序列，以增加发现高适应性变体的机会。

未来展望

尽管机器学习方法在蛋白质设计中展现出了巨大潜力，但在实际应用中仍有许多挑战需要克服。未来的研究可以探索如何更好地结合生物物理方法和机器学习方法，以提高蛋白质设计的效率和成功率。此外，随着更多大规模数据集的积累，领域特定的监督学习模型可能能够直接预测蛋白质的适应性，从而进一步推动蛋白质设计的发展。

总之，这项研究为蛋白质设计中的机器学习应用提供了一个标准化的框架，并为未来的模型开发奠定了基础。通过不断优化采样和评分方法，我们有望在蛋白质工程领域取得更多突破。

参考文献

Ertelt, M., Moretti, R., Meiler, J., & Schoeder, C. T. (2025). Self-supervised machine learning methods for protein design improve sampling but not the identification of high-fitness variants. Science Advances, 11, eadr7338.

Sci Adv｜自监督机器学习在蛋白质设计的优势与挑战

正文

请到「今天看啥」查看全文