专栏名称: 生信宝典

生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程；高通量测序数据分析学习教程；生信软件安装教程。所有内容均为原创分享，致力于从基础学习到提高整个过程。

AI大模型助力蛋白质设计：ESM-scan工具让氨基酸突变预测更简单高效

生信宝典 · 公众号 · 生物 · 2024-12-22 21:00

主要观点总结

本文主要介绍了ESM-scan工具，一个利用深度学习预测蛋白质中氨基酸突变影响的新工具。该工具基于ESM语言模型，能够快速高效地预测特定位点突变对蛋白质稳定性和功能的影响。文章还介绍了该工具的技术原理、性能评估、实际应用案例、优势与局限性，以及技术展望和应用前景。

关键观点总结

关键观点1: ESM-scan工具介绍

ESM-scan是基于ESM语言模型的工具，用于预测蛋白质中氨基酸突变的影响。它能够快速高效地扫描整个蛋白质序列，寻找潜在的有益氨基酸替换。

关键观点2: 技术原理

ESM-scan利用掩码语言模型进行突变影响预测，通过序列编码与掩码、上下文表示学习和突变评分计算等技术，捕捉蛋白质序列中每个位置的上下文信息，从而预测突变的影响。

关键观点3: 性能评估

研究团队使用三个独立数据集对ESM-scan进行了全面评估，包括数据集1、数据集2和数据集3。实际应用案例MsLadC蛋白的研究也验证了ESM-scan的实用性。

关键观点4: 优势与局限性

ESM-scan的主要优势包括用户友好、快速高效、功能完整等。然而，它在某些实验设置下的预测准确度可能较低，需要根据具体案例调整阈值。

关键观点5: 应用前景

ESM-scan为蛋白质工程领域提供了一个强大的工具，能够准确推断氨基酸突变的影响，指导蛋白质功能改造，降低实验成本，加速蛋白质工程研究。

正文

极客苦工独家整理，盗用必究

近年来，深度学习在蛋白质结构预测和设计领域取得了革命性进展。然而，预测特定位点突变对蛋白质稳定性和功能的影响仍然是一个未解决的挑战。本文介绍了一个新型工具ESM-scan，它利用ESM语言模型来快速高效地预测氨基酸突变的影响。

研究背景与意义

蛋白质是生命活动的核心执行者，其功能高度依赖于氨基酸序列。即使单个氨基酸的改变都可能对蛋白质的功能产生深远影响。传统的突变影响预测方法主要有以下几类：

基于能量计算的方法：如Eris、FoldX和Rosetta-ddG等，这些方法结合能量计算、进化信息和统计分析。虽然取得了一定成功，但需要用户具备大量专业知识。
早期机器学习方法：展现出良好的预测能力，但往往过度拟合训练数据，难以泛化到新蛋白质。
深度学习模型：如AlphaFold系列，可以自主学习未标记数据，更好地捕捉氨基酸对蛋白质稳定性和功能的非线性贡献。

ESM-scan工具的技术原理

ESM-scan基于ESM语言模型家族，利用零样本预测器来扫描整个蛋白质序列，寻找潜在的有益氨基酸替换。其核心技术原理如下：

掩码标记推理：在掩码语言模型推理中，每个残基基于其序列上下文被赋予概率分数。相同上下文中单个残基的改变会产生不同的分数，用于估计突变的影响。
分数范围解释：推理值范围标记了突变的三种可能结果：

显著正值：表示增强适应度
轻微正负值：表示中性影响
显著负值：表示降低适应度

论文图1展示了ESM-scan在三个基准数据集上的预测准确性对比结果，以及PTEN表达数据的Matthews相关系数映射。

性能评估与基准测试

研究团队使用三个独立数据集对ESM-scan进行了全面评估：

数据集1：来自Tsuboyama等人的工作，包含500多个氨基酸序列的高通量筛选数据。ESM分数与实验测量的ΔΔG值相关系数达到0.44。
数据集2：包含PTEN的表达水平和活性数据。ESM-scan在预测蛋白质丰度方面表现出色（R=0.48），与Rosetta ΔΔG（R=0.49）相当。在功能预测方面，ESM-scan的表现（R=0.56）优于其他方法。
数据集3：来自SKEMPI和ZEMu数据库，包含近900个蛋白质-蛋白质界面突变的ΔΔG记录。

实际应用案例：MsLadC蛋白研究

为了验证ESM-scan的实用性，研究团队选择了一个具有挑战性的测试案例：来自甲基化细菌的蓝光激活双鸟苷酸环化酶MsLadC。

论文图2展示了MsLadC的测试案例，包括晶体结构示意图、ESM-scan得分热图，以及R218位点突变的预测结果比较。

关键发现包括：

ESM-scan准确预测了抑制位点中高度保守残基的重要性。
预测分数与实验观察到的多个性质相关，包括：

蛋白质溶解度
辅因子结合
酶活性

工具成功指导了突变体的选择，帮助获得了可表达且功能性的蛋白质变体。

工具优势与局限性

ESM-scan的主要优势：

用户友好：

在线界面简单直观
无需复杂设置
计算资源需求低

快速高效：

推理时间短
适合初步筛选
最小化开销

功能完整：

可进行全序列扫描
提供直观可解释的结果
支持高级用户自定义

局限性：

在蛋白质-蛋白质界面突变预测方面表现欠佳
对某些实验设置的预测准确度可能较低
需要根据具体案例调整阈值

技术展望与应用前景

ESM-scan为蛋白质工程领域提供了一个强大的工具：

功能预测：

能准确推断氨基酸突变的影响
尤其适合进化和功能洞察相互交织的情况

应用场景：

指导蛋白质功能改造
降低实验成本
加速蛋白质工程研究

未来发展：

可能与结构预测工具结合
进一步提升预测准确度
扩展应用范围

工具获取与使用

ESM-scan已在Hugging Face平台开源，用户可通过以下链接访问：https://huggingface.co/spaces/thaidaev/zsp

性能评估脚本和其他资源可在以下地址获取：gitlab.tugraz.at/D5B8E35025578B91/esm-scan

总结

ESM-scan代表了AI语言模型在蛋白质工程领域的一个重要应用。它通过简单易用的界面，为研究人员提供了快速评估氨基酸突变影响的工具。尽管存在一些局限性，但其在功能预测方面的优异表现使其成为蛋白质工程领域的有力助手。未来，随着深度学习技术的进步和更多实验数据的积累，类似工具的准确性和应用范围有望进一步扩大。

这项研究不仅展示了机器学习在生物学领域的应用潜力，也为蛋白质工程提供了一个实用的解决方案。研究团队开源的工具和数据将有助于推动整个领域的发展，为后续研究提供重要参考。

Q&A环节：

Q1: ESM-scan是如何利用掩码语言模型进行突变影响预测的？

ESM-scan的核心技术基于ESM语言模型的掩码预测机制。具体工作原理如下：

序列编码与掩码：首先，将蛋白质序列转换为标记序列。对于要预测突变影响的位置，使用特殊的[MASK]标记替换原始氨基酸。数学表示为：

对于序列，在位置的掩码操作可表示为：

上下文表示学习：模型通过Transformer架构学习序列中每个位置的上下文化表示。对于位置，其表示向量计算如下：

其中，是该位置的隐藏状态向量。

突变评分计算：对于某个位置的突变，模型计算条件概率：

最终的突变影响分数通过比较原始氨基酸和突变氨基酸的概率得到：

Q2: ESM-scan如何处理蛋白质序列中的长程依赖关系？

长程依赖关系是蛋白质序列分析中的关键挑战。ESM-scan通过以下机制处理这一问题：

多头自注意力机制：使用Transformer的多头自注意力来捕捉不同尺度的相互作用。对于序列中的任意两个位置和，注意力分数计算如下：

其中：

分别是查询、键和值矩阵
是注意力头的维度
多头注意力通过并行计算多个注意力头来增强模型的表示能力

位置编码：为了保持序列位置信息，模型使用正弦位置编码：

这使得模型能够考虑氨基酸在序列中的相对位置关系。

Q3: ESM-scan的评分系统是如何校准和解释的？

ESM-scan的评分系统经过精心设计，以提供可靠且可解释的突变影响预测：

分数校准：原始的对数概率分数通过以下步骤进行标准化：

其中：

是训练集上的平均分数
是标准差

阈值确定：通过分析PTEN数据集，研究发现评分阈值与表达水平存在明显关联：

ESM分数 > -6.5：表示突变体可能保持野生型样的表达
ESM分数 < -6.5：表示可能导致表达水平降低

这个阈值的确定基于Matthews相关系数（φ）的最大化：

Q4: 在预测多聚体蛋白质突变效应时，ESM-scan采用了什么策略？

多聚体蛋白质的突变效应预测涉及更复杂的考虑因素：

序列拼接策略：对于多聚体，ESM-scan采用特殊的序列处理方法：

其中：

是单体序列
是25个甘氨酸的连接序列

整体评分计算：多聚体的突变影响分数计算考虑了多个组分：

其中权重和是根据训练数据优化得到。

Q5: ESM-scan如何平衡预测准确性和计算效率？

ESM-scan在设计时特别考虑了计算效率和预测准确性的平衡：

模型选择：使用"esm2_t33_650M_UR50D"模型作为默认配置，这是基于以下优化目标：

其中是根据具体应用场景可调整的权重参数。

批处理优化：对于大规模突变扫描，采用高效的批处理策略：

通过优化批大小来最大化吞吐量：

计算复杂度分析：对于长度为的序列，单个突变的计算复杂度为：

其中：

是模型维度
是Transformer层数

这种设计使得ESM-scan能够在普通硬件上高效运行，同时保持较高的预测准确性。例如，对于典型的300残基蛋白质，完整的突变扫描（所有可能的单点突变）可以在几分钟内完成。

Q6: ESM-scan是如何处理蛋白质功能预测中的非线性关系的？

在蛋白质功能预测中，氨基酸之间的相互作用往往呈现复杂的非线性关系。ESM-scan通过以下机制来处理这一问题：

残差连接与层归一化：每个Transformer层的输出通过残差连接和层归一化进行处理：

其中非线性变换包括：

前馈网络（FFN）使用两层变换：

上下文敏感的表示学习：对于序列中的每个位置，其最终表示是所有层的综合结果：

其中：

是第层的隐藏状态
是学习得到的层权重
是总层数

Q7: ESM-scan在处理不同长度蛋白质序列时如何保持预测性能的一致性？

序列长度变化是蛋白质分析中的一个重要挑战。ESM-scan采用了几种策略来确保预测性能的稳定性：

动态注意力窗口：对于长序列，使用滑动窗口注意力机制：

其中：

是窗口大小
是序列位置

序列分块处理：长序列被分成重叠的块进行处理：

每个块的大小为，重叠区域大小为。最终预测通过加权平均合并：

其中权重基于位置在块中的中心性计算。

Q8: ESM-scan如何整合进化保守性信息来提高预测准确性？

ESM-scan通过多种方式利用进化信息来增强预测能力：

隐式进化信息建模：模型在预训练阶段学习到的权重包含了进化信息。对于位置，其保守性分数计算为：

其中：

是氨基酸字母表
是位置处氨基酸的预测概率

突变影响评分修正：最终的突变影响分数考虑了保守性信息：

其中是一个可调节的权重参数。

Q9: 在功能域预测中，ESM-scan如何处理结构域之间的相互作用？

对于多结构域蛋白质，ESM-scan采用特殊的处理策略：

结构域注意力机制：引入结构域感知的注意力计算：

其中是结构域掩码矩阵：

跨域信息整合：通过特殊的聚合机制整合不同结构域的信息：

其中：

是结构域集合
是结构域权重
是结构域特定的表示

Q10: ESM-scan如何处理和评估预测的不确定性？

不确定性量化对于可靠的突变影响预测至关重要：

模型不确定性估计：使用集成方法估计预测的不确定性：

其中：

是集成模型的数量
是第个模型的预测
请到「今天看啥」查看全文