专栏名称: iNature
专注前沿科学动态,传递科普信息。
目录
相关文章推荐
爱平度  ·  实力“吸睛”!上级媒体聚焦平度!原因是→ ·  11 小时前  
爱平度  ·  实力“吸睛”!上级媒体聚焦平度!原因是→ ·  11 小时前  
今晚报  ·  文心一言、ChatGPT同时宣布:免费! ·  13 小时前  
今晚报  ·  文心一言、ChatGPT同时宣布:免费! ·  13 小时前  
小小牛财经  ·  deepseek最新消息23家公司新增概念 ·  昨天  
江苏教育新闻  ·  推迟VS抢跑,开学“时差”反映了啥? ·  2 天前  
江苏教育新闻  ·  推迟VS抢跑,开学“时差”反映了啥? ·  2 天前  
51好读  ›  专栏  ›  iNature

Cell Res | 王升启/舒文杰/张军/朱世强开发零样本突变效应预测模型,高效指导蛋白质设计改造

iNature  · 公众号  · 科技自媒体  · 2024-07-29 00:00

主要观点总结

该文章介绍了军事医学研究院生物信息中心王升启、舒文杰研究员团队联合其他机构研究人员在Cell Research上发表的研究论文,该论文的主题是蛋白质突变效应预测器(ProMEP)的开发和应用。研究提出了一种多模态深度表示学习模型用于预测蛋白质突变效应,该模型能够准确预测蛋白质突变的结果并指导蛋白质工程的设计。该模型在预测突变效应方面取得了最先进的性能,并显著推进了蛋白质工程的发展。

关键观点总结

关键观点1: 研究背景

蛋白质序列的突变可以引起蛋白质功能的变化,准确预测突变效应在生物技术和生物医学中至关重要,但仍是一个挑战。

关键观点2: 研究亮点

提出了蛋白质突变效应预测器(ProMEP),这是一种通用的、不需要多序列比对的方法,可以零次预测突变效应。

关键观点3: 研究方法

开发了一种多模态深度表示学习模型作为ProMEP的基础模块,该模型通过利用AlphaFold蛋白质结构数据库中的蛋白质来集成序列和结构上下文。

关键观点4: 研究成果

ProMEP在预测突变影响方面实现了最先进的性能,并且在速度上取得了巨大的进步。此外,ProMEP能够准确预测基因编辑酶TnpB和TadA的突变结果,并成功指导其工程变异体高性能基因编辑工具的开发。

关键观点5: 研究影响

ProMEP不仅有助于推进生物医学和合成生物学的研究,而且为蛋白质的实际设计提供了便利,有助于减少劳动密集型程序和对蛋白质结构和功能的专业知识的依赖。


正文

iNature


氨基酸序列的突变可以引起蛋白质功能的变化。在生物技术和生物医学中,准确和无监督地预测突变效应至关重要,但仍然是一个根本性的挑战。

2024年7月5日,军事医学研究院生物信息中心王升启、舒文杰研究员团队联合南京医科大学生殖医学与子代健康全国重点实验室张军研究员团队和之江实验室朱世强教授团队合作在 Cell Research 发表题为“ Zero-shot prediction of mutation effects with multimodal deep representation learning guides protein engineering ”的研究论文 ,该研究提出了蛋白质突变效应预测器(ProMEP),这是一种通用的、不需要多序列比对的方法,可以零次预测突变效应。 嵌入ProMEP的多模态深度表示学习模型被开发用于全面学习约1.6亿个蛋白质的序列和结构上下文。ProMEP在突变效应预测方面取得了最先进的性能,并在速度上取得了巨大的进步,使高效和智能的蛋白质工程成为可能。

ProMEP能够准确预测基因编辑酶TnpB和TadA的突变结果,并成功指导其工程变异体高性能基因编辑工具的开发。TnpB 5位点突变体的基因编辑效率可达74.04%(野生型24.66%);基于TadA 15位点突变体开发的碱基编辑工具A-G转换频率高达77.27%,且旁观者效应和脱靶效应显著低于ABE8e。ProMEP不仅在预测蛋白质的突变效应方面表现出优越的性能,而且在指导蛋白质工程方面也显示出强大的能力。 因此,ProMEP能够有效地探索巨大的蛋白质空间,便于蛋白质的实际设计,从而推进生物医学和合成生物学的研究。

越来越多的分子进化证据表明,蛋白质序列的突变通常与蛋白质功能的变化有关,这可能导致酶缺乏,人类疾病和病毒逃逸。 因此,破译突变的影响在生物科学的许多领域都很重要,特别是对于设计具有增强或新功能的蛋白质变体。 最近的研究表明,学习突变的影响有助于蛋白质工程,并有可能克服定向进化和合理蛋白质设计的挑战。通过导航靶蛋白的适应度景观并识别一小部分有利突变,突变效应预测可以减少由多轮随机变异和筛选产生的劳动密集型程序,以及在蛋白质的合理设计过程中减少对蛋白质结构和功能的专业知识的依赖。
尽管很重要,但由于众多残基之间的复杂相互作用以及突变上位的复杂性,突变效应的准确建模是一项根本性挑战。 高通量实验技术的最新进展有显著改进,然而,由于规模和成本的考虑,实验遍历所有可能的蛋白质序列的巨大空间仍然不可行。以前已经做出了大量努力来预测突变效应。传统的建模方法旨在使用一种或一小部分蛋白质特性来近似突变效应。基于比对的方法通过识别多个序列比对(MSA)中的保守区域或突变模式来利用进化特性。稳定性预测因子主要根据蛋白质折叠能原理来评估突变引起的功能变化。监督学习方法使用带注释的数据集学习从序列或结构到特定蛋白质属性的映射。虽然这些方法无疑有助于预测突变效应,但它们的性能取决于MSA的深度、标记数据集的可用性或蛋白质的类型。
在自然语言处理技术、基于序列的表示学习模型或蛋白质语言模型作为一种无监督和无MSA的方法来预测突变效应。 尽管有这些有希望的进展,但准确预测突变效应仍然是一个挑战。这主要是由于这些模型中缺乏详细的结构背景,这些结构背景在进化上比序列更保守,并且包括蛋白质功能的关键长程接触信息。 最近发表的 AlphaMissens通过利用蛋白质结构背景,在预测错义变异的致病性方面表现出显着的功效。然而,它对特派任务的依赖给搜索和处理特派任务安排带来了巨大的时间负担。
用于蛋白质工程任务的多模态突变效应预测因子(图源自 Cell Research
该研究引入了蛋白质突变效应预测因子 (ProMEP),这是一种多模式且无 MSA 的方法,可以对突变效应进行零样本预测。为了准确预测突变的影响,研究首先开发了一个深度表示学习模型作为 ProMEP 的基础模块,该模型通过利用 AlphaFold 蛋白质结构数据库中的 ~1.6 亿个蛋白质来集成序列和结构上下文。ProMEP 在预测突变影响方面实现了最先进的(SOTA)性能。
由于不含MSA的性质,ProMEP 比AlphaMissense 快 2-3 个数量级,并且在无法获得MSA的蛋白质中表现出卓越的性能。此外,ProMEP还能准确预测TnpB编辑酶的突变后果和 TadA,并成功指导了基于其工程变体的高性能基因编辑工具的开发。 总的来说,ProMEP不仅在以零样本方式预测蛋白质的突变效应方面表现出卓越的性能,而且还建立了智能策略来设计具有增强功能和最小实验负担的蛋白质。ProMEP能够高通量、高性价比地探索蛋白质领域广阔的未知领域,并促进智能蛋白质工程和设计。
军事医学研究院生物信息中心程鹏助理研究员、南京医科大学毛聪博士、之江实验室唐进、军事医学研究院生物信息中心杨森助理研究员为该论文共同第一作者。军事医学研究院生物信息中心王升启和舒文杰研究员、南京医科大学生殖医学与子代健康全国重点实验室张军研究员和之江实验室朱世强教授为该论文的共同通讯作者。同时,该论文还受到之江实验室黄行许教授,上海科技大学赵素文教授等的支持和帮助。

参考消息:
https://doi.org/10.1038/s41422-024-00989-2

END

内容为 【iNature】 公众号原创,

转载请写明来源于 【iNature】


微信加群








请到「今天看啥」查看全文