近日,北京大学化学与分子工程学院、北大-清华生命科学联合中心王初课题组在National Science Review上发表了题目为“MetalNet2: an enhanced server for predicting metal-binding sites in
proteomes”的研究论文。在这项工作中,作者们开发了MetalNet2模型用于预测蛋白质组中的金属结合位点。相比上一代MetalNet模型,MetalNet2在金属结合位点和金属类型的预测能力上均得到了显著增强,并被拓展应用至包括人、斑马鱼、线虫和酵母在内的四种真核生物的金属蛋白组预测中。同时,为了方便研究人员使用,作者还开发了MetalNet2服务器(https://www.chem.pku.edu.cn/wangchulab/metalnet/)以提供在线的预测服务。
金属结合蛋白约占蛋白质总数的三分之一,并在多种生物学过程中发挥关键作用。特定生物系统中的金属结合蛋白集合被称为“金属蛋白质组”。最近,王初课题组开发了一种基于共进化的机器学习方法MetalNet(Nat Chem Biol 19, 548–555 (2023)),它在预测金属蛋白质组中表现优异。然而,MetalNet仍然存在一些局限性。首先,MetalNet的训练集仅限于PDB中发布于2016年以前的小型蛋白质结构数据集。其次,多序列比对(multiple
sequence alignments, MSAs)的计算效率限制了MetalNet预测真核生物金属蛋白质组。此外,通过脚本使用MetalNet仍存在一定的技术门槛。得益于MMseqs2等序列搜索和聚类算法的进步,在短时间内获得高质量MSAs已成为可能。而蛋白质语言模型的快速发展更提供了一种强大的编码工具,促使作者进一步优化MetalNet的残基对表示方法。本文开发的MetalNet2方法,其基本框架如图所示。作者首先将从整个PDB数据库(发布时间早于2023年5月,总数约20万个)中收集金属结合蛋白,并建立了一个高质量的、数据规模扩充至八倍的训练数据集。通过引入蛋白质语言模型ESM2提供的残基表示,新模型在留出测试集上取得F1-score值0.76、召回率0.70、准确性0.83的表现,显著优于旧模型。值得注意的是,新模型在预测由两个半胱氨酸组成的残基对时表现出了更高的准确性。一种可能的原因是:旧模型使用频率矩阵编码共进化残基对,以描述其在进化过程中的突变模式。而二硫键中半胱氨酸对的频率矩阵与金属配位半胱氨酸对(例如参与铁硫簇结合的残基对)的频率矩阵相似,因此旧模型可能错误地将前者预测为金属结合残基。而新模型使用ESM2的编码,它能够捕捉序列中残基的全局关联性,从而更好地区分以上两种情况。此外,作者还发现,新模型还能够预测位于同源寡聚体界面的某些金属结合位点。这一案例表明,共进化信号可能存在于远距离残基对之间,而MetalNet2能够在不显式建模结构的情况下捕获并利用这些信息。考虑到以上模型并不给出金属结合类型的预测,作者还训练了一个多分类模型以解决此问题。在留出测试集上,模型的平均F1-score值为0.52,并在比如Fe4S4 (0.86),Fe2S2 (0.85) 和 Zn (0.74) 等特定金属类型的预测中表现出色。在Bak等人(Nat Chem Biol 19, 356–366 (2023))提供的铁硫簇数据集中,新模型在蛋白水平上的覆盖率约0.92,在残基水平上的覆盖率约0.88。作者进一步将MetalNet2拓展至包括人、斑马鱼、线虫和酵母在内的四种真核生物的金属蛋白组,预测得到了15645个金属结合蛋白,大约覆盖了UniProt对应物种中已注释蛋白的70%。所有预测的蛋白中,约68%能够通过序列比对找到结构证据支持或注释证据支持,而32%可能为潜在的、新的金属结合蛋白。例如,一个与细胞自噬密切相关的人源蛋白Beclin-1(UniProt ID:Q14457),目前并无相应的金属结合注释,而MetalNet2将其预测为锌离子结合蛋白,AF3结构也呈现出一个合适的配位环境。最后,作者开发了一个公开在线服务器(https://www.chem.pku.edu.cn/wangchulab/metalnet/)供研究人员使用。用户可提供长度不超过1023的单序列或者MSA文件作为输入。对于前者,服务器在后端将调用ColabFold提供的接口搜索MSA。通常几分钟后即可得到结果。在如图所示的预测结果界面中,左侧的表格展示了CHED共进化残基对被预测为具有金属结合残基对的概率,右侧的动态渲染图表则是由这些残基对形成的金属结合网络簇。网络簇作为一种过滤方式能够提供更高置信的预测;用户也可自行调整阈值以获得相应情形下的预测结果。对于MetalNet2预测的金属结合残基对,表格中还将给出对应的金属结合类型。此外,作者亦提供了数据收集、模型训练和分析的源代码
(https://github.com/wangchulab/MetalNet2)。本文的通讯作者是北京大学化学与分子工程学院、北大-清华生命科学联合中心的王初教授和王初课题组专职副研究员刘源博士。王初课题组化学学院2021级博士生研究生张丰同学为本工作的第一作者,王初课题组博士毕业生程瑶为本课题做出了重要贡献。北京大学化学与分子工程学院高毅勤教授和其课题组的薛博鑫博士为真核生物金属蛋白质组预测提供了重要数据支持。该工作得到了科技部国家重点研发计划和国家自然科学基金委等项目的经费支持。该工作也得到了北京大学AI4S专项的支持。
原文链接:
https://academic.oup.com/nsr/article/11/12/nwae391/7876495MetalNet2服务器链接:
https://www.chem.pku.edu.cn/wangchulab/metalnet/MetalNet2源代码链接:
https://github.com/wangchulab/MetalNet2
高颜值免费 SCI 在线绘图(点击图片直达)
最全植物基因组数据库IMP (点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习