专栏名称: BioArt

BioArt致力于分享生命科学领域科研学术背后鲜为人知的故事，及时报道和评论生命科学领域有料的动态，BioArt也是一个生命科学领域“百花齐放，百家争鸣”的舞台，循“自由之思想”与“独立之精神”为往圣继绝学。

Mol Cell | Predictomes——由AlphaFold建模的蛋白质互作数据库

BioArt · 公众号 · 生物 · 2025-03-18 00:01

正文

撰文 | 敏一

在结构生物学与系统生物学领域，全面解析蛋白质相互作用（protein-protein interactions， PPIs ）的分子机制是理解生命过程的核心挑战。稳定的蛋白质相互作用参与形成大的细胞结构（如核孔）和稳定的分子机器（如RNA聚合酶），而瞬时相互作用则涉及从信号传导到DNA复制的动态过程。人类基因组编码约20,000种蛋白质，理论上可形成约4亿种二元组合，但目前估计具有功能的PPIs约150万对，其中只有50,000对（3%）已被鉴定，约9,000对（0.5%）已实现了结构解析。 AlphaFold-Multimer （ AF-M ）作为深度学习驱动的蛋白质复合体预测工具，为大规模PPIs预测带来了革命性突破。然而，现有AF-M的置信度指标（如avg_models、ipTM和pDockQ等）在大规模筛选中难以区分真实相互作用与假阳性的预测互作，极大限制了其在生物学发现中的应用。

近日，来自哈佛医学院的 Johannes C. Walter 教授和其博士生 Ernst W. Schmid 在 Molecular Cell 杂志发表了题为 Predictomes, a classifier-curated database of AlphaFold-modeled protein-protein interactions 的研究论文。研究人员开发了一种基于机器学习的分类器SPOC （structure prediction and omics-informed classifier），能够高效筛选AF-M预测的高置信度PPIs，并构建了包含约300个人类基因组维护（genome maintenance，GM）蛋白之间的40,000个预测互作对的数据库predictomes.org。研究成果为大规模结构互作组研究提供了全新工具，报道了一个用户友好的大规模结构预测网站，驱动了GM研究领域的假说构建。

通过构建包含30个已知蛋白质复合体的测试集（复合体未被蛋白质数据库PDB收录，非AF-M训练数据），对于每一个已知蛋白对而言，蛋白对其中一个为“诱饵”，另一个则被投入1000个随机“猎物”蛋白质库中，并与“诱饵”蛋白进行随机配对并进行“排名实验”，理论上绝大多数为假互作。研究发现即便是表现最好的传统指标avg_models，在全蛋白组范围内区分真实互作时表现仍然欠佳，例如，即使使用avg_models，真实互作仍与100-200对假互作混杂。

为解决这一问题，研究人员通过整合多维度数据开发了SPOC分类器。通过使用精心筛选的真实互作和假互作数据集并采用随机森林机器学习模型来训练和评估SPOC。SPOC考虑了预测PPIs互作界面的结构和生物学特征，包括AF-M指标（PAE、pLDDT和avg_models分数）以及界面的其他可测量属性，如互作残基之间的盐桥和氢键数量。研究人员随后测试了SPOC在真实世界对PPIs预测的排名表现，发现SPOC表现远超先前模型如avg_models和Structural classifier，并能将真实互作蛋白从1000个随机互作蛋白库中以最高排名筛选出来，证实了其优越的真实互作预测能力。随后研究人员将SPOC应用于GM生物通路上的286个核心蛋白质的互作预测，并将得分0.33作为SPOC的筛选阈值，共预测1151对高置信互作，其中625对（54.3%）在STRING数据库中表现强关联，STRING数据库中未强关联但在SPOC中得分较高的多对PPIs （如MMS22L-RPA2和USP37-CDC45）均有多个证据证明其存在真实互作。这些数据证实了SPOC在发现新PPIs的强大潜力。

为了方便其他研究者对于GM通路上的蛋白互作的使用和交互，团队构建了用户友好的在线数据库predictomes.org，可以将PPIs按SPOC评分或其他指标进行排序，并查看预测的蛋白互作结构；如果某蛋白对的实验结构已经存在，则会出现PDB的条目，并且可以和AF-M的预测结构进行叠加；信息页面还包含通用蛋白质资源数据库（UniProt）条目信息、残基水平的进化保守性、预测的残基接触情况、交互式PAE和pLDDT图，以及来自STRING和BioGRID数据库的关于潜在关联的数据。这些功能使得用户能够快速可视化、排序和筛选数千个结构预测结果。

最后，研究人员利用SPOC筛选后的高置信互作信息用于提出可供验证的新假说和新机制，并以DNA复制过程的蛋白质动态互作为例。例如，AF-M以高置信度（SPOC=0.947）预测DNA聚合酶δ （Pol δ）的POLD3亚基通过延伸DNA聚合酶α （Pol α）的POLA1亚基上的β折叠并与之结合，同时与RFC1形成三元复合物。 AI预测的结果提示着新的机制：在DNA复制过程中，当Pol α合成新引物时，RFC与Pol δ可能已预结合于Pol α，形成“Pol δ-Pol α-RFC”三元复合物。这种装配模式支持引物从Pol α无缝转移至RFC，并加载PCNA，再由Pol δ进行引物延伸。研究人员进一步举例了应用AI预测数据提出假说解释了Pol ε在复制体中的空间定位。

https://ars.els-cdn.com/content/image/1-s2.0-S1097276525001054-fx1_lrg.jpg

综上，文章介绍了SPOC的开发及其在蛋白质结构预测和相互作用分析中的应用。SPOC 能有效区分AF-M预测的真假互作，在蛋白质组范围的筛选中表现出色。尽管存在一些局限性（如会预测出在体外可互作但生理过程无关的“生物物理互作”），但SPOC仍然是评估并筛选AF-M预测的PPIs、并推动机制发现的有力工具。此外，predictomes.org提供的数据和SPOC工具促进了对蛋白质相互作用的预测、分类和机制发现。利用高置信度预测的结构数据，系统生成、整合组织并精准分类核心生物通路（最终扩展至全蛋白质组层面），有望在生命科学领域开启机制解析的新纪元。

原文链接：

https://www.sciencedirect.com/science/article/pii/S1097276525001054

制版人：十一

学术合作组织

（*排名不分先后）

战略合作伙伴

（*排名不分先后）

Mol Cell | Predictomes——由AlphaFold建模的蛋白质互作数据库

正文

请到「今天看啥」查看全文