随着计算结构预测技术的发展,目前可用的蛋白质复合物结构数量将大幅增加。要从这些数据中提取有价值的发现,必须对蛋白质复合物进行比对,但这在计算上极具挑战性。
Foldseek-Multimer通过高效聚类超位移向量,识别兼容的链对比对,从而计算复合物比对
。该方法比当前金标准方法快3–4个数量级,同时比对质量相当,使其能够在11小时内比对数十亿个复合物对。Foldseek-Multimer是开源软件,可在GitHub获取,并可通过Foldseek搜索平台及BFMD数据库使用。
相关研究于2025年2月5日,以
Rapid and sensitive protein complex alignment with Foldseek-Multimer为题发表在N
ature Method上。
蛋白质复合物的相似性通常体现在其最佳结构比对上,而该比对决定了各个链的配对方式。比对和比较四级结构(quaternary structure)对于以下研究至关重要:
目前已有多种工具用于蛋白质结构比对,例如Foldseek和US-align,但它们在计算复杂性和灵敏度方面存在不足。因此,研究人员开发了Foldseek-Multimer,以提高蛋白质复合物比对的速度和准确性。
Foldseek是一种快速的结构比对工具,能够基于3Di(用于描述三级氨基酸相互作用的字母表)检测单链蛋白质的相似性。Foldseek可用于在大型数据库(如 AlphaFold数据库(AFDB))中搜索相似的单链结构。然而,由于比对蛋白质复合物需要正确确定各个链的配对方式,因此Foldseek不能直接用于复合物比对。
US-align是一种专用于蛋白质复合物比对的工具,采用TM-score最大化策略进行比对。然而,由于可能的链对配对方式呈阶乘增长,US-align采用贪心搜索启发式算法生成候选配对方案,并使用动态规划进行优化。虽然US-align比MM-align快5倍,但仍然计算开销较大,难以适应大规模数据库比对任务。
QSalign旨在检测同源复合物,通过序列相似性预筛选复合物对,从而减少计算量,仅保留序列身份高于25%的复合物对进行结构比对。然而,该方法牺牲了灵敏度,难以发现低序列相似性但具有结构相似性的复合物。
3D Zernike形状描述符方法则通过比较整体形状来比对复合物,避免了链对配对的问题。虽然该方法可以在不到1秒内查询数十万个结构,但它无法识别局部匹配的复合物,在灵敏度上不及US-align和QSalign。
为了解决上述挑战,研究人员开发了Foldseek-Multimer,其核心算法主要基于以下三点:
-
使用Foldseek进行快速链对比对,大幅减少计算开销;
-
利用超位移向量描述链对比对,并通过聚类算法进行复合物比对;
-
在数据库搜索时采用聚类数据库,以减少冗余计算并提升比对效率。
Foldseek-Multimer的关键优势包括:
研究人员在931对已知结构相似的蛋白质复合物上测试了Foldseek-Multimer与US-align的比对质量。结果显示: