专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
野球帝  ·  推荐一款帽子!秒杀价,25元起! ·  昨天  
苏群  ·  卢卡爽了,丢下欧文怎么办? ·  3 天前  
野球帝  ·  杜兰特,又哭了... ·  2 天前  
51好读  ›  专栏  ›  智药邦

密歇根大学提出InterLabelGO+模型,通过标签相关网络进行蛋白质功能预测

智药邦  · 公众号  ·  · 2025-01-20 08:00

正文

准确的蛋白质功能预测对于理解生物过程和推进生物医学研究至关重要。然而,蛋白质序列的快速增长远远超过了其功能的实验表征,需要开发自动化计算方法。现有的计算方法难以充分挖掘蛋白质功能多标签预测中的标签相关性。

2024年11月5日,美国密歇根大学Quancheng Liu等人在Bioinformatics上发表文章InterLabelGO+:unraveling label correlations in protein function prediction。

作者提出了 InterLabelGO+ ,这是一种混合方法, 将基于蛋白质语言模型的深度学习方法与基于比对的方法集成在一起,用于改进蛋白质功能预测 。InterLabelGO+结合了一个新的损失函数,使得神经网络充分挖掘蛋白质功能的标签相关性(label interaction),解决了标签依赖和不平衡问题,并通过基于比对的组件的动态加权进一步提高了性能。 实验证明了InterLabelGO+的性能超越了现有方法

如图1所示, InterLabelGO+包括两个部分,即神经网络InterLabelGO和比对模型AlignmentKNN ,其中,深度学习组件InterLabelGO首先将查询蛋白序列输入到蛋白质语言模型ESM2中,该模型从最后三个隐藏层生成序列嵌入矩阵,每层生成一个矩阵,其中L表示蛋白质序列长度。对每个残差对应的嵌入向量进行均值池化,得到每个隐藏层长度为2560的压缩嵌入向量。三个并行多层感知器(MLP)进一步处理这些表示嵌入的向量。每个MLP负责从其对应的层提取进化特征,从而得到一个3 × 2560的矩阵。这些聚合的进化数据随后被另一个MLP块连接和处理。该层的目的是将ESM2衍生的特征转换为GO( 蛋白质功能标签)项概率。在推理阶段,实现分层后处理方法,要求父项的概率至少等于子项的最大概率,并提高分配给所有非叶节点的概率,以使预测符合此约束。

图1 InterLabelGO+ 结构图

除了来自InterLabelGO的基于深度学习的预测, InterLabelGO+还结合了基于同源比对的功能预测,AlignmentKNN 。该方法使用DIAMOND对带注释的模板蛋白数据库搜索查询序列,并从归一化位分数和序列同一性中获得预测分数。 InterLabelGO+的最终预测是通过使用加权组合方法将基于深度学习的预测与基于同源的预测相结合而获得的。 这种基于同源性和深度学习预测的融合为蛋白质功能预测提供了最终输出。在使用GO注释进行蛋白质功能预测的背景下,作者采用复合损失函数来解决类不平衡的挑战并捕获标签依赖关系。复合损失函数由两个组成部分组成:基于F1分数的损失解释了类的不平衡;基于排名的损失捕获了标签依赖关系。
利用GO注释进行蛋白质功能预测的一个重大挑战是GO项之间的标签不平衡。这种不平衡,即某些项过度表示而其他项很少表示,可能导致标准损失函数(如二进制交叉熵BCE)的性能不理想,因为频率较低的项对整个损失函数的贡献不够。为了克服这一挑战,作者的方法结合了一个专门的F1损失函数,并通过信息增加(IA)权值进行了增强。IA权重优先考虑具有更高信息值的GO术语,旨在产生更多信息的预测。通过同时考虑精度和召回率,F1损失函数适用于标签不平衡的场景。IA权重的包含确保了该函数不仅保持了精度和召回率之间的平衡,而且强调了更多GO术语在模型学习过程中的重要性。
作者采用了两种F1损失的变体,这两种变体包括以蛋白质为中心的和以GO为中心的。对于以蛋白质为中心的F1损失,考虑其所有相关的GO项,计算批次中每个蛋白质的精度和召回值。相比之下,对于以GO为中心的F1损失,对批次中所有蛋白质的每个GO项计算精度和召回值。
蛋白质GO项预测问题可以被表述为一个分层多标签分类挑战。这里的独特挑战是GO术语层次结构的结构,它形成了一个巨大的相互连接的网络,组织为三个有向无环图(DAG),用于GO的三个方面(生物过程BP,细胞组件CC,分子功能MF)。这种结构表明,一个GO项的预测可能受到其他项的影响。在多标签分类中,模型的复杂性增加,因为不仅特征和目标类别之间存在依赖关系,而且类别本身之间也可能存在依赖关系。传统方法通常利用BCE损失,在将每个GO项视为独立的二元分类问题时,往往忽略了标签之间的相互依赖性。为了更好地解决GO项的这些分层和相互依赖问题,作者采用了零界对数成对排序(ZLPR)损失。
ZLPR损失函数通过利用GO项联合分布中的信息,有效地捕获了GO项之间的依赖关系。该公式使用对数似然函数和成对排序原则来区分正负类别。通过最小化ZLPR损失,该模型旨在有效地将正类别排在负类别之上。这种方法使模型能够在训练过程中考虑GO项之间的关系,而不是将每个GO项视为一个独立的二值分类问题。因此,它捕获了标签之间复杂的相关性和依赖性,这对于在多标签分类背景下准确预测GO术语至关重要。
为了综合各个损失分量的优势,将最终的损失函数表述为以蛋白质为中心计算的F1损失、以GO项为中心的角度评估的F1损失以及ZLPR损失的乘积组合。这种复合方法确保模型在训练期间最佳地平衡这些不同方面,从而提高预测精度。
基于同源性的功能转移是预测蛋白质功能的基础和广泛应用的方法。这种方法的前提是具有相似序列的蛋白质通常表现出相似的功能。在AlignmentKNN框架内,使用Diamond在带注释的模板蛋白数据库中搜索查询蛋白的序列。预测分数由归一化的位分数和序列变换得到。 在此基础上,InterLabelGO+是AlignmentKNN和InterLabelGO的加权组合。 这种方法不同于其他方法,其中许多方法依赖于不能捕获分数之间复杂关系的线性组合,特别是在相似蛋白质数量有限的情况下。InterLabelGO+采用平均顶序列恒等式进行动态加权。
作者将InterLabelGO+与一些具有代表性的方法进行了比较,将对测试集的每一个蛋白质上不同标签预测的加权平均wFmax作为对比指标,如图2所示。将InterLabelGO作为参考方法(rf),对比其他方法与参考方法的预测差异是否显著,其中两个“*”表示显著(p<0.01),三个则表示非常显著(p<0.001)。结果表明, InterLabelGO+在三个数据集(生物过程BP,细胞组件CC,分子功能MF)上超越了现有方法。

图1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。如图3所示,作者对比了使用蛋白质语言模型ESM2和使用CNN对蛋白质建模后,对模型性能的影响,结果说明了蛋白质语言模型的优越性。

图2 消融实验

作者还进行了案例分析。为了证明InterLabelGO+的优势,作者对斑马鱼谷氨酸受体相互作用蛋白2异构体X3 (UniProt ID:A0A8M6Z252)做了研究。图3显示了蛋白A0A8M6Z252的GO术语DAG,括号中为InterLabelGO+计算的IA权值。下面列出了正确预测每个术语的方法。 对于A0A8M6Z252, AlignmentKNN命中但产生许多假阳性预测,InterLabelGO+展示了InterLabelGO和AlignmentKNN的互补性 。这种组合有效地过滤掉了AlignmentKNN中的大多数假阳性,同时结合了InterLabelGO遗漏的真阳性,进一步提高了整体性能。
对蛋白A0A8M6Z252的进一步分析(图3)揭示了InterLabelGO+的特殊优势。该模型通过其复合损失函数捕获标签依赖关系并解决标签不平衡问题的能力提高了预测精度,特别是对于高IA项。例如,InterLabelGO+正确预测了GO: 0000003(生殖,IA = 3.39)和GO: 0048870(细胞运动,IA = 4.29)等术语,而其他几种方法都遗漏了这些术语。此外,在InterLabelGO+中集成AlignmentKNN可以成功预测像GO: 0071840和GO: 0016043这样的术语,这是单独的InterLabelGO无法预测的,突出了将深度学习和基于比对的方法结合起来的好处。

图2 案例分析

在这项研究中, 作者提出了InterLabelGO+,结合深度学习和比对方法,仅从序列信息就能准确预测蛋白质功能。






请到「今天看啥」查看全文