Graph与LLM对齐专题
|| ProtST:蛋白质序列和生物医学文本的多模态学习, ICML 2023
基本信息
题目
:ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts
作者
:Minghao Xu, Xinyu Yuan, Santiago Miret, Jian Tang
英语题目
:ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts
论文链接
:Proceedings of the 40th International Conference on Machine Learning, https://proceedings.mlr.press/v202/xu23t.html
代码链接
:GitHub Repository, https://github.com/DeepGraphLearning/ProtST
论文内容
研究背景
蛋白质语言模型(PLMs)主要基于蛋白质序列来学习蛋白质表示,能够很好地捕捉协同进化信息,但它们无法明确获取蛋白质功能,而获取蛋白质功能是蛋白质表示学习的最终目标。对于许多蛋白质而言,它们的文本属性描述是可用的,其中也描述了它们的各种功能。基于这一事实,
作者构建了ProtDescribe数据集,以增加蛋白质序列的功能和其他重要属性的文本描述
。基于这个数据集,作者提出了ProtST框架来增强蛋白质序列的预训练和生物医学文本的理解。
研究方法
作者提出了ProtST框架,
ProtST框架处理蛋白质序列和生物医学文本的方法主要包括以下几个步骤:
多模态预训练
:ProtST框架首先对蛋白质序列和生物医学文本进行多模态预训练。给定ProtDescribe数据集,训练蛋白质语言模型(PLM)以及生物医学语言模型(BLM)和融合模块来对成对的蛋白质序列和文本描述进行建模。在这个过程中,作者设计了三种预训练任务:单模态掩码预测、多模态表示对齐和多模态掩码预测,以捕获具有不同粒度的蛋白质属性信息,并保留PLM的原始表示能力。
单模态掩码预测
:为了保持PLM在捕捉协同进化信息方面的能力,作者采用了掩码蛋白建模(MPM)任务,即基于蛋白质序列上下文预测被掩码的残基。这个任务可以通过模型残基类型依赖性来捕获协同进化信息。
多模态表示对齐
:通过对比学习的方式,将蛋白质序列表示与其对应的文本描述表示进行对齐,从而将蛋白质属性信息注入到序列表示中。给定一批蛋白质{Pi = (Si, Ti)},使用PLM提取蛋白质序列表示{zS i },使用BLM提取文本描述表示{zT i },然后通过InfoNCE损失函数来最大化序列和文本之间的表示相似性,同时最小化负样本对之间的相似性。
多模态掩码预测
:为了捕捉蛋白质序列中的残基和文本描述中的单词之间的细粒度跨模态相互依赖性,
提出了一个新的预训练任务,鼓励模型基于两种模态的信息恢复被损坏的蛋白质序列(或文本描述)
。
融合模块
:融合模块从蛋白质序列和文本描述的单模态表示中提取多模态表示。每个融合层接收一系列残基表示和一系列单词表示,并通过对所有残基和所有单词的注意力机制更新每个残基/单词表示。
下游应用
:预训练完成后,PLM可以单独用于下游任务的监督学习,也可以基于对齐的表示空间进行零样本预测,包括零样本蛋白质分类和基于文本描述的大规模数据库中的功能蛋白质检索。
通过这种方法,ProtST框架能够有效地结合蛋白质序列和生物医学文本的信息,以增强蛋白质序列的预训练和理解。
主要发现
作者验证了ProtST诱导的PLM在多样化表示学习基准上优于以前的PLM。在零样本设置下,作者展示了ProtST在零样本蛋白质分类上的有效性,并且ProtST还可以在没有任何功能注释的情况下从大型数据库中检索功能蛋白质。这表明ProtST预训练通常对不同的PLM有益,提高了它们在不同下游任务上的性能。
该专题已经介绍了两篇相关的论文
MoMu
和
MoleculeSTM
,那么ProtST和之前的工作有什么不一样呢?下面来对比分析一下
ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts
关注点
:专注于蛋白质序列和生物医学文本的多模态学习,通过结合蛋白质序列和文本描述来增强蛋白质表示学习。
方法
:提出了一个框架,设计了单模态掩码预测、多模态表示对齐和多模态掩码预测三种任务,以增强蛋白质性质信息的PLM,并保持PLM的原始表示能力。
应用
:支持监督学习和零样本预测,验证了在多样化表示学习基准上的优越性,并展示了
在零样本蛋白质分类和大规模数据库中功能蛋白质检索的有效性