自从大语言模型问世以来,各种新的应用层出不穷。英语里有句俗语说,当你握着个锤子的时候,看什么都像是钉子。而研究人员现在手握强大的语言模型,看什么都像是“语言”,比如化学式、DNA 序列等等。现在,蛋白质序列也加入了“语言”的行列。
最近,来自复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法。PLMSearch 从预先训练的蛋白质语言模型中获取深层蛋白质表示,并基于大量真实的结构相似度训练相似度预测模型。这使得 PLMSearch 能够捕获隐藏在序列背后的远同源信息。它能够在短短几秒内迅速检索数百万个查询目标蛋白质对。与传统方法相比,其灵敏度更是提升了三倍之多,足以与当今最尖端的结构搜索技术相抗衡。值得一提的是,与传统的序列搜索方法大相径庭,PLMSearch 能够精准地识别并召回那些序列差异显著但结构高度相似的远程同源对,从而展现出其独特的优势。
研究成果以 “
PLMSearch: Protein language model powers accurate and fast sequence search for remote homology
”为题发表于《自然·通讯》:
同源蛋白质搜索是生物信息学方法的关键组成部分,常被用于蛋白质功能预测、蛋白质-蛋白质相互作用预测和蛋白质-表型关联预测等任务中。同源蛋白搜索的目标是,对于每个查询蛋白,需要从目标数据集(通常是像 Swiss-Prot 这样的大规模标准数据集)中找到同源蛋白。同源概率较高的目标蛋白应该排名靠前。这种搜索可以是基于序列的,也可以是基于结构的。
序列搜索方法(如 MMseqs2、BLASTp、Diamond)因序列数据成本较低而得到广泛应用,但在检测远同源关系方面存在局限性。而隐马尔可夫模型(如 HMMER、HHsearch、HHblits)在序列一致性较低(<0.3)时表现更好。
对于高度分歧的序列,通过三维叠加得到的结构相似性提供了更高的灵敏度。结构方法包括基于接触图/距离图的(如 Map_align、EigenTHREADER)、基于结构字母表的(如 3D-BLAST-SW、Foldseek)和基于结构比对的(如 CE、Dali、TM-align)。虽然这些方法功能强大,但它们还需要生化实验确定的蛋白结构或是成本更低的结构预测模型(如 AlphaFold2)的辅助。这在涉及大量新序列的场景中尤其费时费力,例如宏基因组序列 、蛋白质工程生成的序列和抗体变体序列。
基于数亿蛋白序列预训练的蛋白质语言模型(如 ESM、ProtTrans)显示了强大的性能,并应用于域分类(如 ProtENN)、检测 CATH 超家族的远同源物(如 CATHe)、注释转移(如 EAT)以及成对序列比对(如 DEDAL、DeepBLAST、pLM-BLAST)。
尽管语言模型在远程同源性检测方面具有优势,但之前它们在大规模序列搜索中的潜力尚未得到充分利用。
蛋白质语言模型(如 ESM 和 ProtTrans)在数亿条未标记序列上进行预训练,擅长处理与结构相关的任务。为了提升序列搜索的精准度,同时保持其易用性和效率,作者开发了 PLMSearch。
其工作流程主要包括三个核心环节。首先,利用 PfamClan 工具,就能够精准筛选出共享相同 Pfam Clan 结构域的蛋白质对。同时 SS-predictor(结构相似性预测器)发挥着至关重要的作用,它凭借蛋白质语言模型生成的深度嵌入信息,能够精准预测查询与目标蛋白质对之间的相似性。值得一提的是,PLMSearch 的灵敏性得益于蛋白质语言模型对远程同源信息的深度捕捉。此外,SS-predictor 的训练过程是以结构相似性(TM-score)为依据,从而确保了 PLMSearch 在没有结构输入时仍能提供可靠的相似性预测。PLMSearch 还会基于预测的相似性对 PfamClan 筛选出的蛋白质对进行排序,并针对每个查询蛋白质输出相应的搜索结果。随后,PLMAlign 工具会为 PLMSearch 检索到的排名靠前的蛋白质对提供精确的序列比对及比对得分,从而帮助研究者更深入地了解蛋白质间的相互作用与关联。
经过对 SS-predictor、PLMsearch、PLMsearch + PLMAlign 及其他多种搜索方法在 SCOPe40-test 和 Swiss-Prot 数据集上的全面评估,结果显示,PLMsearch 在多数指标上表现优异,特别是在超家族和折叠层次,这些层次的序列相似性较低。PLMsearch 在家族、超家族和折叠水平的 AUROC 上显著超越 MMseqs2。这证明了 PLMsearch 在蛋白质序列搜索中的高效性和准确性。
团队首先在 SCOPe40-test 数据集上进行了全对全搜索测试,详尽地比较了不同方法的总搜索时间,涉及了 2207 个蛋白质以及 4,870,849 个查询-目标对。
通过使用 SS-predictor 预测相似性,而非传统的计算所有蛋白质对结构相似性(TM-score)的方法,SS-predictor 和 PLMsearch 展现出了惊人的效率,仅需 10 秒和 4 秒即可完成搜索,这比 TM-align 所需的 11,303 秒快了四个数量级以上。
面向 Swiss-Prot(568K 个蛋白质)和 UniRef50(53.6M 个蛋白质)这两个目标数据集进行搜索 ,并使用 PLMAlign 将查询蛋白与 Top-10 目标蛋白进行比对分别需要约 0.15 分钟和 1.1 分钟。值得一提的是,在 Swiss-Prot 数据集上进行查询搜索时,PLMAlign 占据了总时间的 80% 以上(约 0.12 分钟),而PLMsearch 却仅需约 0.03 分钟,这主要归功于其提前生成并预加载了所有目标蛋白质的嵌入信息。
远程同源对指的是那些序列差异显著但结构高度相似的同源蛋白对。这类蛋白对由于其低序列相似性,使得传统的基于序列比对的方法难以有效检测其同源性。然而,基于结构的搜索方法(如 Foldseek、Foldseek-TM 和 TM-align)则能够识别它们。
这里作者把序列和结构相似度均较高的蛋白对定义为“易检测对”,而序列差异大但结构相似的蛋白对为“远程同源对”。相比易检测对,远程同源对的检测更具挑战性。尽管传统方法如 MMseqs2 和 Blastp 能完全召回易检测对,但在远程同源对的检测上表现不佳。而 SS-predictor 和 PLMSearch 则凭借蛋白质语言模型的优势,展现出卓越性能,成功识别出大部分远程同源对,其召回率甚至超过直接使用结构数据的 Foldseek 方法。
团队首先在 SCOPe40-test 数据集上进行了全对全搜索测试,详尽地比较了不同方法的总搜索时间,涉及了 2207 个蛋白质以及 4,870,849 个查询-目标对。
通过使用 SS-predictor 预测相似性,而非传统的计算所有蛋白质对结构相似性(TM-score)的方法,SS-predictor 和 PLMsearch 展现出了惊人的效率,仅需 10 秒和 4 秒即可完成搜索,这比 TM-align 所需的 11,303 秒快了四个数量级以上。