专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  大数据能力提升项目|学生成果展系列之一 ·  2 天前  
天池大数据科研平台  ·  附获奖名单|巅峰时刻,「第6届天池全球数据库 ... ·  14 小时前  
艺恩数据  ·  【艺恩报告】2024年度十大热梗营销回顾 ·  3 天前  
天池大数据科研平台  ·  《Data-juicer系列学习赛》高能开启 ... ·  3 天前  
数据派THU  ·  独家|利用Python创建令人惊艳的可视化效果 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

跨物种纳米抗体虚拟筛选,清华集成深度学习和蛋白质语言模型,登Nature子刊

数据派THU  · 公众号  · 大数据  · 2024-12-27 17:00

正文


来源:ScienceAi

本文约1700字,建议阅读5分钟

清华大学的研究团队提出了一个基于集成深度学习的框架 DeepNano-seq,用于从纯序列信息中预测包含 NAI 的一般蛋白质-蛋白质相互作用 (PPI)。



纳米抗体可以与多种抗原特异性结合,近年来在治疗和检测方面具有广阔的应用前景。传统的基于羊驼免疫和噬菌体展示的纳米抗体发现技术非常耗时且耗力。


虽然纳米抗体研究最近取得了进展,但开发快速准确的计算工具来预测纳米抗体-抗原相互作用 (NAI) 仍是当务之急。


清华大学的研究团队提出了一个基于集成深度学习的框架 DeepNano-seq,用于从纯序列信息中预测包含 NAI 的一般蛋白质-蛋白质相互作用 (PPI)。


此外,团队从公共数据库中整理 NAI 数据,用于专门的 NAI 建模;然后,他们通过基于提示的方法将模型的注意力引导到抗原结合位点,呈现出了最终的 DeepNano。


DeepNano-seq 在现有 PPI 算法中具有最好的跨物种泛化能力。同时,DeepNano 在 NAI 预测和纳米抗体虚拟筛选方面表现优异。


该研究以「Nanobody–antigen interaction prediction with ensemble deep learning and prompt-based protein language models」为题,于 2024 年 12 月 5 日发布在《Nature Machine Intelligence》。



纳米抗体是源自骆驼科动物重链抗体可变区的蛋白片段,具有分子量小、免疫原性低、组织渗透性强的特点,近年来广泛应用于检测和治疗领域。


纳米抗体与抗原之间的相互作用是免疫机制研究和纳米抗体设计的重要环节,但现有算法主要关注结构预测、活性评估和表位预测,少有针对 NAI 的深度学习方法。传统 NAI 预测多依赖精确的结构信息,限制了高通量筛选的应用,亟需基于序列的高效预测方法。


基于序列的 PPI 预测方法取得了跨物种的良好表现,理论上可用于 NAI 预测,但免疫 PPIs 与非免疫 PPIs 的模式差异可能影响其泛化性能。


现有研究多直接使用预训练的蛋白嵌入作为特征,忽略了结合位点的重要性。通过引入结合位点信息和改进语言模型的应用,有望提升基于序列的 NAI 预测性能,加速纳米抗体的开发。


DeepNano


为了克服上述限制,清华大学的研究人员提出了一个名为 DeepNano-seq 的集成深度学习框架,它既可以应用于一般的 PPI 预测,也可以应用于 NAI 预测。


图示:DeepNano-seq 和 DeepNano 概述。(来源:论文)


DeepNano-seq 使用蛋白质语言模型 ESM-2 从氨基酸序列中提取特征。使用三种不同的池化策略(最小池化、平均池化和最大池化)来获得抗原和纳米抗体的维度相同的表示。它在三种池化策略得到的特征基础上,采用三个独立的分支来预测交互得分,最终得分为三个分支预测的平均值。


由于纳米抗体的分子量很小(~15 kDa),其抗原结合区域自然远小于其全长,尤其是那些大分子抗原。可以推测,如果模型能够获知抗原全长序列上直接影响相互作用的特定位点,可能会获得更稳健的预测性能。


受此想法的启发,研究人员设计了一个流程,并实施了 DeepNano-site 模型,从纯抗原和纳米抗体序列中预测抗原结合位点。估计的抗原结合位点经过表征并整合到 DeepNano-seq 中,从而增强了 DeepNano-seq 对抗原结合界面的关注。


接着,研究人员提出了一个基于提示的模型 DeepNano,用于 NAI 预测。DeepNano 使用其组件 DeepNano-site 从纯序列信息中预测抗原结合位点,并使用估计的抗原结合位点作为提示来强化输入序列中抗原结合界面的重要性。


评估与讨论


图示:将提出的 DeepNano-seq 方法与现有的 PPI 算法进行比较。(来源:论文)


在一般的 PPI 预测问题中,DeepNano-seq 以人类 PPI 为样本进行训练,并在小鼠、苍蝇、蠕虫、酵母和大肠杆菌等 5 个物种中进行了测试。


与最先进的 PPI 方法 D-SCRIPT 和 Topsy-Turvy 相比,DeepNano-seq 在所有 5 个测试物种中都表现出了显著的改进。研究团队通过消融研究进一步验证了 DeepNano-seq 的集成深度学习结构对泛化能力的贡献。


在 NAI 预测问题中,所有在人类 PPI 上训练的 PPI 模型都表现不佳。这种差异可能归因于 NAI 和 PPI 在模式和数据层面上的区别。因此,研究人员在收集的 NAI 数据上重新训练了上述 PPI 模型。与在人类 PPI 上训练的版本相比,在 NAI 上训练的 DeepNano-seq 版本在 NAI 预测方面表现出了更优的性能。


图示:专用 NAI 预测模型的构建。(来源:论文)


最终研究人员训练了 DeepNano,它在 DeepNano-seq 的基础上增加了两个模块:抗原结合位点预测模块 DeepNano-site 和提示编码模块。通过强调输入序列中抗原结合界面的重要性,DeepNano 与 DeepNano-seq 和现有方法相比,表现出了更优异的 NAI 预测性能。


图示:DeepNano-seq 和 DeepNano 在四个 ESM-2 模型尺度上的预测性能。(来源:论文)


局限性与未来


尽管目前已有流程,但未来工作中仍有几个局限性需要改进。第一个局限性是 NAI 的数据太少,尤其是纳米抗体突变体与抗原的相互作用。为了确保数据驱动模型对未见抗原和纳米抗体突变体均表现出良好的预测性能,最有效的方法仍然是从生物实验中产生更多数据。


它有利于数据驱动模型的训练,也有利于建立公平可靠的算法评估基准。另一个限制是本研究中的所有实验都是在计算机上进行的,缺乏生物测试的应用。研究人员表示,接下来他们会将 DeepNano 应用于纳米抗体的发现,并探索针对抗肿瘤靶点的 AI 辅助纳米抗体开发。


论文链接:
https://www.nature.com/articles/s42256-024-00940-5


编辑:于腾凯
校对:梁锦程



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU