专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  黄仁勋:扫过最多厕所的CEO ·  昨天  
天池大数据科研平台  ·  打破文本边界:如何进行多模态RAG评估 ·  2 天前  
CDA数据分析师  ·  【话题】知乎热帖:一个人为何会陷入社会底层? ·  6 天前  
开放知识图谱  ·  论文浅尝 | ... ·  5 天前  
开放知识图谱  ·  论文浅尝 | ... ·  5 天前  
51好读  ›  专栏  ›  数据派THU

准确、快速地从头预测RNA 3D结构,港中大、复旦等深度学习方法RhoFold+登Nature子刊

数据派THU  · 公众号  · 大数据  · 2024-12-19 17:00

正文

来源:ScienceAI

本文约2000字,建议阅读5分钟

提出本文介绍一种基于 RNA 语言模型的深度学习方法 RhoFold+。



RNA 分子在分子生物学中心法则中起关键作用,RNA 结构如何影响基因调控和功能一直是研究的热门话题。准确预测 RNA 三维 (3D) 结构仍是一个难题。RNA 的结构灵活性导致实验确定的数据稀缺,从而使计算预测工作变得复杂。


在此,香港中文大学、复旦大学、哈佛大学、智峪生科(Zelixir)等多机构团队合作,提出一种基于 RNA 语言模型的深度学习方法 RhoFold+,用于准确、快速地进行从头预测 RNA 三维结构。


通过集成在约 2370 万个 RNA 序列上预训练的 RNA 语言模型,并利用技术解决数据稀缺问题,RhoFold+ 为 RNA 3D 结构预测提供了完全自动化的端到端流程。


RhoFold+ 在单链 RNA 建模方面表现出很高的准确性,在 RNA 家族和类型之间具有出色的泛化能力,同时还能够捕捉螺旋间夹角(IHA)和二级结构等局部特征。


对 RNA-Puzzles 和 CASP15 天然 RNA 靶标的回顾性评估表明,RhoFold+ 优于包括人类专家组在内的现有方法。


相关研究以「Accurate RNA 3D structure prediction using a language model-based deep learning approach」为题,于 11 月 21 日发布在《Nature Methods》上。


论文链接:
https://www.nature.com/articles/s41592-024-02487-0


确定 RNA 3D 结构对于理解其功能,以及为 RNA 靶向药物开发和合成生物学设计提供信息至关重要。


RNA 分子的构象灵活性使得实验确定其 3D 结构具有挑战性。截至 2023 年 12 月,在蛋白质数据库(PDB)中约 214,000 个结构中,仅 RNA 结构占不到 1.0%,而含 RNA 复合物仅占 2.1%。


计算方法已经成为利用 RNA 序列数据进行 RNA 3D 结构预测的补充方法。主要分为两类:基于模板的建模,例如 ModeRNA 和 RNAbuilder,受模板库有限的限制;以及从头预测方法,包括 FARFAR2、3dRNA 和 SimRNA,这些方法更具预测性,但由于需要大规模采样,计算量很大。


用于 RNA 3D 结构预测的自动化端到端平台


RhoFold+ 用于准确、快速地从头预测 RNA 3D 结构。RhoFold+ 是其前身 RhoFold 的完全自动化和可区分的改进,利用改进的多序列比对(MSA)集成和其他功能来提高性能。研究的主要重点是确定与其他分子相互作用有限的单链 RNA 的结构。


RhoFold+ 的开发是由 RNA 特异性知识和现有 RNA 3D 结构数据的局限性指导的。


图示:RhoFold+ 的架构和用于性能评估的任务。(来源:论文)


为了构建训练数据集,研究人员使用 BGSU 代表性 RNA 结构集(版本 2022-04-13)从 PDB 中整理了所有可用的 RNA 3D 结构。研究专注于单链 RNA,并通过在 80% 序列相似性阈值下使用 Cd-hit 对序列进行聚类来减少冗余,从而从 5,583 条 RNA 链中产生 782 个独特的序列簇。


然后通过管道 RhoFold+ 处理这些 RNA 序列。首先,使用大型 RNA 语言模型 RNA-FM 对序列进行转换,以提取进化和结构上知情的嵌入。同时,通过搜索广泛的序列数据库生成 MSA。然后将嵌入和 MSA 特征输入到其 transformer 网络 Rhoformer 中,并迭代优化十个周期。


在此之后,结构模块采用了几何感知注意机制和不变点注意力 (IPA) 模块来优化 RNA 主链中关键原子的局部框架坐标和扭转角。在重建全原子坐标后,应用了结构约束,例如二级结构和碱基配对。


准确、快速地从头预测 RNA 三维结构


在开发 RhoFold+ 之后,研究人员通过广泛的测试严格地对其性能进行了基准测试和评估。包括 RNA-Puzzles 靶标和 CASP15 天然 RNA 靶标,以及所有可用的实验确定的 RNA 3D 结构。


图示:对 RhoFold+ 进行基准测试。(来源:论文)


RhoFold+ 在 CASP15 天然 RNA 靶标上显示出最佳结果,并在 RNA-Puzzles 结构中实现了低于 4 Å 的平均均方根位移。RhoFold+ 效率高,只需 0.14 秒即可生成准确的预测,无需耗时的采样或依赖专家知识。它可以很好地推广到不同的数据集,包括新确定的 RNA 3D 结构,并在交叉折叠、跨家族和跨类型验证实验中表现出色,突出了其稳健性和多功能性。


图示:RhoFold+ 根据实验数据准确预测二级结构和螺旋间角(IHA)。(来源:论文)


RhoFold+ 的成功并非源于模仿训练数据;对序列相似性和 MSA profiles 的严格测试证实了它学习底层结构原理的能力。此外,RhoFold+ 超越了训练数据中最好的单个模板,进一步凸显了它的能力。RhoFold+ 还可以预测 RNA 二级结构和螺旋间角(IHA),使其成为辅助实验设计的潜在有用工具。


未来方向


这些发现对更广泛的 RNA 研究领域具有重要意义,特别是在加速对 RNA 结构的识别和功能理解方面。RhoFold+  作为一种快速准确的 RNA 3D 结构预测方法,可能会增强基于 RNA 的药物设计、合成生物学应用以及科学家对 RNA 在细胞过程中的作用的理解。此外,为 RhoFold+ 开发的 RNA 语言模型可以独立应用,从而协助其他下游 RNA 应用 。


RhoFold+ 与深度学习方法有几个共同的局限性。它依赖于 MSA,而 MSA 通常不适用于人工设计或 orphan RNA,从而限制了它的准确性。此外,由于相关数据稀缺,RhoFold+ 难以预测大型复杂的 RNA 结构,尤其是具有多个螺旋或假结的 RNA 结构。由于许多 RNA 采用多种构象,该模型在准确捕捉 RNA 分子的动态特性方面也面临挑战。


此外,RhoFold+ 难以模拟涉及配体或蛋白质的复合物中的 RNA 相互作用,而这对于理解 RNA 在生物系统中的功能作用至关重要。


下一步,将整合探测数据、分子动力学和能量函数方法等,以提高 RhoFold+ 的准确性。此外,增强 MSA 提取过程并探索预测 RNA-蛋白质和 RNA-配体相互作用的方法将进一步增强其能力。


参考内容:
https://www.nature.com/articles/s41592-024-02488-z


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU