专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Nat ... ·  5 天前  
生信菜鸟团  ·  你掌握了Python的3大数据处理和3大绘图 ... ·  6 天前  
生物探索  ·  Nature Medicine | ... ·  1 周前  
生物学霸  ·  大科学计划概述:人类基因组计划 ·  5 天前  
BioArt  ·  Nat Metab | ... ·  6 天前  
51好读  ›  专栏  ›  生信菜鸟团

使用基于语言模型的深度学习方法进行准确的 RNA 三维结构预测 | Nat.Methods

生信菜鸟团  · 公众号  · 生物  · 2025-01-09 13:29

正文

Basic Information

  • 英文标题: Accurate RNA 3D structure prediction using a language model-based deep learning approach
  • 中文标题:使用基于语言模型的深度学习方法进行准确的 RNA 三维结构预测
  • 发表日期:21 November 2024
  • 文章类型:Article
  • 所属期刊:Nature Methods
  • 文章作者:Tao Shen | Yu Li
  • 文章链接:https://www.nature.com/articles/s41592-024-02487-0

Abstract

Para_01
  1. 准确预测RNA三维(3D)结构仍然是一个未解决的挑战。
  2. 确定RNA的3D结构对于理解其功能以及指导针对RNA的药物开发和合成生物学设计至关重要。
  3. RNA的结构灵活性导致实验确定的数据稀缺,这使得计算预测工作复杂化。
  4. 在这里,我们介绍了RhoFold+,这是一种基于RNA语言模型的深度学习方法,能够从序列中准确预测单链RNA的3D结构。
  5. 通过整合在约2370万个RNA序列上预训练的RNA语言模型,并利用解决数据稀缺性的技术,RhoFold+提供了RNA 3D结构预测的完全自动化的端到端流程。
  6. 对RNA-Puzzles和CASP15天然RNA目标的回顾性评估证明了RhoFold+优于现有方法,包括人类专家团队。
  7. 其有效性和通用性还通过跨家族和跨类型评估以及时间限制基准进一步验证。
  8. 此外,RhoFold+还预测RNA二级结构和螺旋间角度,提供可实证验证的特征,拓宽了其在RNA结构和功能研究中的应用。

Main

Para_01
  1. RNA 分子在分子生物学的中心法则中占据关键角色。
  2. RNA 结构如何影响基因调控和功能一直是研究的热点。
  3. 专注于 RNA 靶向的研究表明,RNA 可以成为药物开发的重要、可药用靶点,并且是合成生物学设计中的有用元素。
  4. 超过 85% 的人类基因组被转录,但只有 3% 编码蛋白质,这突显了具有未知功能和结构的转录 RNA 占很大比例。
  5. 在许多情况下,获得高分辨率的结构信息可以对感兴趣的 RNA 分子有一个更具预测性的理解。
Para_02
  1. RNA 分子的构象灵活性使得其三维(3D)结构的实验测定具有挑战性。
  2. 截至 2023 年 12 月,仅包含 RNA 的结构占蛋白质数据库(PDB)中约 214,000 个结构的不到 1.0%,而含有 RNA 的复合物仅占 2.1%。
  3. 尽管 X 射线晶体学、核磁共振光谱和低温电子显微镜技术取得了进展,但这些低通量技术因特殊要求而受到限制。
  4. 计算方法作为 RNA 3D 结构预测的补充方法已经出现,利用了 RNA 序列数据。
  5. 这些方法主要分为两类:基于模板的建模,如 ModeRNA 和 RNAbuilder,这些方法受制于有限的模板库;以及从头预测方法,包括 FARFAR2、3dRNA 和 SimRNA,这些方法更具预测性,但由于大规模采样需求而计算密集。
Para_03
  1. 一种正交的从头预测方法是利用深度学习,该方法已成功应用于各种生物学问题。
  2. 这些应用包括预测蛋白质3D结构、RNA二级结构以及对其他方法生成的RNA结构进行评分。
  3. 先前的RNA 3D结构预测方法集中在基于模板或基于能量的采样技术上,这些技术受到可用RNA 3D结构数据稀缺性的限制。
  4. 尽管数据稀缺,但AlphaFold2在蛋白质结构预测方面的成功促进了从头深度学习方法在RNA 3D结构预测中的发展。
  5. 这些从头方法通常从单个输入序列开始,然后从中构建多个序列比对(MSAs),随后用于构建3D结构。
Para_04
  1. MSA已被证明可以为蛋白质建模提供额外的有用信息,这一点对RNA可能同样适用。
  2. 例如,DeepFoldRNA和trRosettaRNA利用变压器网络(如RNAformer)将构建的MSA和预测的二级结构转化为各种一维(1D)和二维(2D)距离、方向和扭转角。
  3. 这些预测的几何形状随后被用作约束,通过能量最小化来预测RNA 3D结构,将采样和评分过程整合到它们的框架中。
  4. 包括E2Efold-3D和RoseTTAFoldNA在内的几种模型采用了完全可微分的端到端管道,直接使用构建的MSA和二级结构约束预测全原子3D模型。
  5. AlphaFold3(继AlphaFold2之后),也能够直接从输入序列预测RNA 3D结构,同时仍然依赖于其构建的MSA进行预测过程。
  6. 与其它方法不同,AlphaFold3采用基于扩散的过程来预测原始原子坐标,取代了AlphaFold2结构模块中基于氨基酸特定框架和侧链扭转角的操作。
  7. 虽然这些基于MSA的方法能够准确地预测RNA 3D结构,但它们需要在大型序列数据库中进行广泛的搜索,这可能耗时较长。
  8. 相比之下,基于单序列的模型,包括DRFold,不使用MSA,因此不需要在大型序列数据库中进行广泛的搜索。
  9. 相反,DRFold仅依赖于预测的二级结构来进行3D结构预测。
  10. 这种方法更快,但通常比基于MSA的方法准确性较低。
  11. 下一代深度学习方法可能会更好地利用基于MSA的方法,以提高速度和准确性。
Para_05
  1. 这里我们介绍了一种基于语言模型的深度学习方法,RhoFold+,用于准确且快速地从头预测RNA的3D结构。
  2. RhoFold+代表了对其前身RhoFold的全自动和可微分改进,通过改进MSA和其他特征的集成来提高性能。
  3. 我们的主要关注点是确定单链RNA的结构,这些RNA与其他分子的相互作用有限。
  4. 解决这一挑战可以帮助我们更好地理解RNA生物学,并为解决更复杂的结构问题提供起点。

Results

Automated end-to-end platform for RNA 3D structure prediction

RNA 3D结构预测的自动化端到端平台

Para_01
  1. RhoFold+ 的开发受到了 RNA 特定知识和现有 RNA 三维结构数据限制的指导。
  2. 为了构建我们的训练数据集,我们从 PDB 中整理了所有可用的 RNA 三维结构,使用了 BGSU 代表性的 RNA 结构集合(2022-04-13 版本)。
  3. 我们专注于单链 RNA,并通过使用 Cd-hit 在 80% 序列相似性阈值下聚类序列来减少冗余,最终从 5,583 条 RNA 链中获得了 782 个独特的序列簇。
  4. 这些 RNA 序列随后通过我们的管道 RhoFold+ 进行处理。
  5. 首先,使用我们的大型 RNA 语言模型 RNA-FM 转换序列,以提取进化和结构信息的嵌入。
  6. 同时,通过搜索广泛的序列数据库生成多序列比对(MSA)。
  7. 然后将嵌入和 MSA 特征输入到我们的变压器网络 Rhoformer 中,并迭代优化十次。
  8. 在此之后,我们的结构模块采用了几何感知注意力机制和不变点注意力(IPA)模块,以优化 RNA 主链关键原子的局部框架坐标和扭转角。
  9. 在重建全原子坐标后,应用了结构约束,如二级结构和碱基配对(图 1a 和补充信息中的详细讨论)。
  10. 在开发 RhoFold+ 后,我们在广泛的测试中对其性能进行了严格的基准测试和评估(图 1b)。

Fig. 1: The architecture of RhoFold+ and the tasks used for performance evaluation.

  • a, RhoFold+ 的架构,这是一种完全自动化且可微分的端到端方法,用于从序列进行全新的 RNA 3D 结构预测。
  • 使用基于 23,735,169 条未注释 RNA 序列预训练的 RNA 语言模型(RNA-FM)和几个深度学习模块——包括建模 3D 位置的 IPA 模块——RhoFold+ 通常可以在约 0.14 秒内(无需 MSA 搜索)生成有效且大致准确的目标 RNA 3D 结构。
  • init, 初始化;norm, 归一化。
  • b, RhoFold+ 的预处理步骤,从 PDB 数据库中提取所有可用的非冗余单链 RNA 3D 结构。
  • IFE, 集成功能元件。
  • RhoFold+ 在社区范围内的挑战中进行了全面基准测试,包括 RNA-Puzzles 目标和 CASP15 天然 RNA 目标,以及所有已实验确定的 RNA 3D 结构。
  • RhoFold+ 在交叉验证实验中也表现出高精度,以及对未见的新确定的 RNA 结构、未见的 RNA 家族和类型的跨家族和跨类型验证实验中的泛化能力。
  • 数据分割评估显示 RhoFold+ 没有过拟合其训练集。
  • RhoFold+ 还能够预测对构建工程有用的二级结构和参数。

Benchmarking RhoFold+ on RNA-Puzzles

在RNA谜题上测试RhoFold+

Para_01
  1. 我们在两个先前举行的社区挑战赛:RNA-Puzzles 和 CASP15 上,对 RhoFold+ 和其他现有计算方法进行了全面的回顾性比较。
  2. 我们首先使用了 RNA-Puzzles 竞赛的结果,其中提交的作品是由人类知识或计算方法生成和优化的。
  3. 重要的是,RhoFold+ 在此使用了与测试的 RNA-Puzzles 目标不重叠的训练数据进行训练(方法部分)。
  4. 我们进行了预处理,获得了 24 个单链 RNA 目标,并排除了 RNA 复合物。
  5. 这组 RNA 目标包括两个谜题(PZs),PZ34 和 PZ38,这些是在我们开发 RhoFold+ 之后引入的(图 2a 和补充图 3),因此作为盲测。
  6. 从官方服务器(http://www.rnapuzzles.org/)收集其他方法的预测后,我们发现 RhoFold+ 在几乎所有目标上的表现都超过了所有其他方法,包括 FARFAR2/ARES,除了 PZ24。
  7. 值得注意的是,RhoFold+ 在超过一半的目标上比第二好的方法高出约 4 Å 均方根偏差(r.m.s.d.)。
  8. 在 17 个目标上,RhoFold+ 达到了 <5 Å 的 r.m.s.d. 值,只有一个目标表现出 >10 Å 的 r.m.s.d.(图 2a 和补充表 5)。
  9. 总体而言,RhoFold+ 产生的平均 r.m.s.d. 为 4.02 Å,比第二好模型(FARFAR2:前 1%,6.32 Å)好 2.30 Å。
  10. 使用模板建模(TM)评分评估,RhoFold+ 达到了 0.57 的平均分(补充表 5),高于其他顶级选手的得分(0.41 和 0.44)。

Fig. 2: Benchmarking RhoFold+ on previously held community-wide challenges.

  • a, RhoFold+ 和其他方法在24个非重叠、非冗余RNA-Puzzles目标上的均方根偏差性能散点图。每个点代表特定方法的一个预测模型。
  • b, RNA-Puzzles 7和38的可视化。除了对齐的RhoFold+预测外,我们还展示了与每个目标最相似的训练结构,这表明RhoFold+既没有过拟合训练集,也没有简单地复制与目标最相似的结构。Seq-sim,序列相似性。
  • c, RhoFold+预测的TM分数和LDDT与所有训练序列中的最大序列相似性的回归图,涵盖所有RNA-Puzzles目标。每个点代表一个RNA-Puzzles目标。
  • d, 不同方法的运行时间比较。
  • e, RhoFold+预测与我们训练集中相应最佳单模板之间的比较,涵盖所有RNA-Puzzles目标。
  • f, 原子级pLDDT的均方根偏差的回归图,涵盖所有RNA-Puzzles和CASP15目标。
  • g, 结构GDT-TS与MSA相似性的回归图,涵盖所有RNA-Puzzles和CASP15目标。
  • h, CASP15天然RNA目标的详细性能比较。粉红色柱状记录详细的均方根偏差值,蓝色柱状记录GDT-TS和TM分数的Z分数总和。缺少官方报告的CASP15数据的条目标记为N/A;Yang-Sever和Chen是CASP15注册组。
  • i, RhoFold+的平均性能与CASP15组和已发表作品在CASP15天然RNA目标上的平均报告性能的比较。
  • j, 结构GDT-TS和LDDT与序列长度的回归图,涵盖所有CASP15目标。c、g和j中的中心曲线表示拟合回归模型,而周围的两条曲线表示95%百分位区间。
  • k, RhoFold+预测与AIchemy_RNA2和UltraFold在CASP15的R1116目标上的比较。MSA-sim,MSA谱相似性。
  • l, 针对R1156目标,展示了一个RhoFold+可能的失败案例,涉及错误的堆叠模式和方向。源数据。
Para_02
  1. 为了证明 RNA-Puzzles 上取得的良好结果并非由于过拟合,我们研究了测试集与我们的训练数据之间的序列相似性是否显著正相关于 RhoFold+ 的性能,该性能通过 TM 分数和局部距离差异测试(LDDT)衡量,LDDT 是一种无需叠加即可评估模型中所有原子局部距离差异的评分。
  2. 这种相关性在蛋白质结构预测中曾被发现,但在这里我们发现 R2 值,代表斜率是否显著非零,对于 TM 分数为 0.23,对于 LDDT 为 0.11(图 2b,c),表明模型性能与训练和测试集的相似性之间没有显著相关性。
  3. 这些结果表明 RhoFold+ 能够泛化以预测准确的 RNA 结构。
  4. 一个具有代表性的 RNA-Puzzles 目标 PZ7(一个 186 核苷酸长的 Varkud 卫星核酶 RNA)的案例研究证实了这一发现。
  5. 在这里,训练集中最相似的 RNA 的结构与 PZ7 的结构有显著差异(图 2b):这两种结构之间的均方根偏差为 34.48 Å。
  6. 另一个例子是 PZ38,它与我们训练集中所有 RNA 的最高序列相似性为 53%,且与序列最相似的 RNA 和 PZ38 之间的结构均方根偏差为 16.46 Å(图 2b)。
  7. 这比 PZ38 与 RhoFold+ 预测之间的均方根偏差 8.92 Å 更大。
Para_03
  1. 为了测试 RhoFold+ 在结构不同(除了主要序列不同之外)的目标上的泛化能力,我们试图确定 RhoFold+ 的预测是否能超过训练集中给定查询的最佳单个模板(最相似的结构模型)。
  2. 为此,我们将我们的预测与实验确定的结构之间的 TM 分数与最佳单个模板与实验确定的结构之间的 TM 分数进行了比较,涵盖了所有 RNA 谜题。
  3. 对于大多数谜题,RhoFold+ 生成的预测具有更高的全局相似性,平均 TM 分数为 0.574,比最佳单个模板高出 0.05(图 2e 和补充表 13)。
  4. 重要的是要指出,对于蛋白质而言,超越最佳单个模板需要取得显著进展。
  5. 事实上,直到 CASP14,计算方法才超过了最佳单个模板。
  6. 尽管在传统的序列相似性数据分割范式下,RhoFold+ 生成的预测比其他方法准确得多,我们进一步通过从训练集中移除与任何目标的 TM 分数超过特定阈值的 3D 结构来测试 RhoFold+ 的适应性(补充图 6 和补充表 6 和 10)。
  7. 即使在这种更苛刻的条件下,RhoFold+ 仍然表现出良好的性能(补充表 10)。
Para_04
  1. 在将计算模型应用于大规模、现实世界场景时,速度通常是首要考虑的因素。
  2. 除了生成较为准确的折叠结果外,我们发现 RhoFold+ 运行速度快,典型的 RNA-Puzzles 预测在约 0.14 秒内完成(图 2d)。
  3. 相比之下,包括 SimRNA、FARFAR2 和 RNAComposer 在内的其他方法表现出显著更长的运行时间,这可能是因为这些方法采用了大规模的采样过程(图 2d)。

Benchmarking RhoFold+ on CASP15 targets

在CASP15目标上评估RhoFold+

Para_01
  1. 由于RNA-Puzzles首次发布是在十多年前,我们接下来使用RhoFold+来预测来自更近的CASP15的RNA目标。
  2. 我们专注于CASP15中的六个天然RNA目标(图2h和补充图4)。
  3. 人为设计的目标不在RhoFold+预期的应用范围内,因此未被包括:特别是,排除的目标特征在于它们与我们的训练集缺乏同源性和差异性,或者是RNA-蛋白质复合体。
  4. 我们遵循了CASP15的规定,该规定指出参与团队最多可提交五个模型。
  5. 利用不同、随机采样的MSA(方法),我们使用RhoFold+为每个目标建模了五个候选结构,并仅考虑表现最佳的预测(补充表6)。
Para_02
  1. 多个排名靠前的CASP15小组和最近发表的关于RNA三维结构预测的工作被纳入了我们的基准测试。
  2. 特别是,CASP15小组被分为两类,‘服务器’和‘专家’,这取决于是否使用了人类专家知识和微调。
  3. 无论类别如何,许多CASP15小组采用了基于比较或统计学习的计算管道来处理自然目标,这使我们能够评估RhoFold+的学习能力。
  4. 我们的初步模型AIchemy_RNA(RhoFold)参加了‘专家’类别。
  5. 在RhoFold的基础上,RhoFold+代表了一个完全自动化且端到端的管道,更类似于‘服务器’类别的参与者。
  6. 在这里,我们发现RhoFold+在CASP15的自然RNA目标上比RhoFold平均r.m.s.d.提高了约1 Å。
  7. 此外,RhoFold+在所有六个自然RNA目标上的预测优于其他方法,包括排名第一的AIchemy_RNA2、排名第二的Chen方法以及其他计算方法,如DRfold、DeepFoldRNA、AlphaFold3和trRosettaRNA(图2h,i)。
  8. 尽管RhoFold+仅以0.06 Å(平均r.m.s.d.;图2i)的优势略微超过了AIchemy_RNA2,但AIchemy_RNA2需要专家知识。
  9. 此外,RhoFold+在几乎每个自然RNA目标上的准确性与每个表现最佳的方法相当,例外的是R1156(图2h)。
Para_03
  1. 遵循CASP15的评估方法,我们还计算了所有参与小组预测的Z分数。
  2. CASP15优先考虑TM得分和全局距离测试总分(GDT-TS),后者评估整体结构相似性和局部对齐,这促使我们根据这些指标的累积Z分数来评估这些模型(图2h)。
  3. 在六个天然RNA目标中,以及在这些特定目标上排名的所有CASP15参与者子集中,RhoFold(AIchemy_RNA)排名第四,而RhoFold+的表现与AIchemy_RNA2相当(Z分数差异为0.4),并且超过了其他方法。
  4. 在对特定目标的性能进行详细分析时,我们发现对于目标R1108,RhoFold+实现了最佳的Z分数和均方根偏差(r.m.s.d.)。
  5. 有趣的是,RhoFold+还在R1116上获得了最佳的Z分数,尽管其r.m.s.d.比UltraFold高出约1 Å。
  6. 进一步调查发现,虽然UltraFold通过产生准确的局部预测在此度量上优于RhoFold+,但预测的全局结构不那么准确,如TM得分为0.497和GDT-TS得分低于0.4所示。
  7. 相比之下,RhoFold+错误地预测了一个螺旋角度,导致r.m.s.d.为8.92 Å,但由于正确预测了拓扑结构,因此TM得分高于0.55。
  8. 对于该目标,AIchemy_RNA2错误预测了茎堆叠和RNA拓扑结构,导致r.m.s.d.高达17.26 Å,TM得分为约0.49。
  9. 值得注意的是,RhoFold+对R1116的预测并非源于过拟合,如图2k和补充表6所示,R1116与训练集的最大结构相似性(TM得分)和最大序列相似性较低。
Para_04
  1. 我们还研究了 RhoFold+ 可能表现不佳的目标,并发现更高的 MSA 质量与更好的性能相关。
  2. 虽然 RhoFold+ 准确预测了局部结构拓扑,但在对齐螺旋方面遇到了困难,特别是在连接处。
  3. 这种差异可能是由于 RNA 连接处的动态和灵活性,它们通常采用多种构象,这使得完全自动化的模型难以准确表示(图 2k,l 和补充信息中的详细讨论)。

Factors influencing prediction accuracy

影响预测准确性的因素

Para_01
  1. 基于上述发现,我们对所有 CASP15 天然 RNA 和 RNA 谜题目标进行了更全面的研究。
  2. 我们观察到 RhoFold+ 的预测准确性对查询序列的多序列比对(MSA)特征与训练集的相似性(补充信息)和 RNA 结构的复杂性(查询长度;图 2j)敏感。
  3. 此外,预测的局部距离差异测试(pLDDT)分数与 RhoFold+ 的置信度相关,为识别预测准确性较低的区域提供了有用的指标,尤其是在更复杂或同源性较低的查询中(图 2f 和补充信息中的详细讨论和分析)。

Benchmarking RhoFold+ on all determined RNA 3D structures

在所有已确定的RNA三维结构上测试RhoFold+

Para_01
  1. 在使用 RNA-Puzzles 和 CASP15 对 RhoFold+ 进行基准测试后,我们接下来使用所有实验确定的 RNA 结构对 RhoFold+ 进行了更详细的评估,这些结构由 BGSU 代表的 RNA 结构集定义(预处理以去除冗余)。
  2. 为了进一步研究 RhoFold+ 的性能,我们通过迭代地屏蔽 80 个序列簇用于验证,留下 702 个序列簇用于训练,进行了十折交叉验证。
  3. 我们发现,无论训练-测试数据分割如何,RhoFold+ 在所有 RNA 结构上的性能都是稳健的,并且在所有折叠中相当一致(图 3a-c)。
  4. TM 分数的轻微变化可能是由于 Fold2 和 Fold7 中的伪结案例等挑战性目标,类似于 PZ24(图 3c,e),我们预计如果提供了二级结构约束,RhoFold+ 对这些目标的预测可以得到改善。
  5. 此外,在我们的交叉验证测试中,RhoFold+ 的准确预测并非仅仅是因为模仿了最相似的训练数据(图 3b,d,e)。
  6. 将均方根偏差与序列长度的关系图显示,均方根偏差值大多分布在 10 Å 以下,不依赖于序列长度(图 3a)。
  7. 对于超过 200 个核苷酸的序列,r.m.s.d. 值大于 20 Å 的异常值更可能发生,我们期望通过对长 RNA 进行更多调整来进一步改进(详细讨论见补充信息)。

Fig. 3: Benchmarking RhoFold+ on all experimentally determined RNA structures supports the accuracy and ability of RhoFold+ to generalize to unseen structures.

  • a,所有交叉验证实验中序列长度与均方根偏差(r.m.s.d.)值的关系图。每个点代表一个RNA结构,并根据交叉验证折进行着色。
  • b,针对每个预测的TM得分(蓝色)和LDDT(粉色)与训练数据的最大序列相似性的回归分析。每个点代表一个RNA结构。
  • c,每折的平均TM得分和LDDT。
  • d,两个代表性核糖开关结构6UES和3UD4以及一个假结1DDY(粉色)的可视化,包括相应的RhoFold+预测(石板色)和具有最高序列相似性的训练RNA结构(青色)。在a-d中,展示了使用所有实验确定的RNA结构对RhoFold+进行的十折交叉验证。
  • e,新确定的RNA结构7QR3的可视化,这是一种类似乙型肝炎病毒(HDV)的核酶,尽管其结构与训练集的结构相似性较低,但RhoFold+(石板色)对其结构(粉色)进行了准确预测。最相似的结构7DLZ以青色显示。
  • f,在新PDB集合上由RhoFold+和其他方法生成的平均r.m.s.d.值的比较,该集合包含76个新确定的独立RNA结构。
  • g,RhoFold+和其他基线方法的预测r.m.s.d.值与训练集最大序列相似性的回归图。
  • h,RhoFold+预测的TM得分/LDDT与训练集最大MSA剖面相似性之间的相关性回归图。b和h中的中心曲线表示拟合回归模型,而周围的两条曲线表示95%百分位区间。
  • i,通过LDDT和TM得分测量的RhoFold+跨类型验证性能的概述。用于验证的类型中的所有结构在模型训练期间被屏蔽。sRNA,小RNA。
  • j,RhoFold+在跨家族验证中的r.m.s.d.值的小提琴图。这里,测试家族中的所有结构在模型训练期间都被屏蔽,RhoFold+准确预测了大多数未见家族的RNA结构。括号内显示了每个家族的序列数量。源数据。
Para_02
  1. 为了进一步评估 RhoFold+ 的能力,我们考虑了该模型对新确定的单链 RNA 结构的性能,这些结构是在我们的训练数据集编制之后发布的。
  2. 这种方法充当了额外的盲测,类似于 CASP15 竞赛。
  3. 我们将其与 FARFAR2 和最近的深度学习方法进行了比较,所有这些方法都有推理代码和/或服务器可用,并且其中一些也参与了 CASP15(方法部分)。
  4. RhoFold+ 超越了所有基准模型,根据 r.m.s.d. 测量,达到了最高的平均准确性。
  5. RhoFold+ 的平均 r.m.s.d. 为 7.74 Å,比排名第二的 DeepRNAFold 高约 0.8 Å,比排名最低的 FARFAR2 高约 10.5 Å。
  6. 值得注意的是,RhoFold+ 平均还超越了 AlphaFold3 和 RoseTTAFold2NA 约 2.2 Å 和 1.8 Å(图 3f 和补充信息中的详细讨论)。
  7. 这些结果与我们在 CASP15 上的先前基准测试中观察到的性能一致,表明 RhoFold+ 准确地泛化到了未在训练集中出现的新确定的结构。
  8. 此外,这些结果支持了 AlphaFold3 和 RoseTTAFold2NA,尽管它们设计用于预测生物分子复合体,但在应用于单个 RNA 分子时,表现不如 RhoFold+。
  9. 进一步检查与训练集的序列和结构相似性发现,即使序列相似度低于 0.5(图 3g),RhoFold+ 仍保持了强大的性能,而 TM 得分受 MSA 轮廓相似性的影响较大,但局部准确性(LDDT)仍然高且稳健(图 3h)。
  10. 此外,RhoFold+ 展现了强大的泛化能力,能够准确折叠如 7QR3 这样的结构,尽管它与最近的训练模板 7DLZ 的相似度较低(TM 得分为 0.40,r.m.s.d. 为 16.45 Å;图 3e)。

RhoFold+ generalizes to unseen RNA types and families

RhoFold+ 可以推广到未见过的 RNA 类型和家族

Para_01
  1. 已经证明 RhoFold+ 可以推广到预测具有不同序列相似性、结构相似性和发布日期的 RNA 结构,接下来我们研究了 RhoFold+ 处理由专家知识定义的不同 RNA 类型和家族的能力。
  2. 特别是,RNA 类型和家族——如 Rfam40 中整理的那些——通常基于功能、结构和共同进化信息等因素手动分类。
  3. 对于深度学习方法如 RhoFold+ 而言,应对推广到不同 RNA 类型和家族的挑战可能更加艰巨,因为这种任务需要更大的领域转换。
Para_02
  1. 我们通过在所有RNA类型的一个子集上训练模型,而在其他类型上测试,来评估RhoFold+的跨类型性能。
  2. RhoFold+在不同类型的RNA中表现出稳健性。
  3. 尽管在内含子和核糖开关方面遇到困难,但在转运RNA(tRNA)和微小RNA(miRNA)类型上的表现良好,TM得分高达0.73(图3i)。
  4. 与FARFAR2相比,RhoFold+在所有RNA类型上均优于前者,尤其是在tRNAs和核糖体RNAs(rRNAs)方面,而对于核糖开关的提升幅度较小(详细讨论见补充信息)。
  5. 对于跨家族测试,RhoFold+达到了平均6.69 Å的均方根偏差(图3j),但在处理如I类内含子(RF00028)等复杂家族时遇到了困难。
  6. 这种困难与在跨类型测试中观察到的挑战一致,例如对于复杂的RNA类型,如内含子和CRISPR RNA元件(RF01344)。
  7. 这些元素与各种蛋白质和酶相互作用,仅关注RNA结构而不考虑这些相互作用可能限制预测准确性(详细讨论见补充信息)。
  8. 总体而言,这些测试展示了RhoFold+在未见过的RNA类型和家族中的泛化能力,尽管对于复杂结构和数据有限的数据集仍存在挑战。

RhoFold+ predicts secondary structures and substructures

RhoFold+ 预测二级结构和亚结构

Para_01
  1. RhoFold+ 可以准确预测 RNA 3D 结构,但由于实验确定的 RNA 结构和类型数量有限,很难理解所有可能的 RNA 折叠空间。
  2. 这尤其适用于复杂的大型 RNA 类型,包括内部核糖体进入位点、内含子、合成 RNA 和长非编码 RNA。
  3. 然而,RNA 二级结构可以在实验中更容易地确定,准确的二级结构预测可以补充 3D 结构的预测,为 RNA 折叠和功能提供宝贵的见解。
  4. 因此,我们对 RhoFold+ 进行了改进,使其也能预测二级结构。
  5. 由于 RhoFold+ 被设计用于预测 RNA 3D 结构,我们引入了一个后处理模块,该模块利用从 RhoFold+ 的 Rhoformer 提取的特征来预测二级结构(因为 Rhoformer 的特征显示出与接触图高度一致的关注图;补充图 8 和补充表 14)。
  6. 该模块考虑了与执行 3D 重建的模块相同的空间信息,但在预测二级结构时采用了不同的几何和生物学约束。
Para_02
  1. 我们对 RhoFold+ 在新确定的 PDB 结构(‘新的 PDB 集合’)和 ArchiveII 数据集上的性能进行了基准测试,后者包含各种 RNA 的二级结构信息。
  2. 在新的 PDB 集合上,RhoFold+ 在平均 F1 分数上比 UFold 高出 0.035(图 4a),即使 UFold 是在所有可用数据(PDB 和 bpRNA-1M,一个包含超过 100,000 个注释的 RNA 二级结构的数据库)上训练的。
  3. 在包含 2,975 个 RNA 样本的 ArchiveII 数据集中,RhoFold+ 也优于其他二级结构预测方法(图 4b),尤其是在较大的 RNA 类型上表现更佳(图 4c)。
  4. 例如,在登革病毒转录组的结构域中,它达到了 0.60 的 F1 分数(补充表 19),与突变谱分析(RING-MaP)的结果一致。
  5. 同样,RhoFold+ 的优异表现并不是模仿训练数据的结果,当序列相似度降至 50% 以下时,它仍能保持约 0.7 的 F1 分数(图 4e),并在 CASP15 目标 R1117 上实现了完美的 1.0 F1 分数(图 4f)。
  6. 这些结果表明,RhoFold+ 不仅擅长预测 3D 结构,还能生成丰富、有意义的表示,使二级结构预测达到先进水平。

Fig. 4: RhoFold+ accurately predicts secondary structures and IHAs from experimental data.

  • a, 在 PDB 集合上与 UFold 的多种配置进行 F1 分数比较。这里,还展示了一个在 bpRNA 上训练的 UFold 版本作为基线,以评估 F1 分数的改进。
  • b, 各种方法在 ArchiveII 数据集上的 F1 分数分布。平均分数标在图的顶部。
  • c, RhoFold+ 和 UFold 在 ArchiveII 数据集上的 F1 分数比较。每个点代表一个 RNA 结构,并根据其 RNA 类型着色。srp,信号识别颗粒 RNA;tmRNA,转移-信使 RNA。
  • d, RhoFold+ 与 UFold 和 SPOT-RNA 在新 PDB 集合中的 RNA 子结构上的 F1 分数比较。
  • e, RhoFold+ 与 UFold 和 SPOT-RNA 在新 PDB 集合中的 RNA 结构序列相似性上的 F1 分数比较。
  • f, 一个 CASP15 RNA 目标的可视化,其中 RhoFold+ 预测了包括假结在内的正确二级结构。
  • g, 一个交换二聚体、四氢叶酸 (THF) 核酶、3SUH 的可视化,RhoFold+ 的预测(紫色)类似于生物学上有意义的结构(橙色),而不是 PDB 中发现的晶体学伪影(粉红色)。
  • h, 展示 IHAD 定义的可视化,即从 RhoFold+ 预测和实验确定的结构导出的 IHA 之间的差异。
  • i, RhoFold+ 预测的 IHAD 与 r.m.s.d. 之间的回归分析。每个点代表一个 RNA。
  • j, 从 RhoFold+ 预测中导出的 IHA 与实验结构中的 IHA 的比较。每个点代表一个角度实例,并根据包含该角度的实验结构与 RhoFold+ 预测的结构之间的 r.m.s.d. 着色。
  • k, IHAD 与实验确定的 IHA 值的图表。着色方式与 j 相同。e、j 和 k 中的中心曲线代表拟合回归模型,而周围的两条曲线表示 95% 百分位区间。源数据。
Para_03
  1. 我们进一步评估了 RNA 二级结构内的亚结构,发现 RhoFold+ 在所有亚结构中始终优于 SPOT-RNA 和 UFold,特别是在多环和外部环方面有显著改进,而内部环和假结在不同方法之间的表现相似(图 4d)。
  2. 这些结果突显了 RhoFold+ 在预测 RNA 二级结构和增强我们对 RNA 功能理解方面的潜在能力。

Correcting artifacts and IHA prediction

校正伪影和IHA预测

Para_01
  1. 由于 RhoFold+ 能够准确预测 RNA 的二级和三级结构,我们探讨了是否可以利用 RhoFold+ 进行实验工作。
  2. 为此,我们研究了 RhoFold+ 的两个应用场景:(1) 修正实验中的结构伪影;(2) 指导 RNA 构建工程。
Para_02
  1. X射线晶体学广泛用于解析RNA的3D结构,但它可能会引入如域交换二聚体等人工制品,这可能误导那些泛化能力不佳的机器学习模型。
  2. 在一个案例中,RhoFold+对3SUH的预测最初与PDB结构相比的均方根偏差(r.m.s.d.)高达10.11 Å。
  3. 然而,进一步分析发现该晶体结构涉及一个域交换二聚体。
  4. 当将RhoFold+的预测与推断出的单体结构进行比较时,均方根偏差改善至5.71 Å,表明RhoFold+准确预测了生物学相关的结构(图4g)。
  5. 类似的发现也出现在ZTP核糖开关上,表明RhoFold+可以有效纠正此类实验人工制品。
Para_03
  1. 在将实验数据与RNA 3D模型进行比较时,额外的几何度量,如螺旋间角度(IHAs),可以提供超出标准全局对齐度量(如均方根偏差、LDDT和TM分数)的见解。
  2. 螺旋间角度(IHAs)可以通过实验方法估算,对于验证预测模型和指导RNA纳米结构设计非常有用。
  3. 我们引入了螺旋间角度差异(IHAD)作为评估RhoFold+预测的一个指标(图4h和补充信息),发现IHAD能够揭示仅靠均方根偏差无法捕捉到的茎方向差异(图4i)。
  4. 我们的分析显示,RhoFold+通常能准确预测茎的方向(图4j,k),尽管对于接近0°或180°的螺旋间角度,性能有所下降,这可能是由于在大型和复杂结构中平行茎的拟合不足(图4k和补充信息中的详细讨论)。
  5. 我们进一步通过预测RNA构建体(如FMN核糖开关和来自四膜虫I类内含子的P4–P6域)的螺旋间角度值,展示了IHAs的实际应用(补充图9)。

Ablation studies and generation of multiple predictions

消融研究和生成多个预测

Para_01
  1. 鉴于 RhoFold+ 的高精度和速度,我们最终进行了消融研究,以了解哪些组件和信息对 RhoFold+ 预测至关重要。
  2. 我们调查的架构组件包括四个不同的模块(图 5a 和方法部分)。
  3. 消融研究是在 138 个 PDB 目标上进行的(收集于 2022 年 4 月至 2023 年 12 月之间),这些目标与我们的训练集序列相似度低于 80%,长度范围从 16 到 300 个核苷酸(‘消融集’)。
  4. 通过移除每个 RhoFold+ 组件,我们观察到所有组件都有助于提高性能,其中 MSA 模块最为关键,其次是 RNA-FM 语言模型(图 5a)。
  5. 值得注意的是,没有 MSA 模块的 AlphaFold2 的 RNA 修改版本表现不如 RhoFold+(图 5a)。
  6. 特别地,对于不相似的序列,移除 RNA-FM 导致性能急剧下降(图 5b),并且 RNA-FM 模块似乎弥补了 MSA 模块的缺失,保持了较高的 TM 分数(图 5c)。
  7. 此外,移除循环模块对较长序列的预测影响最大,可能是因为它在有效加深模型方面的作用(补充图 7 和补充信息中的详细讨论)。

Fig. 5: Ablation studies of RhoFold+ and sampling of multiple models.

  • a, 在没有相应模块的情况下对 RhoFold+ 进行消融研究,性能通过 r.m.s.d. 衡量。
  • b, 预测准确性(通过 r.m.s.d. 衡量)与序列相似性的倒数之间的回归分析。
  • c, RNA-FM 模块消融研究中 TM 分数与 MSA 深度的回归分析。注意 x 轴是对数刻度的。
  • d, 预测准确性(通过 TM 分数衡量)与 MSA 深度的关系图。
  • e, RhoFold+ 相对于 RhoFold 在不同 MSA 深度下的改进情况(通过 r.m.s.d. 衡量)。
  • f, RhoFold+ 相对于 RhoFold 在不同 MSA 剖面相似性下的改进情况(通过 r.m.s.d. 衡量)。e 和 f 中的中心曲线代表拟合回归模型,而周围的两条曲线表示 95% 百分位区间。
  • g, CASP15 目标的一个可视化,其中 RhoFold+ 产生的 r.m.s.d. 为 12.51 Å,但使用 MSA 采样的 Top5 预测后提高了 8.92 Å。
  • h, 新确定的 RNA 结构的可视化,其中 RhoFold+ 使用 MSA 采样的 Top5 预测后 r.m.s.d. 提高了 7.92 Å。源数据
Para_02
  1. 这些发现与我们在 CASP15 的天然 RNA 目标和 RNA-Puzzles 上的结果一致,其中 MSA 质量对预测有显著影响。
  2. 我们还探讨了提取的 MSA 中序列数量如何影响准确性。
  3. 虽然 RhoFold+ 由于训练限制只能处理 256 个 MSA,但这一限制并未损害其有效性。
  4. RhoFold+ 的一个关键改进是能够通过从固定数量的 MSA 中采样或聚类来生成多个预测,从而允许更广泛的选择和更好的结果。
  5. RNA-Puzzles 上的表现显示,随着 MSA 数量减少,性能呈现负相关,当 MSA 数量超过 100 时,性能明显提高(图 5d),表明较大的 MSA 库可以增强模型优化(详见补充信息)。
  6. 通过这种扩展的 MSA 采样,RhoFold+ 的 Top5 预测的最低 r.m.s.d. 显著降低,与 RhoFold 相比,MSA 深度增加呈正相关,最高可改善 10 Å(图 5e)。
  7. 当查询序列和训练序列之间的 MSA 轮廓相似性高时,这种改进更为显著,导致相似性已经很强时的增益较小(图 5f)。
  8. 总体而言,额外的 MSA 采样对于高性能至关重要,这一点在 CASP15 目标 R1116 和 PDB 7VPX_L 上得到了证明(图 5g,h)。

Discussion

Para_01
  1. 在这项研究中,我们开发了一种端到端的语言模型基础的深度学习方法,RhoFold+,用于从序列预测RNA 3D结构。
  2. RhoFold+是一个完全自动化的和可微分的模型,它整合了一个在约2370万个没有结构信息泄露的RNA序列上预训练的RNA语言模型,以及多种策略来增强稀少的训练数据。
  3. RhoFold+在CASP15天然RNA目标上的表现优于其他基于深度学习的RNA结构预测方法,并且对非重叠和非冗余的RNA-Puzzles结构达到了低于4 Å的平均r.m.s.d。
  4. 由于RhoFold+不需要任何耗时且计算密集的采样过程,RhoFold+也是快速和高效的,而且它不依赖于专家知识,这在迄今为止最高效的RNA结构预测方法中已经被使用。
  5. RhoFold+能够从不同的训练数据集中泛化,并准确预测已知的RNA 3D结构和新确定的结构,这一观察结果通过RhoFold+在交叉验证中的强大稳健性得到了强调。
  6. 此外,RhoFold+能够在跨家族和跨类型验证中准确预测未见过的RNA结构。
  7. 虽然RhoFold+设计用于预测3D结构,但它也能准确预测RNA二级结构。
  8. 将RhoFold+应用于IHAs的预测——这一任务受到基于低温电子显微镜和NMR的构建工程设计的启发——表明其有可能加速实验确定更多RNA结构的过程。
Para_02
  1. 尽管 RhoFold+ 表现出令人鼓舞的性能,但它与其他用于 RNA 结构预测的深度学习方法共享一些限制。
  2. 首先,我们对 RNA 结构多样性的了解有限,这使得预测同一 RNA 分子的不同构象变得困难,因为它们具有动态性质并且与其它分子相互作用。
  3. 例如,RNA 连接区可以采取多种构象,并且更好地表示为动态集合。
  4. 其次,由于数据不足,预测大而复杂的 RNA 结构(尤其是那些具有多个螺旋或假结的结构)仍然很困难,特别是对于长度超过 500 个核苷酸的序列。
  5. 第三,涉及配体或蛋白质的 RNA 复合物提出了额外的挑战,因为当前的方法往往无法充分考虑这些相互作用,从而降低了准确性。
  6. 虽然像 AlphaFold3 和 RoseTTAFoldNA 这样的方法可以预测 RNA 复合物,但它们的准确性仍然有限,而且在单链 RNA 上的表现不如 RhoFold+。
  7. 第四,RhoFold+ 和类似模型是在特定环境条件下得出的数据集上训练的,可能无法很好地推广到 RNA 分子在体内遇到的各种和动态溶液条件。
  8. 这些条件包括不同浓度的离子(如镁和钾)以及配体的存在,已知这些因素在 RNA 折叠和稳定性中起着关键作用。
Para_03
  1. 依赖于多序列比对(MSA)的方法受到这些比对可用性的限制,使得对于人工设计或缺乏相应MSA的孤儿RNA进行准确预测变得困难。
  2. 尽管RNA-FM有助于减轻这种依赖性,但仍存在挑战。
  3. RhoFold+和类似的深度学习模型虽然准确,但受到RNA结构多样性知识有限、难以预测大型和复杂结构以及对MSA依赖的阻碍。
  4. 为了克服这些障碍,整合探针方法来定义二级结构、结合分子动力学和能量函数技术以及改进MSA提取过程,可能会提高RhoFold+的准确性。
  5. 此外,解决RNA-蛋白质和RNA-配体相互作用仍然至关重要,将RhoFold+与RoseTTAFoldNA或AlphaFold3等蛋白质结构预测工具整合可以提升其在这些领域的功能。

Methods

The RhoFold+ platform

RhoFold+ 平台

MSA feature generation

MSA特征生成

Para_01
  1. 我们使用了由 Infernal 和 rMSA(https://github.com/pylelab/rMSA)构建的多序列比对(MSAs),以捕获序列的共进化信息作为附加输入。
  2. 使用 Infernal 可以定位具有保守二级结构的同源序列,而另一方面,rMSA 则基于 RNA 序列数据库采用迭代搜索策略。
  3. 我们利用了核苷酸序列数据库 Rfam 和 RNAcentral。
  4. 在 AlphaFold2 中,采用了类似的方法,但使用了不同的比对工具和序列数据库。
  5. 鉴于需要生成多个模型以及硬件内存的限制,我们在训练阶段将完全提取的 MSAs 减少到最多 256 条序列。
  6. 随后,在推理阶段,256 条 MSAs 要么随机选择,要么通过聚类选择,然后输入到 RhoFold+ 中。
  7. 我们通过保守的二级结构或来自预训练的 RNA 语言模型的序列嵌入实现了聚类。
  8. 因此,不同的采样和聚类结果可以用于多次预测,如标记为 Top5、Top10 等。
  9. 默认情况下,选择前 256 条 MSAs 作为输入特征来预测标准结构,我们称之为标准 RhoFold+。
  10. RhoFold+(TopK)指的是从使用不同采样的 MSAs 生成的 K 个不同模型中选择的最佳模型。

RNA-FM language model

RNA-FM 语言模型

Overview of RNA-FM

RNA-FM 概述

Para_01
  1. 我们的基础模型提供了有意义的表示,这些表示是从独立的序列信息中推断出来的。
  2. 这些表示可能提高各种下游任务的性能,特别是对于那些注释数据不足的任务。
  3. 受最近研究的启发,我们利用了一种通用的变压器架构。
  4. 特别地,我们的框架是基于在 BERT(双向编码器表示从变压器)中提出的双向变压器语言模型构建的,并采用了无监督训练方案。
  5. 我们称我们的框架为‘RNA-FM’,因为它代表了未来 RNA 相关研究的基础模型(补充图 2)。
  6. 下面,我们将详细介绍如何构建大规模非编码 RNA(ncRNA)数据集,随后是模型和训练细节。

Large-scale pretraining dataset

大规模预训练数据集

Para_01
  1. 预训练阶段使用的大型数据集是从 RNAcentral 收集的,这是迄今为止最大的非编码 RNA 数据集。
  2. 该数据集是一个全面的非编码 RNA 序列集合,代表了来自广泛生物体的所有非编码 RNA 类型。
  3. 它结合了来自 47 个不同数据库的非编码 RNA 序列,总计约 2700 万条 RNA 序列。
Para_02
  1. 我们通过将所有‘T’替换为‘U’来预处理所有ncRNA序列,因为它们都是腺嘌呤的互补物且结构相似(‘T’代表DNA中的胸腺嘧啶,而‘U’代表RNA中的尿嘧啶)。
  2. 这导致了一个包含四种主要碱基的数据集(总共计算了16种组合类型:‘A’、‘C’、‘G’、‘U’、‘R’、‘Y’、‘K’、‘M’、‘S’、‘W’、‘B’、‘D’、‘H’、‘V’、‘N’和‘-’)。
  3. 此外,为了尽量减少冗余而不影响数据集的大小(即尽可能保留更多序列),我们使用Cd-hit-est去除了重复序列,并将其设置为100%的相似性阈值。
  4. 经过上述预处理步骤后,获得了超过2370万个ncRNA序列的最终大规模数据集。
  5. 我们将这个最终数据集命名为‘RNAcentral100’,并使用该数据集以自监督方式训练我们的RNA基础模型(更多详情见补充信息)。

RNA-FM training details

RNA-FM 训练细节

Para_01
  1. 我们的 RNA-FM 框架包含 12 个受 BERT 启发的变压器编码器块。
  2. 每个块包括一个 640 隐藏大小的前馈层和一个具有 20 个头的多头自注意力层,以及分别在块前后的层归一化和残差连接。
  3. 对于长度为 L 的 RNA 序列,RNA-FM 接受原始序列令牌作为输入,通过嵌入层将每个核苷酸映射到 640 维向量,形成一个 L × 640 的嵌入矩阵。
  4. 该矩阵依次通过每个编码器块,保持其大小不变,并随后通过一个 softmax 层来预测相应的令牌,包括 16 个核苷酸和四个特定的功能标识符。
  5. 更多模型细节见补充信息。
Para_02
  1. 在预训练期间,我们采用了类似于 BERT 的自监督训练方法,随机将 15% 的核苷酸标记替换为特殊的掩码标记。
  2. 如果选择了第 i 个标记,则该标记会被 (1) 80% 的时间替换为 (MASK) 标记,(2) 10% 的时间替换为随机标记,(3) 10% 的时间保持不变。
  3. 我们使用掩码语言模型(MLM)训练模型,通过交叉熵损失预测原始的掩码标记。
  4. 这种训练策略被表述为如下目标函数:

错误!!! - 待补充

Efficient development of a self-distillation dataset

自蒸馏数据集的有效开发

Para_01
  1. 尽管我们的 RNA-FM 可以缓解数据稀缺的问题,但可用于 RNA 的结构数据仍然比蛋白质少。
  2. 因此,我们从 RNAStralign 和 bpRNA-1M 数据库中收集了一个包含真实二级结构的非冗余自蒸馏数据集。
  3. 我们通过移除超过 256 个或少于 16 个核苷酸的序列来过滤这个数据集,最终得到一个包含 27,732 个序列的数据集。
  4. RhoFold+ 最初仅使用 PDB 数据进行训练,然后通过推断伪结构标签生成自蒸馏数据集。
  5. 我们通过采样 25% 的 PDB 数据和 75% 的蒸馏数据重新训练模型,以进一步提高性能。
  6. 在训练过程中,我们屏蔽了 pLDDT 分数 <0.7 的伪标签残基,并均匀地对 MSA 进行子采样以增强蒸馏数据集。

A structure prediction module

结构预测模块

Para_01
  1. RhoFold+ 的结构模块旨在根据 Rhoformer 提取的序列和配对表示预测 RNA 的 3D 结构。
  2. AlphaFold2 的结构模块直接预测主链框架的旋转和平移矩阵,因为这些是蛋白质折叠中最主要的影响因素。
  3. 然而,RNA 折叠主要由核苷酸碱基配对驱动。
  4. 由于它们的结构模式不规则,直接预测定义在核苷酸上的碱基框架(C1'、N1/N9、C2/C4)可能在我们的实验中导致收敛问题。
  5. 为了高效地重建 RNA 的全原子坐标,我们使用了框架(C4'、C1'、N1/N9)和四个二面角 α、β、γ 和 ω 来解决这个问题。
  6. 补充表 1 提供了二面角和相应刚性组的定义。
  7. 3D 位置使用 IPA(几何感知注意力操作)建模。
  8. 基于 Rhoformer 的输出特征和配对表示,IPA 操作预测每个框架的旋转和平移矩阵。
  9. 此外,使用循环策略迭代地优化预测结构,其中 Rhoformer 接收前一次迭代的预测。
  10. 当 pLDDT 收敛时,循环过程结束,pLDDT 是 IPA 生成的一个输出,用于衡量预测的 3D 结构的质量。
  11. 通过重建的全原子坐标,可以在 3D 空间中直接施加生物约束,如碱基配对,以优化结构模块并生成生物学上有效的结构预测。

Feature processing with Rhoformer

使用Rhoformer进行特征处理

Para_01
  1. 与 AlphaFold2 中引入的 Evoformer 类似,我们的主要模块 Rhoformer 由一系列带有门控自注意力层的变压器模块组成,用于学习进化信息,并同时更新成对序列嵌入和多序列比对表示。
  2. 为了增加嵌入维度四倍,从而提高模型容量,在生成的成对和多序列比对表示上添加了一个包含两层线性层的过渡块。
  3. 最后,在 Rhoformer 上堆叠了四个自注意力块,以优化成对和多序列比对表示。
  4. 这些表示随后被输入到结构模块中,以获得三维空间中的预测全原子坐标,如下文所述。

The structure prediction loss

结构预测损失

Para_01
  1. 损失函数在1D、2D和3D水平上定义。每个水平的具体内容如下所述。
  2. 我们首先采用MLM损失Lmlm来改进从MSA中提取共进化信息的过程,这在1D水平上进行,而无需添加策划的相关特征。
  3. 在我们的实验中,5%的核苷酸被随机遮蔽,并使用线性投影层来重建它们。
Para_02
  1. 在二维水平上,应用了距离损失Ldis和二级结构损失Lss来监督RhoFold+学习每个残基之间的成对位置相关性。
  2. 特别是,使用了三个前馈层进行距离预测,以预测P、C4和N原子之间的成对距离。
  3. 距离被分为40个区间,其中第一个和最后一个区间分别表示<2 Å和>38 Å,而2 Å到38 Å之间的距离均匀地分成了36个区间。
  4. 此外,交叉熵损失用于确定距离预测是否属于正确的区间。
  5. 对于二级结构预测损失Lss,利用一个前馈层基于成对特征预测二级结构。
  6. 二级结构C是一个L×L的二进制矩阵,其中L表示序列长度,Ci,j=0或1表示第i个和第j个残基是否形成碱基对。
Para_03
  1. 在三维层面,梯度来源于主框架对齐点误差(FAPE)损失,记作 LFAPE,二级结构约束损失和碰撞违规损失 Lclash。
  2. AlphaFold2 的 FAPE 损失将一组预测原子坐标与一组预测局部框架下的相应真实原子坐标和真实局部框架进行比较。
  3. 损失独立于刚体运动。
  4. 当预测结构与实际结构之间的差异仅为任意旋转和平移时,损失保持不变。

错误!!! - 待补充 错误!!! - 待补充

Para_06
  1. Lclash 期望模型通过惩罚原子之间的距离过短(根据它们的范德华半径)来学习避免原子冲突。
  2. 此外,我们采用 LpLDDT 损失,训练一个 LDDT 评估器,该评估器对预测的 3D RNA 模型进行评分,作为全局循环的指标(如上所述)。
  3. LpLDDT 损失的目的在于训练一个 LDDT 评估器,该评估器基于真实结构预测预测的 3D 模型的 LDDT 值。
  4. LDDT 值以 0.02 的区间离散化为 50 个区间。
  5. 一旦生成了预测的 3D 模型,就会计算其与真实结构的 LDDT 值作为真实 pLDDT 标签,而 LDDT 评估器则生成预测的 pLDDT 区间。
  6. 使用交叉熵损失作为 LpLDDT 来确定预测的 LDDT 是否落在真实区间内。
Para_07
  1. 总损失函数是

Structure relaxation by force fields

通过力场实现结构弛豫

Para_01
  1. 作为预防措施,为了解决任何剩余的结构冲突和违规问题,我们可能会使用受限的能量最小化过程(如 AMBER 和 BRiQ)来放松模型预测。
  2. 具体来说,我们使用了谐波约束对 AMBER 力场进行了最小化,使系统能够与其输入结构保持密切关系。
  3. 这种预测后的放松还强制执行了磷酸二酯键的几何特征。
  4. 我们的实验证据表明,通过 r.m.s.d. 和 TM 分数测量,虽然这一最终的放松不会提高模型的准确性,但它消除了分散注意力的立体化学违规,而不损害准确性。

Implementation details and running time

实现细节和运行时间

Para_01
  1. 我们使用了学习率为 0.0003 的 Adam 优化器,进行了 300,000 次迭代,并采用了具有 10,000 步热身的多项式衰减调度器,批量大小为 16。
  2. 在训练期间,Rhoformer 和结构模块应用了 0.1 的dropout比率。
  3. 硬件配置包括一个 768 GB 内存和八个 NVIDIA A100 GPU(每个 80 GB)的 GPU 集群,由一个 64 核心的 Intel Xeon Gold 6230 中央处理单元(CPU)@ 2.10 GHz 支持。
  4. RhoFold+ 在 300,000 次迭代中训练了 1,600 个周期,大约耗时 1 周。
  5. 训练后,推理速度很快,RhoFold+ 在单个 A100 GPU 上预测一个结构大约需要 0.14 秒。
  6. 对于需要大量计算资源的 FARFAR2 基准测试,集群上运行了一个 Slurm 作业,使用了一个中央处理单元核心和 8 GB 内存,执行时间详见补充表 9。

Running other baselines

运行其他基线

Data availability

Para_01
  1. 我们工作中使用的所有数据均来自相关的公共数据集。
  2. 我们使用由 BGSU RNA 代表集(版本 2022-04-13)安排的数据列表获取了所有 RNA 3D 结构,并从 PDB 下载了这些结构。
  3. 为了预训练我们的语言模型(RNA-FM),我们从 RNAcentral 下载了未注释的 RNA 序列。
  4. 对于 RNA 多序列比对(MSA)构建,我们使用核苷酸数据库、Rfam 和 RNAcentral 构建了数据库,并使用 rMSA 作为搜索和构建工具。
  5. 我们使用二级结构信息进行自蒸馏。
  6. 为此,我们从 SPOT-RNA 下载了 bpRNA 数据集,从 https://bprna.cgrb.oregonstate.edu/ 下载了 bprna-1m 数据,并使用了基于 GitHub 上提供的 E2Efold 的 RNAStralign。
  7. Rfam 中的家族/类型信息用于跨家族/类型的验证。
  8. 对于 RNA 谜题,我们从 GitHub 下载了原生结构和其他方法的提交,网址分别为 https://github.com/RNA-Puzzles/standardized_dataset 和 http://www.rnapuzzles.org/results/。
  9. 类似地,CASP15 数据通过 https://predictioncenter.org/casp15/index.cgi 获取。
  10. 源数据随本文一起提供。

Code availability

Para_01
  1. 对于 RhoFold+ 模型,训练权重和推理脚本可通过 GitHub 在 https://github.com/ml4bio/RhoFold 下获得开源许可。
  2. RhoFold+ 还作为服务器免费提供给学术用途,网址为 https://proj.cse.cuhk.edu.hk/aihlab/RhoFold/#/。
  3. 我们的预训练语言模型(RNA-FM)及其推理管道可通过 GitHub 在 https://github.com/ml4bio/RNA-FM 获取。
  4. RNA 多序列比对搜索是通过结合 Infernal (http://eddylab.org/infernal/)、Blastn (https://blast.ncbi.nlm.nih.gov/Blast.cgi)、HMMER (http://hmmer.org) 和 rMSA (https://github.com/pylelab/rMSA) 完成的,我们还使用了 openmm 7.7 进行 AMBER 力场松弛。
  5. 源代码是在 Python 3.7 下编写的。
  6. 我们还利用了以下软件进行数据收集、数据分析和可视化:Infernal 1.1.3 (cmbuild, cmcalibrate, cmscan, cmsearch),Cd-hit 4.8.1 (cd-hit-est),HMMER 3.3 (nhmmer),HH-suite 2.0.15,numpy 1.21.2,PyTorch 1.10.2,pandas 1.3.1,matplotlib 3.4,scikit-learn 0.24,scipy 1.7.1,biopython 1.79,PyTorch-Ignite 0.4.6 和 TensorBoard 2.6.0。