专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Dev Cell | ... ·  2 天前  
生物学霸  ·  新手必知:如何进行样本量计算? ·  2 天前  
BioArt  ·  两次不给David ... ·  4 天前  
生信菜鸟团  ·  大型队列| Nature | 美国 All ... ·  1 周前  
51好读  ›  专栏  ›  生信菜鸟团

诺奖追踪 | 得主 John AlphaFold 3 原文精读

生信菜鸟团  · 公众号  · 生物  · 2024-10-11 17:53

正文

Basic Information

  • 英文标题:Accurate structure prediction of biomolecular interactions with AlphaFold 3
  • 中文标题:使用 AlphaFold3 准确预测生物分子相互作用的结构
  • 发表日期:08 May 2024
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:Josh Abramson | John M. Jumper
  • 文章链接:https://www.nature.com/articles/s41586-024-07487-w

Abstract

Para_01
  1. AlphaFold 21 的引入激发了蛋白质结构及其相互作用建模的革命,使得在蛋白质建模和设计中有广泛的应用。
  2. 在这里,我们描述了我们的 AlphaFold 3 模型,该模型采用了大幅更新的基于扩散的架构,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。
  3. 新的 AlphaFold 模型在许多以前的专用工具上展示了显著提高的准确性:与最先进的对接工具相比,蛋白质-配体相互作用的准确性大大提高;与针对核酸的预测器相比,蛋白质-核酸相互作用的准确性显著提高;与 AlphaFold-Multimer v.2 相比,抗体-抗原预测的准确性也大幅提升。
  4. 总的来说,这些结果表明,在单一的统一深度学习框架内,可以实现跨生物分子空间的高精度建模。

Main

Para_01
  1. 准确的生物复合物模型对于理解细胞功能以及合理设计治疗药物至关重要。
  2. 随着AlphaFold1的发展,蛋白质结构预测取得了巨大进展,并且该领域在后续方法上迅速扩展,这些方法建立在AlphaFold 2(AF2)的思想和技术基础之上。
  3. 几乎在AlphaFold可用之后立即表明,简单的输入修改可以实现对蛋白质相互作用预测的惊人准确性。
  4. 并且专门为蛋白质相互作用预测训练AF2,产生了一个高度准确的系统。
Para_02
  1. 这些成功引发了一个问题,即是否有可能在深度学习框架内准确预测包含更广泛生物分子(包括配体、离子、核酸和修饰残基)的复合物的结构。
  2. 已经开发出针对各种特定相互作用类型的广泛预测器16,17,18,19,20,21,22,23,24,25,26,27,28,以及与当前工作同时开发的一种通用方法29,但这类深度学习尝试的准确性参差不齐,通常低于受物理启发的方法30,31。
  3. 几乎所有这些方法也都高度专业化于特定的相互作用类型,无法预测包含多种实体的一般生物分子复合物的结构。
Para_03
  1. 我们在此介绍AlphaFold 3(AF3)——一个能够高精度预测包含几乎所有蛋白质数据库(PDB)中分子类型的复合物的模型(图1a,b)。
  2. 在除了一类之外的所有类别中,它相较于仅在特定任务上擅长的方法,实现了显著更高的性能(图1c和扩展数据表1),包括在蛋白质结构以及蛋白质-蛋白质相互作用的结构上更高的准确性。

Fig. 1: AF3 accurately predicts structures across biomolecular complexes.

  • a, b, 使用AF3预测的示例结构。
  • a, 细菌CRP/FNR家族转录调节蛋白结合DNA和cGMP(PDB 7PZB;完整复合物LDDT47, 82.8;全局距离测试(GDT)48, 90.1)。
  • b, 人冠状病毒OC43刺突蛋白,4,665个残基,高度糖基化并结合中和抗体(PDB 7PNM;完整复合物LDDT, 83.0;GDT, 83.1)。
  • c, AF3在PoseBusters(v.1,2023年8月发布)上的性能,我们最近的PDB评估集和CASP15 RNA。
  • 指标如下:口袋对齐配体r.m.s.d. < 2 Å的百分比,适用于配体和共价修饰;蛋白质-核酸复合物的界面LDDT;核酸和蛋白质单体的LDDT;以及蛋白质-蛋白质和蛋白质-抗体界面DockQ > 0.23的百分比。
  • 所有分数均来自五个模型种子(每个种子有五个扩散样本)中置信度排名最高的样本, except for protein–antibody scores, which were ranked across 1,000 model seeds for both models (each AF3 seed with five diffusion samples).
  • 采样和排名细节在方法部分提供。
  • 对于配体,n表示目标数量;对于核酸,n表示结构数量;对于修饰,n表示簇数量;对于蛋白质,n表示簇数量。
  • 条形图高度表示平均值;误差条表示PoseBusters的精确二项分布95%置信区间,其他通过10,000次自助重抽样计算。
  • 显著性水平使用双尾Fisher精确检验计算PoseBusters,使用双尾Wilcoxon符号秩检验计算其他;***P < 0.001, **P < 0.01。
  • 精确P值(从左到右)如下:2.27 × 10−13, 2.57 × 10−3, 2.78 × 10−3, 7.28 × 10−12, 1.81 × 10−18, 6.54 × 10−5 和 1.74 × 10−34。
  • AF-M 2.3, AlphaFold-Multimer v.2.3;dsDNA,双链DNA。
  • d, AF3推理架构。
  • 矩形表示处理模块,箭头显示数据流。
  • 黄色,输入数据;蓝色,抽象网络激活;绿色,输出数据。
  • 彩色球表示物理原子坐标。
Para_04
  1. 这是通过AF2架构和训练程序的实质性演变实现的(图1d),旨在适应更广泛的化学结构并提高学习的数据效率。
  2. 该系统通过用更简单的pairformer模块替换AF2 evoformer,减少了多重序列比对(MSA)的处理量(图2a)。
  3. 此外,它通过扩散模块直接预测原始原子坐标,取代了在氨基酸特定框架和侧链扭转角上操作的AF2结构模块(图2b)。
  4. 扩散过程的多尺度特性(低噪声水平促使网络改善局部结构)也使我们能够消除立体化学损失和网络中大多数特殊键合模式处理,轻松适应任意化学组分。

Fig. 2: Architectural and training details.

Fig__2__Architectural_and_training_details_.png
  • a, 配对模块。输入和输出:配对表示的维度为 (n, n, c),单一表示的维度为 (n, c)。n 是标记的数量(聚合物残基和原子);c 是通道的数量(配对表示为128,单一表示为384)。每个48个块都有一组独立的可训练参数。
  • b, 扩散模块。输入:粗略数组描绘每个标记的表示(绿色,输入;蓝色,配对;红色,单一)。精细数组描绘每个原子的表示。彩色球代表物理原子坐标。Cond.,条件;rand. rot. trans.,随机旋转和平移;seq.,序列。
  • c, 训练设置(省略了距离图头部),从网络主干末端开始。彩色数组显示来自网络主干的激活(绿色,输入;蓝色,配对;红色,单一)。蓝色箭头显示抽象激活数组。黄色箭头显示真实数据。绿色箭头显示预测数据。停止标志表示梯度停止。图中所示的扩散模块共享权重。
  • d, 初始训练和微调阶段的训练曲线,显示了我们评估集上的LDDT随优化器步骤的变化。散点图显示了原始数据点,线条显示了使用宽度为九个数据点的中值滤波器平滑后的性能。十字标记表示平滑性能达到初始训练最大值的97%的点。

Network architecture and training

Para_01
  1. AF3的整体结构(图1d和补充方法3)与AF2相似,有一个大型主干部分,逐步演化出化学复合物的成对表示,随后是一个结构模块,该模块使用成对表示生成明确的原子位置,但每个主要组件之间存在较大差异。
  2. 这些修改既是为了适应广泛的化学实体,避免过多的特殊处理,也是基于对AF2在不同修改下性能的观察。
  3. 在主干部分,MSA处理被大幅弱化,采用了一个更小且更简单的MSA嵌入块(补充方法3.3)。
  4. 与AF2中的原始evoformer相比,块的数量减少到四个,MSA表示的处理使用了一种低成本的成对加权平均方法,并且只有成对表示用于后续处理步骤。
  5. ‘pairformer’(图2a和补充方法3.6)取代了AF2中的evoformer,成为主要的处理块。
  6. 它仅作用于成对表示和单一表示;MSA表示不被保留,所有信息都通过成对表示传递。
  7. 成对处理和块的数量(48个)与AF2基本保持不变。
  8. 生成的成对表示和单一表示,连同输入表示,一起传递到新的扩散模块(图2b),该模块取代了AF2的结构模块。
Para_02
  1. 扩散模块(图2b和补充方法3.7)直接在原始原子坐标和粗略的抽象标记表示上操作,不涉及旋转框架或任何等变性处理。
  2. 我们在AF2中观察到,去除结构模块的大部分复杂性对预测精度的影响并不大,而保持主链框架和侧链扭转表示为通用分子图增加了相当多的复杂性。
  3. 同样,AF2在训练过程中需要仔细调整立体化学违规惩罚,以确保生成结构的化学合理性。
  4. 我们使用一种相对标准的扩散方法,其中扩散模型被训练以接收‘噪声’原子坐标,并预测真实坐标。
  5. 这项任务要求网络学习各种长度尺度的蛋白质结构,其中小噪声的去噪任务强调理解非常局部的立体化学,而高噪声的去噪任务强调系统的大尺度结构。
  6. 在推理阶段,随机噪声被采样,然后递归去噪以生成最终结构。
  7. 重要的是,这是一种生成式训练过程,产生了一系列答案分布。
  8. 这意味着,对于每个答案,局部结构将非常明确(例如,侧链键几何),即使网络对位置不确定时也是如此。
  9. 因此,我们能够避免基于扭转的残基参数化和结构上的违规损失,同时处理通用配体的全部复杂性。
  10. 与一些近期工作类似,我们发现架构中不需要对分子的全局旋转和平移进行不变性或等变性处理,因此我们省略了这些以简化机器学习架构。
Para_03
  1. 使用生成扩散方法带来了一些技术挑战,我们需要解决这些问题。
  2. 最大的问题是生成模型容易产生幻觉,即模型可能在无结构区域创造出看似合理的结构。
  3. 为了抵消这种效应,我们使用了一种交叉蒸馏方法,通过用AlphaFold-Multimer(v.2.3)预测的结构来丰富训练数据。
  4. 在这些结构中,无结构区域通常由长扩展环表示,而不是紧凑结构,训练这些数据‘教会’AF3模仿这种行为。
  5. 这种交叉蒸馏大大减少了AF3的幻觉行为(扩展数据图1显示了在CAID 236基准集上的无序预测结果)。
Para_04
  1. 我们还开发了置信度测量方法,用于预测我们最终结构中的原子级和成对错误。
  2. 在AF2中,这是通过直接回归训练过程中结构模块输出的误差来实现的。
  3. 然而,这一过程不适用于扩散训练,因为只训练了扩散的单个步骤,而不是完整的结构生成(图2c)。
  4. 为了弥补这一点,我们开发了一种扩散‘展开’程序,用于训练过程中的完整结构预测生成(使用比正常更大的步长;图2c(迷你展开))。
  5. 然后使用这个预测结构来排列对称的真实链和配体,并计算性能指标以训练置信度头部。
  6. 置信度头部使用成对表示来预测修改后的局部距离差异测试(pLDDT)和预测对齐误差(PAE)矩阵,如同AF2一样,以及距离误差矩阵(PDE),这是预测结构的距离矩阵与真实结构之间的误差(详细信息见补充方法4.3)。
Para_05
  1. 图2d显示,在初始训练阶段,模型迅速学会了预测局部结构(所有链内指标迅速上升,在最初的20,000个训练步骤内达到了最大性能的97%),而模型需要更长的时间来学习全局构型(界面指标上升缓慢,蛋白质-蛋白质界面LDDT在60,000个步骤后才超过97%的标准)。
  2. 在AF3开发过程中,我们观察到某些模型能力较早达到顶峰并开始下降(很可能是由于过度拟合到有限数量的训练样本所致),而其他能力仍然训练不足。
  3. 我们通过增加或减少相应训练集的采样概率(补充方法2.5.1)来解决这一问题,并通过使用所有上述指标和一些额外指标的加权平均值进行早期停止,以选择最佳模型检查点(补充表7)。
  4. 使用更大裁剪尺寸的微调阶段在所有指标上改善了模型性能,特别是在蛋白质-蛋白质界面上有显著提升(扩展数据图2)。

Accuracy across complex types

Para_01
  1. AF3 可以根据输入的聚合物序列、残基修饰和配体 SMILES(简化分子输入线性表单系统)预测结构。
  2. 在图3中,我们展示了一些示例,突出了模型在推广到多种生物学重要和具有治疗相关性的模态方面的能力。
  3. 在选择这些示例时,我们考虑了个体链和界面与训练集相似性的新颖性(补充方法8.1中提供了更多信息)。

Fig. 3: Examples of predicted complexes.

Fig__3__Examples_of_predicted_complexes_.png
  • 选自AF3的结构预测。预测的蛋白质链以蓝色显示(预测的抗体为绿色),预测的配体和糖类以橙色显示,预测的RNA以紫色显示,而真实结构以灰色显示。
  • a, 人类40S小核糖体亚基(7,663个残基),包括18S核糖体RNA和Met-tRNAiMet(不透明紫色),与翻译起始因子eIF1A和eIF5B(不透明蓝色;PDB 7TQL;完整复合物LDDT,87.7;GDT,86.9)形成复合物。
  • b, EXTL3同二聚体的糖基化球状部分(PDB 7AU2;口袋对齐的平均r.m.s.d.,1.10 Å)。
  • c, 间皮素C端肽与单克隆抗体15B6结合(PDB 7U8C;DockQ,0.85)。
  • d, 临床阶段抑制剂LGK974,与PORCN和WNT3A肽形成的复合物结合(PDB 7URD;配体r.m.s.d.,1.00 Å)。
  • e, (5S,6S)-O7-磺酸DADH与具有新颖折叠的AziU3/U2复合物结合(PDB 7WUX;配体r.m.s.d.,1.92 Å)。
  • f, NIH-12848类似物与PI5P4Kγ的变构位点结合(PDB 7QIE;配体r.m.s.d.,0.37 Å)。
Para_02
  1. 我们评估了该系统在每种复合类型的最近特定界面基准上的性能(图1c和扩展数据表1)。
  2. 蛋白质-配体界面的性能在PoseBusters基准数据集上进行评估,该数据集由2021年或之后发布到PDB的428个蛋白质-配体结构组成。
  3. 由于我们的标准训练截止日期是2021年,我们训练了一个单独的AF3模型,其训练集截止日期较早(方法)。
  4. PoseBusters数据集上的准确性报告为口袋对齐的配体均方根偏差(r.m.s.d.)小于2 Å的蛋白质-配体对百分比。
  5. 基线模型分为两类:仅使用蛋白质序列和配体SMILES作为输入的模型,以及额外泄露已解决蛋白质-配体测试结构信息的模型。
  6. 传统对接方法使用后者特权信息,尽管这些信息在现实世界的使用案例中是不可用的。
  7. 即便如此,AF3在没有使用任何结构输入的情况下,仍大大优于经典的对接工具,如Vina(Fisher精确检验,P = 2.27 × 10−13),并且大大优于所有其他真正的盲对接,如RoseTTAFold All-Atom(P = 4.45 × 10−25)。
  8. 扩展数据图3展示了三个AF3实现准确预测而对接工具Vina和Gold未实现的例子。
  9. PoseBusters分析使用2019年9月30日作为AF3的训练截止日期,以确保模型未在任何PoseBusters结构上进行训练。
  10. 为了与RoseTTAFold All-Atom结果进行比较,我们使用了PoseBusters版本1。
  11. 版本2(从基准数据集中移除了晶体接触)的结果,包括质量指标,显示在扩展数据图4b-f和扩展数据表1中。
  12. 我们使用多个种子以确保正确的手性并避免轻微的蛋白质-配体冲突(与扩散引导方法强制执行相反),但我们通常能够产生高质量的立体化学。
  13. 另外,我们还训练了一个接收"口袋信息"的AF3版本,该信息在一些最近的深度学习工作中使用(结果显示在扩展数据图4a中)。
Para_03
  1. AF3 预测蛋白质-核酸复合物和RNA结构的准确性高于RoseTTAFold2NA15(图1c(第二图))。
  2. 由于RoseTTAFold2NA仅验证了低于1,000个残基的结构,因此我们仅使用我们最近PDB评估集中低于1,000个残基的结构进行此比较(方法部分)。
  3. AF3能够预测具有数千个残基的蛋白质-核酸结构,其中一个示例显示在图3a中。
  4. 请注意,我们并未直接与RoseTTAFold全原子模型进行比较,但基准测试表明,RoseTTAFold全原子模型在核酸预测方面的准确性略低于RoseTTAFold2NA。
Para_04
  1. 我们还评估了AF3在十个公开可用的结构预测关键评估15(CASP15)RNA靶标上的性能:我们在与我们和他们的预测的共同子集上实现了比RoseTTAFold2NA和AIchemy_RNA27(CASP1518,31中最佳的基于AI的提交)更高的平均性能(详细结果见扩展数据图5a)。
  2. 我们没有达到最佳的人类专家辅助CASP15提交AIchemy_RNA239的性能(图1c(中左))。
  3. 由于数据集规模有限,我们在此不报告显著性测试统计。
  4. 对仅预测核酸(不含蛋白质)的准确性的进一步分析见扩展数据图5b。
Para_05
  1. 共价修饰(结合配体、糖基化以及修饰的蛋白质残基和核酸碱基)也能被AF3准确预测(图1c(中右))。
  2. 修饰包括对任何聚合物残基(蛋白质、RNA或DNA)的修饰。
  3. 我们将准确性报告为成功预测的百分比(口袋r.m.s.d. < 2 Å)。
  4. 我们对结合配体和糖基化数据集应用了质量过滤器(PoseBusters也是如此):我们只包括具有高质量实验数据的配体(根据RCSB结构验证报告,ranking_model_fit > 0.5,即模型质量高于中位数的X射线结构)。
  5. 与PoseBusters数据集一样,结合配体和糖基化数据集未通过同源性过滤训练数据集。
  6. 基于结合聚合物链同源性进行过滤(使用聚合物模板相似性< 40)仅产生了五个结合配体聚类和七个糖基化聚类。
  7. 我们在此排除了多残基糖链,因为RCSB验证报告未为它们提供ranking_model_fit值。
  8. 在所有质量实验数据中,多残基糖链的成功预测百分比(口袋r.m.s.d. < 2 Å)为42.1%(n = 131个聚类),略低于单残基糖链在所有质量实验数据中的成功率46.1%(n = 167)。
  9. 修饰残基数据集的过滤方式类似于我们的其他聚合物测试集:它仅包含与训练集同源性低的聚合物链中的修饰残基(方法)。
  10. 详细结果见扩展数据表1,扩展数据图6展示了预测的带有共价修饰的蛋白质、DNA和RNA结构的示例,包括对磷酸化影响的分析。
Para_06
  1. 在扩展建模能力的同时,AF3在蛋白质复合物的准确性方面相对于AlphaFold-Multimer(v.2.3)也有所提升。
  2. 一般来说,蛋白质-蛋白质预测成功率(DockQ > 0.23)有所提高(配对Wilcoxon符号秩检验,P = 1.8 × 10−18),特别是抗体-蛋白质相互作用预测显示出显著改善(见图1c(右);配对Wilcoxon符号秩检验,P = 6.5 × 10−5,预测结果从1000个而非通常的5个种子中选出;更多细节见图5a)。
  3. 蛋白质单体的LDDT改进也非常显著(配对Wilcoxon符号秩检验,P = 1.7 × 10−34)。
  4. AF3对MSA深度的依赖性与AlphaFold-Multimer v.2.3非常相似;具有浅层MSA的蛋白质预测准确性较低(单链LDDT对MSA深度依赖性的比较见扩展数据图7a)。
Para_07
  1. 图2d显示,在初始训练阶段,模型迅速学会预测局部结构(所有链内指标迅速上升,并在前20,000个训练步骤内达到最大性能的97%),而模型需要更长的时间来学习全局构型(界面指标缓慢上升,蛋白质-蛋白质界面LDDT在60,000个步骤后才超过97%的门槛)。
  2. 在AF3开发过程中,我们观察到一些模型能力较早达到顶峰并开始下降(很可能是由于过度拟合到有限数量的训练样本),而其他能力仍然训练不足。
  3. 我们通过增加或减少相应训练集的采样概率(补充方法2.5.1)来解决这一问题,并通过使用所有上述指标和一些额外指标的加权平均值进行早期停止,以选择最佳模型检查点(补充表7)。
  4. 使用更大裁剪尺寸的微调阶段在所有指标上改善了模型,特别是在蛋白质-蛋白质界面上有显著提升(扩展数据图2)。

Predicted confidences track accuracy

Para_01
  1. 与AF2一样,AF3的置信度度量与准确性校准得很好。
  2. 我们的置信度分析是在最近的PDB评估集上进行的,没有同源性过滤,并包括肽。
  3. 配体类别被过滤为上述描述的高质量实验结构,并且仅考虑标准非键合配体。
  4. 参见扩展数据图8,了解对键合配体和其他界面的类似评估。
  5. 所有统计数据都是聚类加权的(方法),并且仅考虑最高排名的预测(排名细节在补充方法5.9.3中提供)。
Para_02
  1. 在图4a(第一行)中,我们绘制了链对接口预测的TM(ipTM)得分41(补充方法5.9.1)与接口准确性度量之间的关系:蛋白质-蛋白质DockQ、蛋白质-核酸接口LDDT(iLDDT)和蛋白质-配体成功率,其中成功定义为低于阈值口袋对齐r.m.s.d.值的示例百分比。在图4a(第二行)中,我们绘制了每个蛋白质、核苷酸或配体实体的平均pLDDT与我们定制的LDDT_to_polymer度量(度量细节在方法中提供)之间的关系,这与pLDDT预测器的训练目标密切相关。

Fig. 4: AF3 confidences track accuracy.

Fig__4__AF3_confidences_track_accuracy_.png
  • a, 蛋白质包含界面的准确性作为链对ipTM的函数(顶部)。底部,评估了各种链类型的LDDT到聚合物的准确性,作为链平均pLDDT的函数。箱线图显示了25–75%置信区间(箱线限制)、中位数(中心线)和5–95%置信区间(须线)。n值报告了每个波段中的簇数。
  • b, PDB 7T82的预测结构按pLDDT着色(橙色,0–50;黄色,50–70;青色,70–90;蓝色,90–100)。
  • c, 同一预测按链着色。
  • d, 蛋白质-蛋白质界面的DockQ评分。
  • e, 同一预测的PAE矩阵(颜色越深表示越自信),侧边栏按c中的链着色。虚黑线表示链边界。
Para_03
  1. 在图4b-e中,我们突出展示了7T82的单个示例预测,其中每个原子的pLDDT着色识别了不自信的链尾、较为自信的界面以及其余自信的二级结构。
  2. 在图4c中,同样的预测按链着色,同时在图4d中展示了DockQ界面评分,并在轴上显示了按链着色以供参考。
  3. 我们从图4e中看到,对于粉红色-灰色和蓝色-橙色残基对,当DockQ > 0.7时,PAE置信度较高,而对于粉红色-橙色和粉红色-蓝色残基对,DockQ ≈ 0时,置信度最低。
  4. 在扩展数据图5c,d中展示了一个包含蛋白质和核酸链的示例的类似PAE分析。
Para_03
  1. 我们评估了该系统在每种复合类型最近的特定界面基准上的性能(图1c和扩展数据表1)。
  2. 蛋白质-配体界面的性能在PoseBusters基准数据集上进行了评估,该数据集由2021年或之后发布到PDB的428个蛋白质-配体结构组成。
  3. 由于我们的标准训练截止日期是2021年,我们训练了一个具有更早训练集截止时间的独立AF3模型(方法)。
  4. PoseBusters数据集上的准确性报告为口袋对齐的配体均方根偏差(r.m.s.d.)小于2 Å的蛋白质-配体对百分比。
  5. 基线模型分为两类:仅使用蛋白质序列和配体SMILES作为输入的模型,以及额外从已解决的蛋白质-配体测试结构中泄露信息的模型。
  6. 传统的对接方法使用后者的特权信息,尽管这些信息在实际应用场景中是不可用的。
  7. 即便如此,AF3在未使用任何结构输入的情况下,仍大大优于经典的对接工具,如Vina37,38(费舍尔精确检验,P = 2.27 × 10−13),并且大大优于所有其他真正的盲对接,如RoseTTAFold All-Atom(P = 4.45 × 10−25)。
  8. 扩展数据图3展示了三个AF3实现准确预测但对接工具Vina和Gold未实现的例子37。
  9. PoseBusters分析使用2019年9月30日的训练截止时间进行AF3,以确保模型未在任何PoseBusters结构上进行训练。
  10. 为了与RoseTTAFold All-Atom结果进行比较,我们使用了PoseBusters版本1。
  11. 版本2(从基准数据集中移除了晶体接触)的结果,包括质量指标,显示在扩展数据图4b-f和扩展数据表1中。
  12. 我们使用多个种子以确保正确的手性并避免轻微的蛋白质-配体冲突(与使用扩散引导强制的方法不同),但我们通常能够产生高质量的立体化学。
  13. 另外,我们还训练了一个接收"口袋信息"的AF3版本,该信息在某些最近的深度学习工作中使用24,26(结果显示在扩展数据图4a中)。
Para_04
  1. AF3 预测蛋白质-核酸复合物和 RNA 结构的准确性高于 RoseTTAFold2NA15(图 1c(第二幅图))。
  2. 由于 RoseTTAFold2NA 仅在低于 1,000 个残基的结构上进行了验证,因此我们在此次比较中仅使用了我们最近 PDB 评估集中低于 1,000 个残基的结构(方法部分)。
  3. AF3 能够预测含有数千个残基的蛋白质-核酸结构,图 3a 展示了其中一个示例。
  4. 请注意,我们没有直接与 RoseTTAFold 全原子模型进行比较,但基准测试表明,RoseTTAFold 全原子模型在核酸预测方面的准确性略低于 RoseTTAFold2NA29。
Para_05
  1. 我们还评估了AF3在十个公开可用的结构预测关键评估15(CASP15)RNA目标上的性能:我们的平均性能高于RoseTTAFold2NA和AIchemy_RNA27(CASP15中最佳的基于AI的提交18,31),在各自的预测共同子集上(详细结果见扩展数据图5a)。
  2. 我们没有达到CASP15中最佳的人类专家辅助提交AIchemy_RNA239的性能(图1c(中左))。
  3. 由于数据集规模有限,我们在此不报告显著性测试统计。
  4. 对单独预测核酸(不含蛋白质)的准确性的进一步分析见扩展数据图5b。

Model limitations

Para_01
  1. 我们注意到AF3模型在立体化学、幻觉、动力学以及某些目标的准确性方面存在局限性。
Para_02
  1. 在立体化学方面,我们注意到两类主要的违规情况。
  2. 第一类是模型输出并不总是尊重手性(图5b),尽管模型接收到的参考结构作为输入特征具有正确的手性。
  3. 为了在PoseBusters基准测试中解决这一问题,我们在模型预测的排名公式中加入了手性违规的惩罚项。
  4. 尽管如此,我们在基准测试中仍然观察到4.4%的手性违规率。
  5. 第二类立体化学违规是模型偶尔会在预测中产生重叠(冲突)的原子。
  6. 这有时表现为同源分子中的极端违规,其中整个链被观察到重叠(图5e)。
  7. 在排名过程中对冲突进行惩罚(补充方法5.9.3)减少了这种失败模式的发生,但并未完全消除。
  8. 几乎所有剩余的冲突都发生在蛋白质-核酸复合物中,这些复合物中核酸大于100个,总残基数大于2000个。

Fig. 5: Model limitations.

Fig__5__Model_limitations_.png
  • 抗体预测质量随着模型种子数量的增加而提高。高排名、低同源性抗体-抗原界面预测的质量作为种子数量的函数。每个数据点显示了从1,200个种子中随机抽取(有放回)1,000个种子进行排名的平均值。置信区间为每个数据点上进行10,000次重抽样的95%自助法聚类得分。每个界面的样本按蛋白质-蛋白质ipTM排名。显著性检验采用双尾Wilcoxon符号秩检验。n = 65个聚类。确切P值如下:2.0 × 10−5(正确百分比)和P = 0.009(非常高的准确百分比)。
  • b, 预测(彩色)和真实(灰色)结构的热球菌α-葡萄糖醛酸酶和β-d-葡萄糖醛酸——来自PoseBusters集的一个目标(PDB: 7CTM)。AF3预测α-d-葡萄糖醛酸;不同的手性中心用星号表示。所示预测按配体-蛋白质ipTM排名最高,并带有手性和冲突惩罚。
  • c, 构象覆盖有限。cereblon的真实结构(灰色)在开放(apo,PDB: 8CVP;左)和闭合(holo mezigdomide结合,PDB: 8D7U;右)构象中。预测(蓝色)的apo(叠加了10个样本)和holo结构均为闭合构象。虚线表示N端Lon蛋白酶样和C端沙利度胺结合域之间的距离。
  • d, 一个具有1,854个未解析残基的核孔复合物(PDB: 7F60)。展示了真实结构(左)和来自AlphaFold-Multimer v.2.3(中)和AF3(右)的预测。
  • e, 预测一个三核小体,其中DNA(粉色)和蛋白质(蓝色)链重叠;突出显示的是重叠的蛋白质链B和J以及自重叠的DNA链AA。除非另有说明,预测按我们的全局复合物排名指标进行最高排名,并带有手性不匹配和立体冲突惩罚(补充方法5.9.1)。
Para_03
  1. 我们注意到,从非生成式的AF2模型切换到基于扩散的AF3模型,在无序区域引入了虚假结构顺序(幻觉)的挑战(见图5d和扩展数据图1)。
  2. 尽管幻觉区域通常被标记为非常低置信度,但它们可能缺乏AF2在无序区域产生的独特带状外观。
  3. 为了鼓励AF3中产生带状预测,我们使用来自AF2预测的蒸馏训练,并添加了一个排序项,以鼓励具有更多溶剂可及表面积的结果。
Para_04
  1. 蛋白质结构预测模型的一个关键局限性是,它们通常预测的是在PDB中看到的静态结构,而不是生物分子系统在溶液中的动态行为。
  2. 这一局限性在AF3中仍然存在,其中多个随机种子用于扩散头或整个网络,并不能产生溶液集合的近似值。
Para_05
  1. 在某些情况下,根据指定的配体和其他输入,所建模的构象状态可能不正确或不全面。
  2. 例如,E3泛素连接酶在无配体状态下天然采用开放构象,并且仅在结合配体时观察到闭合状态,但AF3无论对全态还是无配体系统都仅预测闭合状态(图5c)。
  3. 已经开发了许多方法,特别是围绕多序列比对重采样,这些方法有助于从之前的AlphaFold模型生成多样性,也可能有助于使用AF3进行多状态预测。
Para_06
  1. 尽管AF3在建模准确性方面取得了巨大进步,但仍有许多目标难以进行准确建模。
  2. 为了获得最高的准确性,可能需要生成大量预测并进行排序,这会带来额外的计算成本。
  3. 我们观察到这种效应在抗体-抗原复合物这一类目标中尤为明显,类似于其他近期研究。
  4. 图5a显示,对于AF3,随着模型种子数量的增加,排名靠前的预测结果持续改进,即使达到1000个种子也是如此(5到1000个种子之间的Wilcoxon符号秩检验,正确率的P值为2.0 × 10−5,非常高准确率的P值为0.009;按蛋白质-蛋白质界面ipTM排序)。
  5. 这种大量种子带来的显著改进在其他类别的分子中通常未观察到(扩展数据图7b)。
  6. 对于AF3预测,每个模型种子使用一个扩散样本而不是五个(未展示),结果没有显著变化,这表明运行更多模型种子对于提高抗体评分是必要的,而不仅仅是增加扩散样本数量。

Discussion

Para_01
  1. 分子生物学的核心挑战是理解和最终调控生物系统的复杂原子相互作用。
  2. AF3模型在这方面迈出了一大步,证明了在一个统一框架内准确预测广泛生物分子系统的结构是可能的。
  3. 尽管在所有相互作用类型中实现高度准确预测仍存在重大挑战,但我们证明了可以构建一个深度学习系统,该系统对这些相互作用显示出强大的覆盖性和泛化能力。
  4. 我们还证明了跨实体进化信息的缺乏并不是预测这些相互作用的实质性障碍,此外,抗体结果的显著改进表明,AlphaFold衍生方法能够模拟分子相互作用类别的化学和物理特性,而不依赖于多序列比对(MSA)。
  5. 最后,蛋白质-配体结构预测的显著改进表明,在一个通用的深度学习框架内处理化学空间的广泛多样性是可能的,而无需依赖于蛋白质结构预测和配体对接之间的人为分离。
Para_02
  1. 细胞成分自下而上建模的发展是揭示细胞内分子调控复杂性的关键步骤,AF3的表现表明,开发正确的深度学习框架可以大幅减少获取生物相关性能所需的数据量,并放大已收集数据的影响。
  2. 我们预计,结构建模将继续改进,这不仅得益于深度学习的进步,还因为实验结构测定方法的持续方法论进步,例如冷冻电子显微镜和断层扫描的显著改进,将提供大量新的训练数据,以进一步提高这些模型的泛化能力。
  3. 实验和计算方法的并行发展有望推动我们进一步进入一个结构信息丰富的生物学理解和治疗开发的时代。

Methods

Full algorithm details

完整的算法细节

Para_01
  1. 组件的详细解释见补充方法2-5。
  2. 此外,伪代码见补充算法1-31,网络图见图1d和图2a-c及补充图2,输入特征见补充表5,训练的额外超参数见补充表3、4和7。

Training regime

训练计划

Para_01
  1. 尽管AF3在建模准确性方面取得了巨大进步,但对于许多目标而言,准确建模仍然具有挑战性。
  2. 为了获得最高的准确性,可能需要生成大量的预测并进行排序,这会带来额外的计算成本。
  3. 我们观察到这种效应在抗体-抗原复合物这一类目标中尤为明显,类似于其他近期的研究。
  4. 图5a显示,对于AF3,排名靠前的预测随着模型种子的增多而持续改进,即使多达1,000个种子也是如此(5到1,000个种子之间的Wilcoxon符号秩检验,百分比正确的P值为2.0 × 10−5,百分比极高准确度的P值为0.009;按蛋白质-蛋白质界面ipTM排序)。
  5. 这种大量种子带来的显著改进在其他类别的分子中通常并未观察到(扩展数据图7b)。
  6. 对于AF3预测,每个模型种子使用一个扩散样本而不是五个(未展示),结果没有显著变化,这表明运行更多模型种子是提高抗体评分的必要条件,而不仅仅是增加扩散样本。

Inference regime

推理机制

Para_01
  1. 2021年9月30日之后没有发布推理时间模板或参考配体位置特征,并且在PoseBusters评估的情况下,使用了更早的截止日期,即2019年9月30日。
  2. 该模型可以使用不同的随机种子运行以生成替代结果,每个种子生成一批扩散样本。
  3. 除非另有说明,所有结果都是通过选择同一训练模型的5个种子运行中的最高置信度样本生成的,每个模型种子生成5个扩散样本,总计有25个样本可供选择。
  4. 标准结晶辅助工具被排除在预测之外(补充表8)。
Para_02
  1. 结果显示的是排名最高的样本,样本排名取决于是否试图选择全局最佳输出,或是针对某些链、界面或修饰残基的最佳输出。全局排名结合使用了pTM和ipTM,以及减少大量冲突案例和提高无序率的术语;单个链排名使用特定链的pTM度量;界面排名使用相关链对的定制ipTM度量;修饰残基排名使用感兴趣残基的平均pLDDT(补充方法5.9.3)。

Metrics

指标

Para_01
  1. 评估将预测的结构与相应的真实结构进行比较。
  2. 如果复合物包含多个相同的实体,通过最大化LDDT来找到预测单元与真实单元的对应关系。
  3. 配体中原子的局部对称群中的分配通过穷举搜索前1000个残基对称性来解决,这些对称性由RDKit给出。
Para_02
  1. 我们使用DockQ、LDDT或口袋对齐的r.m.s.d.来衡量预测的质量。
  2. 对于核酸-蛋白质界面,我们通过iLDDT来衡量界面准确性,该值是通过计算界面中不同链之间原子的距离得出的。
  3. DockQ和iLDDT高度相关(扩展数据图9),因此DockQ的标准截止值可以转换为等效的iLDDT截止值。
  4. 核酸LDDT(链内和界面)的计算采用30 Å的包含半径,而蛋白质通常使用15 Å,这是由于核酸的更大尺度。
  5. 为了信心校准评估,我们使用一种定制的LDDT(LDDT_to_polymer)指标,该指标考虑了给定实体的每个原子与其包含半径内的任何Cα或C1′聚合物原子之间的差异。
  6. 这与信心预测的训练方式密切相关(补充方法4.3.1)。
Para_03
  1. 口袋对齐的r.m.s.d.计算方法如下:口袋被定义为所有距离配体任何重原子10 Å以内的重原子,限制在配体或待评分的修饰残基的主要聚合物链上,并且对于蛋白质进一步限制仅为骨架原子。
  2. 主要聚合物链的定义各不相同:对于PoseBusters,它是距离配体10 Å以内原子最多的蛋白质链;对于键合配体评分,它是键合的聚合物链;而对于修饰残基,它是包含该残基的链(减去该残基)。
  3. 口袋用于将预测结构与真实结构进行最小二乘刚体对齐,然后计算配体所有重原子的r.m.s.d。

Recent PDB evaluation set

最近的PDB评估集

Para_01
  1. 一般模型评估是在我们最近的PDB数据集上进行的,该数据集包含2022年5月1日至2023年1月12日发布的8,856个PDB复合物。
  2. 该数据集几乎包含了在此期间发布的所有小于5,120个模型标记大小的PDB复合物(补充方法6.1)。
  3. 每个结构中的单链和界面是分别评分的,而不是仅查看完整复合物的评分,并且对链和界面进行了聚类,以便首先在聚类内汇总评分,然后跨聚类计算平均评分,或者使用聚类大小的倒数加权来进行分布统计(补充方法6.2和6.4)。
Para_02
  1. 配体的评估排除了标准结晶辅助剂(补充表8)、我们的配体排除列表(补充表9)和糖类(补充表10)。
  2. 键合配体和非键合配体分别进行评估。
  3. 离子仅在特别提及的情况下包含在内(补充表11)。
Para_03
  1. 最近的PDB数据集被筛选为一个低同源性子集(补充方法6.1),用于某些结果中所述的情况。
  2. 同源性定义为与训练集中的序列的序列同一性,并通过模板搜索来测量(补充方法2.4)。
  3. 在评估复合物中的单个聚合物链,如果与训练集中的链的最大序列同一性大于40%,则会被过滤掉,其中序列同一性是指评估集链中与训练集链相同的残基百分比。
  4. 单个肽链(少于16个残基的蛋白质链)总是被过滤掉。
  5. 对于聚合物-聚合物界面,如果两个聚合物与训练集中同一复合物的两条链的序列同一性都大于40%,则该界面会被过滤掉。
  6. 对于与肽的界面,如果非肽实体与训练集中的任何链的序列同一性大于40%,则该界面会被过滤掉。
Para_04
  1. 为了比较蛋白质-蛋白质界面和蛋白质单体的预测质量与AlphaFold-Multimer(v.2.3)的预测质量,以及比较单蛋白质链预测质量对MSA深度的依赖性,我们将低同源性最近的PDB集合限制为少于20个蛋白质链且少于2,560个标记的复合物。我们与未放松的AlphaFold-Multimer v.2.3预测进行比较。
Para_05
  1. 为了研究抗体-抗原界面预测,我们筛选了低同源性最近的PDB数据集,保留至少包含一个蛋白质-蛋白质界面的复合物,其中一条蛋白质链属于两个最大的PDB链簇之一(这些簇代表抗体)。
  2. 我们进一步筛选出最多含有2,560个标记且PDB中不含未知氨基酸的复合物,以便与AlphaFold-Multimer v2.3的放松预测进行广泛比较。
  3. 最终保留了71个抗体-抗原复合物,包含166个抗体-抗原界面,跨越65个界面簇。
Para_06
  1. MSA深度分析(扩展数据图7a)基于计算查询序列每个位置的标准化有效序列数(Neff)。
  2. 每个残基的Neff值是通过计算该位置MSA中非空缺残基的数量,并使用Neff方案49对序列进行加权,阈值为80%的序列同一性,测量区域为任一序列中的非空缺部分。

Nucleic acid prediction baseline

核酸预测基线

Para_01
  1. 在训练过程中使用的结构数据在2021年9月30日之后未发布,并且对于在PoseBusters评估中使用的模型,我们过滤掉了2021年9月30日之后发布的PDB32结构。
  2. 一个优化器步骤使用256个输入数据样本的迷你批次,在初始训练期间使用256 × 48 = 12,288个扩散样本。
  3. 对于微调,扩散样本的数量减少到256 × 32 = 8,192。
  4. 模型训练分为三个阶段——初始训练阶段使用384个标记的裁剪大小,以及两个连续的微调阶段,分别使用640和768个标记的裁剪大小。
  5. 更多细节在补充方法5.2中提供。

PoseBusters

PoseBusters

Para_01
  1. 尽管其他分析使用了基于2021年9月30日截止前发布的PDB数据训练的AlphaFold模型,但我们的PoseBusters分析是在一个模型上进行的(具有相同的架构和类似的训练计划),唯一不同的是使用了更早的2019年9月30日截止的数据。因此,这次分析不包括在此日期之后发布的训练数据、推理时间模板或‘ref_pos’特征。
Para_02
  1. 推理是在指定PDBs中的非对称单元上进行的,进行了以下微小修改。
  2. 在几个PDB文件中,与目标配体冲突的链被移除(7O1T, 7PUV, 7SCW, 7WJB, 7ZXV, 8AIE)。
  3. 另一个PDB条目(8F4J)太大,无法对整个系统进行推理(超过5120个标记),所以我们只包括了距离目标配体20 Å以内的蛋白链。
  4. 每个目标产生了五个模型种子,每个种子有五个扩散样本,共生成25个预测,这些预测按质量和预测准确性进行排名:排名分数是根据ipTM聚合计算得出的(补充方法5.9.3(第3点)),如果配体存在手性错误或与蛋白冲突,则进一步除以100。
Para_03
  1. 对于口袋对齐的均方根偏差,首先通过将预测结构与真实结构对齐,对齐到主要蛋白链(与感兴趣配体在10 Å范围内的接触数最多的链)的真实口袋骨架原子(CA、C或N原子,位于感兴趣配体10 Å范围内)。
  2. 使用了PoseBusters Python包v.0.2.751来评分口袋对齐预测的均方根偏差和违规情况。
Para_04
  1. 尽管AlphaFold模型对蛋白质口袋是‘盲视’的,但对接通常是在已知蛋白质口袋残基的情况下进行的。
  2. 例如,Uni-Mol将口袋定义为任何距离感兴趣配体的重原子6 Å以内的残基。
  3. 为了评估AF3在给定口袋信息时准确对接配体的能力,我们对2019年9月30日截止的AF3模型进行了微调,增加了一个标记特征来指定口袋-配体对(补充方法2.8)。
  4. 具体来说,引入了一个额外的标记特征,对于感兴趣的配体实体以及任何距离配体实体重原子6 Å以内的口袋残基,该特征设置为真。
  5. 在训练时,随机选择一个配体实体用于此特征。
  6. 请注意,可能选择具有相同实体(CCD代码)的多个配体链。
  7. 在推理时,根据感兴趣配体的CCD代码选择配体实体,因此有时也会选择多个配体链。
  8. 此分析的结果显示在扩展数据图4中。

Model performance analysis and visualization

模型性能分析与可视化

Para_01
  1. 数据分析使用了Python v.3.11.7(https://www.python.org/)、NumPy v.1.26.3(https://github.com/numpy/numpy)、SciPy v.1.9.3(https://www.scipy.org/)、seaborn v.0.12.2(https://github.com/mwaskom/seaborn)、Matplotlib v.3.6.1(https://github.com/matplotlib/matplotlib)、pandas v.2.0.3(https://github.com/pandas-dev/pandas)、statsmodels v.0.12.2(https://github.com/statsmodels/statsmodels)、RDKit v.4.3.0(https://github.com/rdkit/rdkit)和Colab(https://research.google.com/colaboratory)。
  2. TM-align v.20190822(https://zhanglab.dcmb.med.umich.edu/TM-align/)用于计算TM分数。
  3. 结构可视化是在Pymol v.2.55.5(https://github.com/schrodinger/pymol-open-source)中创建的。

Reporting summary

报告摘要

Para_01
  1. 有关研究设计的更多信息可在与本文章链接的《自然》系列报告摘要中找到。

Data availability

Para_01
  1. 所有用于创建训练和评估输入的科学数据集均可从公共来源免费获取。
  2. 使用了来自PDB的结构进行训练和作为模板(https://files.wwpdb.org/pub/pdb/data/assemblies/mmCIF/;序列聚类可在https://cdn.rcsb.org/resources/sequence/clusters/clusters-by-entity-40.txt获取;序列数据可在https://files.wwpdb.org/pub/pdb/derived_data/获取)。
  3. 训练使用了2023年1月12日下载的PDB版本,而模板搜索使用了2022年9月28日下载的版本。
  4. 我们还使用了2023年10月19日下载的化学成分字典(https://www.wwpdb.org/data/ccd)。
  5. 我们展示了PDB中的实验结构,其接入编号为7PZB、7PNM、7TQL、7AU2、7U8C、7URD、7WUX、7QIE、7T82、7CTM、8CVP、8D7U、7F60、8BTI、7KZ9、7XFA、7PEU、7SDW、7TNZ、7R6R、7USR和7Z1K。
  6. 我们还使用了以下公开数据库进行训练或评估。详细使用情况在补充方法2.2和2.5.2中描述。
  7. UniRef90 v.2020_01(https://ftp.ebi.ac.uk/pub/databases/uniprot/previous_releases/release-2020_01/uniref/),
  8. UniRef90 v.2020_03(https://ftp.ebi.ac.uk/pub/databases/uniprot/previous_releases/release-2020_03/uniref/),
  9. UniRef90 v.2022_05(https://ftp.ebi.ac.uk/pub/databases/uniprot/previous_releases/release-2022_05/uniref/),
  10. Uniclust30 v.2018_08(https://wwwuser.gwdg.de/~compbiol/uniclust/2018_08/),
  11. Uniclust30 v.2021_03(https://wwwuser.gwdg.de/~compbiol/uniclust/2021_03/),
  12. MGnify clusters v.2018_12(https://ftp.ebi.ac.uk/pub/databases/metagenomics/peptide_database/2018_12/),
  13. MGnify clusters v.2022_05(https://ftp.ebi.ac.uk/pub/databases/metagenomics/peptide_database/2022_05/),
  14. BFD(https://bfd.mmseqs.com),
  15. RFam v.14.9(https://ftp.ebi.ac.uk/pub/databases/Rfam/14.9/),
  16. RNAcentral v.21.0(https://ftp.ebi.ac.uk/pub/databases/RNAcentral/releases/21.0/),
  17. 核苷酸数据库(截至2023年2月23日)(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz),
  18. JASPAR 2022(https://jaspar.elixir.no/downloads/;版本信息见https://jaspar.elixir.no/profile-versions),
  19. 以及来自参考文献72补充表格的SELEX蛋白序列和来自参考文献73补充表格的SELEX蛋白序列。

Code availability

Para_01
  1. AlphaFold 3 将作为仅限非商业使用的服务器在 https://www.alphafoldserver.com 上提供,对允许的配体和共价修饰有限制。
  2. 描述算法的伪代码可在补充信息中找到。
  3. 代码不提供。