原名:
AlphaFold prediction of structural ensembles of
disordered proteins
译名:
无序蛋白质结构集合的AlphaFold预测
期刊:
Nature Communications
IF:
14.7
发表时间:
2025.02
通讯作者:
Michele Vendruscolo
通讯作者单位:
英国剑桥大学
本文报道的AlphaFold-Metainference方法基于一项观察,即AlphaFold可以预测无序蛋白质中残基间的平均距离(图1)。迄今为止,这一特点可能尚未明显,这很可能是因为目前由AlphaFold提供的距离图重建单个结构是针对结构化天然状态预测而设计的。
由于实验获取无序蛋白质残基间的距离信息具有挑战性,因此比较预测的和测量的残基间距离需要考虑一些因素。在利用标签的技术中,如荧光共振能量转移(FRET)和核磁共振(NMR)光谱中的顺磁弛豫增强(PRE),标签本身的存在可能会影响构象集合的性质。在此,作者们使用了小角X射线散射(SAXS)数据和NMR扩散测量,这些技术提供了关于蛋白质无序状态中残基间距离分布的无需标签的信息。作者们的结果表明,对于一组11种既有SAXS测量数据又有NMR扩散测量数据的蛋白质,AlphaFold预测的距离分布与SAXS衍生的距离分布之间具有良好的一致性,并且作者们添加了一种折叠蛋白质(泛素,PDB:1UBQ
[https://doi.org/10.2210/pdb1UBQ/pdb])作为对照(图1)。由于AlphaFold预测的距离最远可达约22
Å,因此AlphaFold预测的距离分布并未覆盖整个SAXS衍生的分布。为了从SAXS剖面图获得SAXS衍生的距离分布,作者们使用了先前描述的方法。AlphaFold衍生的距离分布(距离图)如补充图3所示。作者们发现泛素的DKL值(0.037)与11种高度无序蛋白质的DKL值(范围:0.008–0.096)相当(图1),这进一步表明,AlphaFold对于有序和无序蛋白质的残基间距离的预测具有相当的准确性。
为了进一步验证,作者们分析了最近报道的使用全原子分子动力学(MD)模拟获得的Aβ和α-突触核蛋白的结构集合,以及使用CALVADOS-2(C2)进行的粗粒度模拟,这些模拟与实验数据吻合良好。AlphaFold预测的距离与从Aβ和α-突触核蛋白的MD集合以及从CALVADOS-2集合中反算出的距离具有良好的一致性。由于AlphaFold预测的距离最远可达约22
Å,因此这种相关性大约在这个值处停止。
图1 通过SAXS获得与通过AlphaFold预测的高度无序蛋白质的残基间距离分布比较
。
A-K,展示了11种高度无序蛋白质的结果,这些蛋白质均有SAXS和NMR扩散测量数据可供参考。SAXS衍生的残基间距离分布以黑色表示,而AlphaFold预测的平均残基间距离分布以蓝色表示。AlphaFold预测中的截断距离为21.84 Å,因此蓝色线条在此值处终止。为便于比较,作者们报告了SAXS与AlphaFold预测的平均残基间距离分布之间的Kullback-Leibler散度(DKL)。所示蛋白质包括:ANAC046(A)、A1(B)、ProTα(C)、GHR-IDC(D)、tau(E)、Sic1(F)、DSS1(G)、NHE6cmdd(H)、RS(I)、Hst5(J)和α-突触核蛋白(K)。L,为进行比较,作者们展示了一种折叠蛋白质(泛素)的结果。
如上所述,利用小角X射线散射测量可以计算出成对距离分布(图2A-K,黑色曲线)。作者们比较了这些实验得出的距离分布与从AlphaFold-Metainference模拟确定的结构集合中获得的距离分布(图2A-K,绿色曲线),比较对象为上文提到的11种高度无序蛋白质。作者们选择这组蛋白质是因为有可用的SAXS数据,以及它们的长度范围(24-414个残基)和缩放指数ν(0.49-0.62)的范围。为了进行比较,作者们还展示了使用CALVADOS-2获得的距离分布(图2A-K,橙色曲线),以及直接从单个AlphaFold结构中生成的AlphaFold派生距离分布(图2A-K,紫色曲线)。为了提供定量比较,作者们发现与单个AlphaFold派生结构相比,AlphaFold-Metainference和CALVADOS-2提供的结构集合与SAXS数据更为一致(图2L)。结合AlphaFold-Metainference与标准AlphaFold预测结构所得回转半径(Rg)及实验小角X射线散射数据的比较分析,这些结果表明单一的AlphaFold预测结构并不能与实验SAXS数据达成良好吻合。作者们进一步使用核磁共振(NMR)化学位移来比较结构集合,这些化学位移是使用CamShift在每个时间步长进行反算获得。尽管基于结构的化学位移预测会带来相当大的误差,但举例来说,作者们发现使用AlphaFold-Metainference得到的Sic1的HN化学位移略比使用CALVADOS-2得到的更准确,而在所有其他情况下,作者们无法可靠地对这两种方法的性能进行排名。
作者们进一步展示了上述高度无序蛋白质的缩放指数ν值如何偏离随机线圈的Flory值(ν=0.5)。对于这些高度无序的蛋白质,AlphaFold-Metainference生成的结构集合与从SAXS实验得出的Rg值更为一致。这些结果进一步说明了当通过AlphaFold-Metainference方法将AlphaFold预测的距离作为分子模拟中的结构限制时,它们会生成准确的距离分布(图2)。
作者们还展示了AlphaFold预测的距离的序列间隔信息,这些距离在引入过滤标准后被用作AlphaFold-Metainference的约束条件。对于这些蛋白质,与CALVADOS-2相比,AlphaFold-Metainference通过引入短程距离约束,往往能改善与实验SAXS数据的一致性——这一结论通过Kullback-Leibler散度指标进行了量化评估((图2L)。这种改进可归因于短程距离约束条件的引入。
图2 根据SAXS数据和通过分子模拟获得的结构集合,对高度无序蛋白质的成对距离分布进行比较。
A-K,通过SAXS获得的实验成对距离分布(SAXS,黑线)与直接从AlphaFold单一结构预测(AF,紫线)以及AlphaFold-Metainference结构集合(AF-MI,绿线)中计算得出的分布进行比较。为便于比较,还展示了使用CALVADOS-2获得的成对距离分布(C2,橙线)。这些蛋白质与图1A-K中展示的相同。L,使用Kullback-Leibler散度对SAXS与AlphaFold单一结构(紫色)、CALVADOS-2(橙色)和AlphaFold-Metainference(绿色)之间的实验和计算距离概率分布的一致性进行定量评估。
为了表明AlphaFold-Metainference在部分无序蛋白质中的应用,作者们考虑了一组包含6个既有有序结构域又有无序结构域的蛋白质,这些蛋白质具有不同的序列长度,并且可以获得SAXS数据进行验证。