专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
宝日勿苏镇  ·  宝日勿苏镇召开河长制培训部署工作会议 ·  21 小时前  
宝日勿苏镇  ·  宝日勿苏镇召开河长制培训部署工作会议 ·  21 小时前  
河北生态环境发布  ·  石家庄建立处级干部帮扶分工包联责任制 ·  昨天  
51好读  ›  专栏  ›  智药邦

bioRxiv|微软研究院推出蛋白质平衡态构象生成的大模型

智药邦  · 公众号  ·  · 2024-12-19 08:00

正文

2024年9月5日,微软研究院科学智能中心的Frank Noe团队在bioRxiv发布了预印本文章:Scalable emulation of protein equilibrium ensembles with generative deep learning。该工作推出了一个 蛋白质平衡态构象生成的大模型


在蛋白质序列和结构的革命性突破之后,如何可靠且高效地确定其功能仍然是一个未完全解决的问题。具体而言,包括以下几个方面:i. 不同的结构(“构象”);ii. 与其他分子结合的不同配置;iii. 在特定温度、pH 值下的概率和速率。
虽然可以通过分子动力学(MD)模拟或实验测量来预测(i-iii),但是这些方法并不具备良好的扩展性。例如,对两个小蛋白质解离过程进行直接模拟的计算代价极高。这就是著名的采样问题,一个已经存在了70年的挑战。
该工作推出了大模型Biomolecular Emulator(BioEmu),其基于AlphaFold的evoformer蛋白质序列表示,并利用扩散模型从平衡态集合中采样三维结构。通过这些样本,可计算相关状态和概率,从而深入揭示分子机制。
一个主要的挑战是,与蛋白质结构预测(如PDB、CASP)不同,蛋白质的平衡态采样缺乏高质量的训练集或测试集,甚至几乎没有相关的基准数据集。解决这一问题也是该工作的关键任务之一。
该工作结合了不同数据集的优势,同时尽量克服其局限性。首先在处理过的AlphaFoldDB上进行预训练,以促进多样结构的采样。随后,在大量处理后的分子动力学(MD)模拟数据和实验蛋白质稳定性数据上进行微调。
对于该大模型的第一个测试,是其能否定性采样到与功能相关的不同结构。文章定义了一个包含约100种蛋白质的基准数据集,分为三类构象变化:
类别1:结构域运动Domain motion。 若采样结构与参考结构的RMSD小于3Å,则视为成功。成功率约为80%。

类别2:局部解折叠Local unfolding。 蛋白质的一部分解折叠或脱离,以与其他分子相互作用或者暴露结合位点。模型需要能够预测不同结构部位的相对稳定性,从而采样到正确的结构。成功率为70%-80%。

类别3:隐性口袋Cryptic pocket。 配体结合位点在apo(无配体)状态下不可见,但可以通过局部变化或大规模重排生成,平均成功率约为70%。值得注意的是,对于有配体(holo)态的生成显著优于apo态,这一点仍有改进空间。

该研究还进行了若干个定量评估,探讨模型是否能够准确采样到蛋白质的平衡态结构。

DESRES fast folders。 将模型仅在11个来自D.E. Shaw快速折叠蛋白的数据上进行微调,并在第12个蛋白上测试。结果显示,模型在自由能景观、采样结构和二级结构含量方面与真实情况高度一致,误差小于1 kcal。

BioEmu的推理成本显著低于分子动力学(MD)模拟 :在单块GPU上,推理时间仅需数分钟到数小时,而传统MD模拟通常需要数年的GPU计算时间。误差范围与不同MD力场之间的差异相当。如果能够在全蛋白质组范围内保持类似的预测质量,这一效率将为该领域带来革命性变化。
大规模测试集CATH上的进一步验证。 该研究模拟了1100个CATH结构域(蛋白质结构的基本组成单元),对每个结构域进行了长达100微秒的分子动力学(MD)模拟。在完整训练集上进行训练,并在收敛性最好的系统上测试。结果显示,自由能分布与真实情况在定性上高度一致,预测的三维结构和二级结构也具有良好的一致性。
关于训练集大小的趋势表明,更多的训练数据带来更高的预测精度。团队使用了仅在CATH数据上训练的模型来研究这个趋势,发现随着训练数据的增加,误差持续降低,预测的构象种类也在增加。经过完整训练的BioEmu模型,其预测误差已降至1 kcal/mol以下。

一项零样本(zero-shot)预测展示了BioEmu的强大能力: 对于像Complexin II这样的大型本征无序蛋白(Intrinsically Disordered Proteins),这是MD模拟中极难采样的场景。不同的MD力场往往会得出不同结果,而未经过IDP专门训练的BioEmu预测结果看起来合理,与实验证据一致,同时预测速度极快。

为了解决无结构实验数据的微调问题,该工作还开发了一种名为属性预测微调(PPFT)的高效方法。PPFT能够对扩散模型或流匹配模型进行微调,基于分布中可计算的量实现对实验数据的有效利用。
模型利用PPFT方法对Rocklin实验室2023年发表的MEGAscale高通量蛋白质稳定性数据集进行微调。通过直接统计BioEmu生成的结构集合中折叠态与解折叠态的分布,模型实现了预测误差小于0.8 kcal/mol,相关性超过0.65,与现有的黑箱方法相比表现良好。
模型还进行了合理性检验:1. 采样高稳定性蛋白质:验证结果显示,这些蛋白质保持了折叠状态。2. 采样低稳定性蛋白质(IDPs):尽管未经过无折叠IDP数据的专门训练,结果显示这些蛋白质保持解折叠状态。实验还发现,回转半径与实验数据具有相关性,尽管数值上略有高估。
由于BioEmu大模型通过采样结构集合来预测属性,其输出可像分子动力学(MD)模拟一样用于分析,揭示结构与属性之间的相关性。例如,可以用于研究某些突变如何通过特定机制导致蛋白质折叠不稳定化。






请到「今天看啥」查看全文