专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
英文悦读  ·  推荐一个能帮你用好标点符号的网站 ·  昨天  
十点读书会  ·  未婚未育的女孩们,排队拍孕妇照 ·  23 小时前  
蓝钻故事  ·  马斯克秘密访问俄罗斯的那些年 ·  昨天  
清晨朗读会  ·  渊源直播 ·  6 天前  
51好读  ›  专栏  ›  智药邦

Baker 预印本 | 用ChemNet建模蛋白-小分子构象合集

智药邦  · 公众号  ·  · 2024-12-20 08:00

正文

一下不知道 ensemble 怎么翻译 233

残基水平的描述足够结构预测,但是小分子相互作用需要原子水平, ChemNet 用于校对原子姿势,能准确生成小分子结构和侧链位置,可用于酶的设计。

Diffdock 固然提高了原有方法,但是高精度层面上提高不明显,没见过的受体也会表现下降,小分子构象生成的现有方法也只是建模了特定的相互作用对,不能用于所有蛋白功能,也没法蒸馏理化特性。 AF3 也不能建模构象的异质性。

本文任务,建模构象异质性需要原子为中心预测小分子和多肽,在给定蛋白活性位点的情况下。在小分子结合位点,复杂度上升,进化信息没那么相关,也就是说,生成的起始点应该是整体蛋白结构的坐标和原子 / 键级别的描述侧链和小分子。只要输入骨架,因此 refine 肯定更快。并且也可以评价。

本文的 ChenNet 可以原子水平建模小分子和小分子 - 蛋白相互作用,使用扩散模型将其作为结构去噪任务,从部分加噪的情况捕获原子位置,当然是已知化学信息的情况下。蛋白小分子对接 case 中,输入包括蛋白骨架结构,序列,侧链随机初始化,小分子随机初始化在口袋中心。

预测时包括全原子结构和原子位置的不确定性,用途广泛(有点像加了动态的 AF3 ),和原始结构(白色)能够对应。

输入时,体系包括原子和边和手性特征, 3Dembedding 的更新有点像 RosettaFold2 ,手性中心会获得不同的原子移动位置, FAPE 计算将原子 alogn 到每 3 个中心,并计算区别的平均,不确定性来自于对实际 deviation 的估计,学习方式是最大化高斯分布的似然。

网络中的节点携带原子类型和坐标信息,之后加噪,任务是去噪坐标并估计不确定性, 32 个最近邻原子连边, 3D 结构输入 Transformer 更新 3D 坐标和 1D 表征,混合更新, 8 次循环。

损失函数是全原子 FAPE confidence 损失来自 per atom 和原子对,分别是 IDDT 和距离符号错误方法,另外预测 deviation

先在小分子晶体数据集上试了试,不同初始输入可以产生不同构象。初次训练用 4 轮迭代,之后用 8 轮并加上了键几何的 loss ,把 FAPE 换成距离 RMSD 或者降低 iteration 会变差(但没那么差啦,看 2B 的轴),键分离特征也有点用,可以生成 50 个原子以上的大环结构(但感觉 ensemble 特征不强?)

PDB 训练使用十余万个结构,切出来配体附近的最多 600 个重原子,加噪 1.5Å 的高斯噪声,蛋白 30% 序列去重,小分子 80% 相似性去重,训练 loss 是氨基酸和小分子和相互作用的 FAPE loss 的混合。







请到「今天看啥」查看全文