一下不知道
ensemble
怎么翻译
233
残基水平的描述足够结构预测,但是小分子相互作用需要原子水平,
ChemNet
用于校对原子姿势,能准确生成小分子结构和侧链位置,可用于酶的设计。
Diffdock
固然提高了原有方法,但是高精度层面上提高不明显,没见过的受体也会表现下降,小分子构象生成的现有方法也只是建模了特定的相互作用对,不能用于所有蛋白功能,也没法蒸馏理化特性。
AF3
也不能建模构象的异质性。
本文任务,建模构象异质性需要原子为中心预测小分子和多肽,在给定蛋白活性位点的情况下。在小分子结合位点,复杂度上升,进化信息没那么相关,也就是说,生成的起始点应该是整体蛋白结构的坐标和原子
/
键级别的描述侧链和小分子。只要输入骨架,因此
refine
肯定更快。并且也可以评价。
本文的
ChenNet
可以原子水平建模小分子和小分子
-
蛋白相互作用,使用扩散模型将其作为结构去噪任务,从部分加噪的情况捕获原子位置,当然是已知化学信息的情况下。蛋白小分子对接
case
中,输入包括蛋白骨架结构,序列,侧链随机初始化,小分子随机初始化在口袋中心。
预测时包括全原子结构和原子位置的不确定性,用途广泛(有点像加了动态的
AF3
),和原始结构(白色)能够对应。
输入时,体系包括原子和边和手性特征,
3Dembedding
的更新有点像
RosettaFold2
,手性中心会获得不同的原子移动位置,
FAPE
计算将原子
alogn
到每
3
个中心,并计算区别的平均,不确定性来自于对实际
deviation
的估计,学习方式是最大化高斯分布的似然。
网络中的节点携带原子类型和坐标信息,之后加噪,任务是去噪坐标并估计不确定性,
32
个最近邻原子连边,
3D
结构输入
Transformer
更新
3D
坐标和
1D
表征,混合更新,
8
次循环。
损失函数是全原子
FAPE
,
confidence
损失来自
per atom
和原子对,分别是
IDDT
和距离符号错误方法,另外预测
deviation
。
先在小分子晶体数据集上试了试,不同初始输入可以产生不同构象。初次训练用
4
轮迭代,之后用
8
轮并加上了键几何的
loss
,把
FAPE
换成距离
RMSD
或者降低
iteration
会变差(但没那么差啦,看
2B
的轴),键分离特征也有点用,可以生成
50
个原子以上的大环结构(但感觉
ensemble
特征不强?)
PDB
训练使用十余万个结构,切出来配体附近的最多
600
个重原子,加噪
1.5Å
的高斯噪声,蛋白
30%
序列去重,小分子
80%
相似性去重,训练
loss
是氨基酸和小分子和相互作用的
FAPE loss
的混合。