专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
四川日报  ·  我不是来看你“指驴为马”的 ·  昨天  
四川日报  ·  最新通报:2人遇难、14人失联 ·  昨天  
四川日报  ·  突然官宣停运,可申请退款! ·  2 天前  
51好读  ›  专栏  ›  智药邦

Nat Mach Intell|一种分子集合表示模型,用于分子性质的多任务预测

智药邦  · 公众号  ·  · 2024-12-03 08:00

正文

分子的计算表示可以采用多种形式,包括图结构、图的字符串编码、二进制向量或实值向量形式的学习分子表示。然后,使用广泛的机器学习模型将这些表示用于下游分类和回归任务。然而,现有的模型存在局限性,例如需要明确定义的化学键,而这通常不能代表分子的真正潜在性质。
2024年7月5日,瑞士洛桑联邦理工学院Maria Boulougouri等人在Nature Machine Intelligence上发表文章 Molecular set representation learning
作者提出了一个基于集合表示学习的分子机器学习框架。 研究表明,在最常用的化学基准数据集上,仅在原子不变集合上学习就可以达到最先进的基于图的模型的性能,并且在图神经网络(GNN)中引入集合表示层可以超越现有的化学和生物学领域中已建立的方法的性能。作者引入了专门的基于集合表示的神经网络架构,用于反应产率和蛋白质配体结合亲和力预测。 实验表明,分子集合表示模型的性能超越了现有方法。
分子集合表示模型由三部分组成:编码或嵌入层,集合表示层,读出(多层感知机MLP)层。 如图1a所示,最简单的分子集表示模型MSR1以分子为输入,将每个原子编码为133维的独热编码,包括:(1)原子的度(即与之有化学键相连的原子的个数),值域为1-7,对应地编码为7维的独热编码。(2)原子序数,编码为101维的独热编码。(3)形式电荷数,6维独热编码。(4)杂化类型,6维独热编码。(5)手性标记,5维独热编码。(6)是否在环中,1维独热编码。(7)与该原子有化学键相连的氢原子总数,7维独热编码。这些特征称为基于原子的不变集合特征编码,分子中每个原子的编码a0,...,ak构成了集合Ai,即单个分子中所有原子不变特征的集合,该集合被传递到RepSet集合表示层,并通过回归器(regr)或分类器(class)来读出。该模型称为MSR1(molecular set representation)。
图1 分子集合表示模型 结构图
如图1b所示,分子集合表示模型MSR2将分子的原子和键编码为两个不同的集合Ai和Bi,并将它们传递给两个独立的RepSet层,其输出的Aout和Bout被连接(Cat),然后是回归或分类MLP。将每个化学键编码为230维的独热编码,包括:(1)键的类型(单键、双键、三键、芳香键、其他键例如配位键),5维独热编码。(2)立体化学类型,7维独热编码。(3)是否芳香键,1维独热编码。(4)是否共价键,1维独热编码。(5)键合的两个原子,各自的原子序数独热编码和原子度的独热编码,每个原子101+7=108维。数据集中的多个分子,对应的集合分别用A0,...,Ai和B0,...,Bi来表示。
如图1c所示,SR-GINE是一个GINEConv层增强的图同构网络(GIN)模型,用集合表示层代替全局池化。然后将节点(原子)嵌入n0到nk,作为分子图神经网络Gi上的节点特征,并传递给RepSet层,然后是MLP回归器或分类器。接下来,该模型被进一步用于分子与蛋白质结合亲和力预测,以及反应产率预测。如图1d所示,亲和力预测模型SR-BIND遵循MSR2的双集合架构,采用两个并行的RepSet层。如果配体Li的原子在任何蛋白质原子的半径r内,它们就被加入到一个集合中。相反,只有当蛋白质Mi中的原子在任何配体原子的半径r范围内时,它们才被添加到另一个集合中。这两个集合被传递给单独的RepSet层,其输出被连接并传递给回归或分类MLP。如图1e所示,MSR2-RXN也遵循MSR2的双集合架构,采用两个并行的RepSet层。输入数据集中第i个反应的所有反应物rj和生成物pj使用半径为3、大小为2048的扩展环状分子指纹(ECFP)编码为分子集Ri和Pi。这两个集合被传递给单独的RepSet层,这些层的输出被连接并传递给回归或分类MLP。

作者将分子集合表示模型与一些具有代表性的方法进行了比较。在分子结合亲和力预测任务上,比较了GraphDTA和其他基于GNN的方法。其中GraphDTA采用了不同的GNN模型,包括图卷积网络(GCN),图注意力网络(GAT),图同构网络(GIN),以及GAT-GCN的结合。采用均方根误差(RMSE,越低越好),平均绝对误差(MAE,越低越好),相关系数(R,越高越好)作为评测指标。 作者提出的SR-BIND在RMSE和R这两个指标上取得了最佳结果,在MAE上仅次于CMPNN。

表1 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。分子的药代动力学特性在设计和开发新疗法中起着至关重要的作用。为了评估模型在药代动力学任务上的表现,作者使用了Biogen数据集包含3521种分子的模型,这些模型在吸收、分布、代谢和排泄(ADME)的体外测定中针对以下终点进行了测试:人肝微粒体稳定性(HLM,清除率ml min−1 kg−1),MDR1-MDCK外排比(MDR1转染的Madin darby-犬肾细胞的通透性),pH 6.8下的溶解度(solubility,μg ml−1),大鼠肝微粒体稳定性(RLM,清除率ml min−1 kg−1),人血浆蛋白结合(hPPB,未结合百分比)和大鼠血浆蛋白结合(rPPB,未结合百分比)。这是一系列的二分类问题,即判断分子在给定任务上是否具有活性。
在所有药代动力学任务上,采用二分类的AUROC评估模型,如表2所示,报告了交叉验证的AUROC平均值和标准差。SR-GINE的表现明显优于使用标准均值池而不是集合层的对照GINE。此外,SR-GINE模型比超参数调优的消息传递图神经网络D-MPNN和其改进版本D-MPNN+模型表现更好,而不依赖于超参数调优或额外的预计算描述符(RDKit二维描述符)。虽然MSR1和MSR2的表现不如D-MPNN+和SR-GINE,但它们的表现与GINE没有明显差异。换句话说,它们的性能与开箱即用的最先进的GNN一样好。 SR-GINE相对于GINE的显著改进,表明通过使用集合表示层增强GNN架构可以提高预测性能。

表2 消融实验

作者还进行了案例分析。预测化学反应的结果,例如基于高通量筛选收集的数据的产率,是化学机器学习的重要任务。在化学信息学中,化学反应通常被定义为两组分子,即反应物和生成物,其中反应物在反应过程中全部或部分转化为生成物。这种基于集合的化学反应定义暗示了集合表示学习的潜在用途。同样,作者创建双集合神经网络,使用Buchwald-Hartwig交叉偶联反应的高通量(HTE)数据集对模型(MSR2-RXN)进行了评估,以预测反应产率,即转化为输出材料(产物)的输入材料(反应物)的百分比。如表3所示,使用不同的数据集随机划分比例来划分训练集和测试集,从70/30直到2.5/97.5,并采用不同的分布外样本测试的数量(从1到4)。事实上,MSR2-RXN与Yield-BERT、增强的Yield-BERT和DRFP(基于DFT和分子指纹)的方法相比没有显著差异,显著优于基于DFT的方法。注意到,预训练BERT和使用DFT需耗费的时间远多于本文提出的分子集合表示方法,因此, 本文所提出的方法兼顾了计算的准确性和效率

表3 案例分析

本文提出了一种将分子集合表示模型用于分子性质的多任务预测的方法,在广泛的用例中展示了该技术的优秀结果,包括药代动力学性质、结合亲和力和反应产率的预测等 。最直接的分子集合表示模型MSR1,本质上是一组半径为零的ECFP指纹,即使如此,其也已经表现出优秀的性能。在此基础上,双集合模型MSR2和SR-GINE的性能得到进一步增强,超越了现有的方法,表明在GNN(特别是GINE)中引入一个集合表示层来代替全局池化函数,可以提高其在几乎所有基准测试中的性能,而无需引入额外的预计算分子描述符。这一见解可用于扩展和改进所有目前使用的基于GNN的分子表示方法的性能。在结合亲和力预测中,作者引入了一种基于集合的蛋白质配体结合亲和力预测模型,该模型允许通过蛋白质和结合配体之间的半径近邻搜索引入隐式几何信息,使该模型比现有的基于图的方法表现得更好,因为现有的基于图的方法通常无法轻松整合这些信息。在反应产率预测中,作者基于分子集合表示的反应产率预测模型兼顾了计算的准确性和效率。






请到「今天看啥」查看全文