如图1b所示,分子集合表示模型MSR2将分子的原子和键编码为两个不同的集合Ai和Bi,并将它们传递给两个独立的RepSet层,其输出的Aout和Bout被连接(Cat),然后是回归或分类MLP。将每个化学键编码为230维的独热编码,包括:(1)键的类型(单键、双键、三键、芳香键、其他键例如配位键),5维独热编码。(2)立体化学类型,7维独热编码。(3)是否芳香键,1维独热编码。(4)是否共价键,1维独热编码。(5)键合的两个原子,各自的原子序数独热编码和原子度的独热编码,每个原子101+7=108维。数据集中的多个分子,对应的集合分别用A0,...,Ai和B0,...,Bi来表示。
如图1c所示,SR-GINE是一个GINEConv层增强的图同构网络(GIN)模型,用集合表示层代替全局池化。然后将节点(原子)嵌入n0到nk,作为分子图神经网络Gi上的节点特征,并传递给RepSet层,然后是MLP回归器或分类器。接下来,该模型被进一步用于分子与蛋白质结合亲和力预测,以及反应产率预测。如图1d所示,亲和力预测模型SR-BIND遵循MSR2的双集合架构,采用两个并行的RepSet层。如果配体Li的原子在任何蛋白质原子的半径r内,它们就被加入到一个集合中。相反,只有当蛋白质Mi中的原子在任何配体原子的半径r范围内时,它们才被添加到另一个集合中。这两个集合被传递给单独的RepSet层,其输出被连接并传递给回归或分类MLP。如图1e所示,MSR2-RXN也遵循MSR2的双集合架构,采用两个并行的RepSet层。输入数据集中第i个反应的所有反应物rj和生成物pj使用半径为3、大小为2048的扩展环状分子指纹(ECFP)编码为分子集Ri和Pi。这两个集合被传递给单独的RepSet层,这些层的输出被连接并传递给回归或分类MLP。
作者将分子集合表示模型与一些具有代表性的方法进行了比较。在分子结合亲和力预测任务上,比较了GraphDTA和其他基于GNN的方法。其中GraphDTA采用了不同的GNN模型,包括图卷积网络(GCN),图注意力网络(GAT),图同构网络(GIN),以及GAT-GCN的结合。采用均方根误差(RMSE,越低越好),平均绝对误差(MAE,越低越好),相关系数(R,越高越好)作为评测指标。
作者提出的SR-BIND在RMSE和R这两个指标上取得了最佳结果,在MAE上仅次于CMPNN。