文 | Google Brain 团队研究员 George Dahl
最近,在化学行业涌现了许多激动人心的机器学习 (ML) 应用,特别是在解决化学检索问题方面,从药物发现和电池设计到寻找更好的 OLED 和催化剂,层出不穷。历史上,化学家一直使用薛定谔方程式的数值逼近(例如密度泛函理论 (DFT))来进行此类化学检索。
然而,计算这些近似值的开销限制了检索的规模。为了实现更大规模的检索,几个研究小组建立了机器学习模型,使用 DFT 生成的训练数据(例如 Rupp et al. 和 Behler and Parrinello)预测化学性质。在开展前述工作之前,我们一直使用各种现代机器学习方法来开发 QM9 基准库,这是一组公开的分子库,其中提供了根据 DFT 理论计算得出的各种分子的电子、热力学和振动特性。
我们最近发布了两篇论文,介绍了我们在此领域的研究成果,这些成果源自 Google Brain 团队、Google Accelerated Science 团队、DeepMind 和巴塞尔大学的密切合作。第一篇论文介绍了一种新的分子影像制作方法以及一种评估开发 QM9 基准库所用的各种机器学习方法的系统化评估方法。在对此基准库尝试过许多现有方法之后,我们曾致力于改进最有希望的深度神经网络模型。
其结果是,我们发表了第二篇论文“量子化学的神经消息传递”(Neural Message Passing for Quantum Chemistry),其中介绍了一个称为消息传递神经网络 (Message Passing Neural Networks, MPNN) 的模型系列,其定义足够抽象,能够包含许多之前图形对称性保持不变的神经网络模型。我们在 MPNN 模型系列中开发出新的模型,其表现大大优于 QM9 基准库的所有基准方法,在某些指标上提升了将近 4 倍。
从机器学习的角度来看,分子数据如此有趣的原因之一是:一个分子的自然表示形式是以原子作为节点,以化学键作为边绘制而成的分子结构图。利用数据中的内在对称性的模型往往更具普遍性,脑回神经网络之所以能在图片处理方面取得成功,部分是因为它们能够吸收我们之前关于图像数据不变性的知识(例如,一只狗的照片移到左边后仍然是一只狗的照片)。对于处理图形数据的机器学习模型来说,图形对称性不变是一个特别有用的特性,这方面也有许多有趣的研究(例如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。然而,尽管取得了这些进展,但仍有大量工作要做。我们希望为化学(和其他)应用找到这些模型中的最佳模型并找出文献中建议的不同模型之间的关联。
我们的 MPNN 为预测 QM9 中所有 13 种化学性质建立了新的模型标杆。对于这组特别的分子,我们的模型可以足够准确地预测出其中 11 种性质,这些预测对化学家而言很可能非常有用,并且,我们的速度比使用 DFT 模拟预测最多要快 30 万倍。然而,在 MPNN 能够对化学家产生真正的实用价值之前,我们还有大量工作要做。特别是,使用 MPNN 分析的分子类型还远远不够,必须比 QM9 中现有的分子类型还要多得多(例如,分子量更大或者有更多类型的重原子的分子)。当然,即便是采用真实的训练集,即便推广到大相迥异的分子,也仍然不够。要克服这两大挑战,就需要在普遍化(这也是机器学习研究的核心)等问题上取得突破。
预测分子特性是一个非常重要的问题,一方面,先进的机器学习技术有助于推动该课题的研究,另一方面,该课题也为学习算法提出了一些有趣的基本研究挑战。最终,此类预测可以帮助设计造福人类的新药物和新材料。在 Google,我们非常重视传播我们的研究成果,帮助培训机器学习领域的新研究人员。因此,我们非常高兴地见到:我们的 MPNN 论文的前两位作者都是 Google Brain 成员。
了解更多细节,查看文内所有链接,请点击文末“阅读原文”。
推荐阅读:
引入tf-seq2seq:TensorFlow中开源序列到序列框架
Google研究 | 联合学习:无需集中存储训练数据的协同机器学习
Google研究 | 使用一致的哈希算法分配临界负载
GDE专栏 | 一个完整的示例:Android Things和TensorFlow能擦出怎样的火花?
点击「阅读原文」,查看文内所有链接