MolecularGPT: 用于少样本分子性质预测的大模型

深度学习与图网络 · 公众号 · · 2024-07-06 23:19

正文

大家好,今天给大家介绍一篇最新的研究论文,这篇论文提出了MolecularGPT,一个用于少样本分子性质预测的大模型。这项工作通过指令微调和结构感知的少样本指令设计,显著提高了LLM在分子性质预测任务中的零样本和少样本推理能力,为分子科学领域的LLM应用开辟了新的方向。

基本信息

论文题目: MolecularGPT: Open Large Language Model (LLM) for Few-Shot Molecular Property Prediction
作者: Yuyan Liu, Sirui Ding, Sheng Zhou, Wenqi Fan

2. 研究背景

分子性质预测(Molecular Property Prediction, MPP )在药物发现和材料科学等领域扮演着至关重要的角色。近年来,基于图神经网络(GNNs)的方法在这一任务上取得了显著成果。然而,这些方法主要局限于监督学习,与实际需求存在矛盾, 分子标注既昂贵又耗时 。此外,任务特定的监督学习可能阻碍模型适应新任务,限制了其在开放世界场景中的泛化能力。

为了解决这些问题,研究人员开始探索将自然语言和分子表示结合的方法,以实现 MPP 的零样本推理。例如,CLAMP通过对比学习对齐化学文本和分子图,而另一些研究则将分子图和任务描述整合到统一的生成式LLM中。 然而,这些方法仍然存在局限性,如CLAMP仅限于分类任务,而其他方法由于额外的架构设计而无法执行少样本分子性质预测。

本文旨在开发一种能够利用LLM的泛化能力和少样本学习能力的方法,应用在分子领域。这项工作的主要挑战包括:

如何有效地将分子结构信息整合到指令微调过程中
如何设计指令以充分利用LLM的少样本学习能力
以及如何在昂贵的分子标注环境下实现有效的少样本学习

3. 方法

本文提出了 MolecularGPT，旨在将 LLM（特别是 LLaMA）赋予更广泛的分子特性知识，使其能够通过零样本和少样本 ICL 泛化到域外预测任务。

3.1 Instructional Fine-tuning Pipeline

为了使 LLM 适应 MPP 任务，本文采用了一种通用的instructional fine-tuning流程。该流程包括以下步骤：

分子表征: 使用 SMILES 字符串来表示分子。SMILES 是一种线性符号表示法，可以简洁地描述分子的结构。
任务描述: 使用自然语言描述 MPP 任务，例如“预测分子的毒性”。
Instructional Prompt: 将分子表征和任务描述组合成一个instructional prompt，例如“分子 CC(=O)Oc1ccccc1C(=O)O 的毒性是什么？”。
LLM Fine-tuning: 使用包含大量分子-性质对的数据集对预训练的 LLM 进行微调，以学习分子表征和性质之间的映射关系。

3.2 Structure-Aware Few-Shot Instruction Design

为了有效地将分子间的图结构纳入 LLM，本文设计了一种结构感知的少样本指令策略。该策略包括以下步骤：

分子邻居检索: 对于每个查询分子，从训练集中检索其个最接近的邻居分子。

少样本指令构建: 使用检索到的邻居分子作为标记示例，构建少样本指令。例如，一个少样本指令可以是：

以下是一些分子及其毒性的例子：
- CC(=O)Oc1ccccc1C(=O)O: 有毒
- CCCCCCCCCC: 无毒
- c1ccccc1: 无毒
现在预测分子 c1ccc(C(=O)O)cc1 的毒性。

LLM 推理: 将少样本指令输入微调后的 LLM，LLM 将根据指令和提供的示例预测查询分子的性质。

训练目标函数可以表示为:

其中, 是输入分子的SMILES表示, 是相应的指令, 是目标属性值, 是模型参数。

通过这种方法,MolecularGPT能够有效地学习分子结构和属性之间的关系,并在各种MPP任务中展现出强大的泛化能力和少样本学习能力。

4. 实验发现

本文在10个分子性质基准测试集上进行了广泛的实验,涵盖了不同规模和任务类型。主要实验发现如下:

性能优势: MolecularGPT在所有分类任务中平均比领先的LLM基线(如GIMLET, LLaMA-7b, LLaMA-13B)提高了16.6%的性能。这表明MolecularGPT在处理分子性质预测任务时具有显著优势。

少样本学习能力: 仅使用两个示例(two-shot),MolecularGPT就在7个数据集中的4个上超过了标准的监督GNN方法。这一结果突显了MolecularGPT在少样本学习场景下的强大能力。