大家好,今天给大家介绍一篇最新的研究论文,这篇论文提出了MolecularGPT,一个用于少样本分子性质预测的大模型。这项工作通过指令微调和结构感知的少样本指令设计,显著提高了LLM在分子性质预测任务中的零样本和少样本推理能力,为分子科学领域的LLM应用开辟了新的方向。
-
基本信息
-
论文题目: MolecularGPT: Open Large Language Model (LLM) for Few-Shot Molecular Property Prediction
-
作者: Yuyan Liu, Sirui Ding, Sheng Zhou, Wenqi Fan
2. 研究背景
分子性质预测(Molecular Property Prediction,
MPP
)在药物发现和材料科学等领域扮演着至关重要的角色。近年来,基于图神经网络(GNNs)的方法在这一任务上取得了显著成果。然而,这些方法主要局限于监督学习,与实际需求存在矛盾,
分子标注既昂贵又耗时
。此外,任务特定的监督学习可能阻碍模型适应新任务,限制了其在开放世界场景中的泛化能力。
为了解决这些问题,研究人员开始探索将自然语言和分子表示结合的方法,以实现
MPP
的零样本推理。例如,CLAMP通过对比学习对齐化学文本和分子图,而另一些研究则将分子图和任务描述整合到统一的生成式LLM中。
然而,这些方法仍然存在局限性,如CLAMP仅限于分类任务,而其他方法由于额外的架构设计而无法执行少样本分子性质预测。
本文旨在开发一种能够利用LLM的泛化能力和少样本学习能力的方法,应用在分子领域。这项工作的主要挑战包括:
-
-
-
以及如何在昂贵的分子标注环境下实现有效的少样本学习
3. 方法
本文提出了 MolecularGPT,旨在将 LLM(特别是 LLaMA)赋予更广泛的分子特性知识,使其能够通过零样本和少样本 ICL 泛化到域外预测任务。
3.1 Instructional Fine-tuning Pipeline
为了使 LLM 适应 MPP 任务,本文采用了一种通用的instructional fine-tuning流程。该流程包括以下步骤:
-
分子表征:
使用 SMILES 字符串来表示分子。SMILES 是一种线性符号表示法,可以简洁地描述分子的结构。
-
任务描述:
使用自然语言描述 MPP 任务,例如“预测分子的毒性”。
-
Instructional Prompt:
将分子表征和任务描述组合成一个instructional prompt,例如“分子 CC(=O)Oc1ccccc1C(=O)O 的毒性是什么?”。
-
LLM Fine-tuning:
使用包含大量分子-性质对的数据集对预训练的 LLM 进行微调,以学习分子表征和性质之间的映射关系。
3.2 Structure-Aware Few-Shot Instruction Design
为了有效地将分子间的图结构纳入 LLM,本文设计了一种结构感知的少样本指令策略。该策略包括以下步骤:
-
分子邻居检索:
对于每个查询分子,从训练集中检索其
个最接近的邻居分子。
-
少样本指令构建:
使用检索到的邻居分子作为标记示例,构建少样本指令。例如,一个少样本指令可以是:
以下是一些分子及其毒性的例子:
- CC(=O)Oc1ccccc1C(=O)O: 有毒
- CCCCCCCCCC: 无毒
- c1ccccc1: 无毒
现在预测分子 c1ccc(C(=O)O)cc1 的毒性。
-
LLM 推理:
将少样本指令输入微调后的 LLM,LLM 将根据指令和提供的示例预测查询分子的性质。
训练目标函数可以表示为:
其中,
是输入分子的SMILES表示,
是相应的指令,
是目标属性值,
是模型参数。
通过这种方法,MolecularGPT能够有效地学习分子结构和属性之间的关系,并在各种MPP任务中展现出强大的泛化能力和少样本学习能力。
4. 实验发现
本文在10个分子性质基准测试集上进行了广泛的实验,涵盖了不同规模和任务类型。主要实验发现如下:
-
性能优势:
MolecularGPT在所有分类任务中平均比领先的LLM基线(如GIMLET, LLaMA-7b, LLaMA-13B)提高了16.6%的性能。这表明MolecularGPT在处理分子性质预测任务时具有显著优势。
-
少样本学习能力:
仅使用两个示例(two-shot),MolecularGPT就在7个数据集中的4个上超过了标准的监督GNN方法。这一结果突显了MolecularGPT在少样本学习场景下的强大能力。