专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
江南都市报  ·  亚冠:泽卡、克雷桑传射&卡扎破门,泰山3比1 ... ·  9 小时前  
江南都市报  ·  亚冠:泽卡、克雷桑传射&卡扎破门,泰山3比1 ... ·  9 小时前  
现代快报  ·  北京国安一球员家人称其国外集训因伤脑死亡 ·  9 小时前  
现代快报  ·  北京国安一球员家人称其国外集训因伤脑死亡 ·  9 小时前  
51好读  ›  专栏  ›  深度学习与图网络

MolecularGPT: 用于少样本分子性质预测的大模型

深度学习与图网络  · 公众号  ·  · 2024-07-06 23:19

正文

大家好,今天给大家介绍一篇最新的研究论文,这篇论文提出了MolecularGPT,一个用于少样本分子性质预测的大模型。这项工作通过指令微调和结构感知的少样本指令设计,显著提高了LLM在分子性质预测任务中的零样本和少样本推理能力,为分子科学领域的LLM应用开辟了新的方向。

  1. 基本信息


  • 论文题目: MolecularGPT: Open Large Language Model (LLM) for Few-Shot Molecular Property Prediction
  • 作者: Yuyan Liu, Sirui Ding, Sheng Zhou, Wenqi Fan

2. 研究背景

分子性质预测(Molecular Property Prediction, MPP )在药物发现和材料科学等领域扮演着至关重要的角色。近年来,基于图神经网络(GNNs)的方法在这一任务上取得了显著成果。然而,这些方法主要局限于监督学习,与实际需求存在矛盾, 分子标注既昂贵又耗时 。此外,任务特定的监督学习可能阻碍模型适应新任务,限制了其在开放世界场景中的泛化能力。

为了解决这些问题,研究人员开始探索将自然语言和分子表示结合的方法,以实现 MPP 的零样本推理。例如,CLAMP通过对比学习对齐化学文本和分子图,而另一些研究则将分子图和任务描述整合到统一的生成式LLM中。 然而,这些方法仍然存在局限性,如CLAMP仅限于分类任务,而其他方法由于额外的架构设计而无法执行少样本分子性质预测。

本文旨在开发一种能够利用LLM的泛化能力和少样本学习能力的方法,应用在分子领域。这项工作的主要挑战包括:

  • 如何有效地将分子结构信息整合到指令微调过程中
  • 如何设计指令以充分利用LLM的少样本学习能力
  • 以及如何在昂贵的分子标注环境下实现有效的少样本学习

3. 方法

本文提出了 MolecularGPT,旨在将 LLM(特别是 LLaMA)赋予更广泛的分子特性知识,使其能够通过零样本和少样本 ICL 泛化到域外预测任务。

3.1  Instructional Fine-tuning Pipeline

为了使 LLM 适应 MPP 任务,本文采用了一种通用的instructional fine-tuning流程。该流程包括以下步骤:

  1. 分子表征: 使用 SMILES 字符串来表示分子。SMILES 是一种线性符号表示法,可以简洁地描述分子的结构。
  2. 任务描述: 使用自然语言描述 MPP 任务,例如“预测分子的毒性”。
  3. Instructional Prompt: 将分子表征和任务描述组合成一个instructional prompt,例如“分子 CC(=O)Oc1ccccc1C(=O)O 的毒性是什么?”。
  4. LLM Fine-tuning: 使用包含大量分子-性质对的数据集对预训练的 LLM 进行微调,以学习分子表征和性质之间的映射关系。

3.2 Structure-Aware Few-Shot Instruction Design

为了有效地将分子间的图结构纳入 LLM,本文设计了一种结构感知的少样本指令策略。该策略包括以下步骤:

  1. 分子邻居检索: 对于每个查询分子,从训练集中检索其 个最接近的邻居分子。
  2. 少样本指令构建: 使用检索到的邻居分子作为标记示例,构建少样本指令。例如,一个少样本指令可以是:
    以下是一些分子及其毒性的例子:
    - CC(=O)Oc1ccccc1C(=O)O: 有毒
    - CCCCCCCCCC: 无毒
    - c1ccccc1: 无毒
    现在预测分子 c1ccc(C(=O)O)cc1 的毒性。
  3. LLM 推理: 将少样本指令输入微调后的 LLM,LLM 将根据指令和提供的示例预测查询分子的性质。

训练目标函数可以表示为:

其中, 是输入分子的SMILES表示, 是相应的指令, 是目标属性值, 是模型参数。

通过这种方法,MolecularGPT能够有效地学习分子结构和属性之间的关系,并在各种MPP任务中展现出强大的泛化能力和少样本学习能力。

4. 实验发现

本文在10个分子性质基准测试集上进行了广泛的实验,涵盖了不同规模和任务类型。主要实验发现如下:

  1. 性能优势: MolecularGPT在所有分类任务中平均比领先的LLM基线(如GIMLET, LLaMA-7b, LLaMA-13B)提高了16.6%的性能。这表明MolecularGPT在处理分子性质预测任务时具有显著优势。
  1. 少样本学习能力: 仅使用两个示例(two-shot),MolecularGPT就在7个数据集中的4个上超过了标准的监督GNN方法。这一结果突显了MolecularGPT在少样本学习场景下的强大能力。






请到「今天看啥」查看全文