Octopus: 软件API函数调用的设备端语言模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-08 04:14

正文

24年4月斯坦福和哈佛的论文“Octopus: On-device language model for function calling of software APIs”

在快速发展的人工智能领域，大语言模型 (LLM) 因其先进的文本处理和生成能力而发挥着至关重要的作用。本研究引入了一种新策略，旨在利用设备上的 LLM 来调用软件 API。精心编译源自软件 API 文档的数据集，并对具有 2B、3B 和 7B 参数能力的LLMs进行微调，专门提高他们在软件 API 交互方面的熟练程度。该方法专注于完善模型对 API 结构和语法的掌握，显着提高 API 函数调用的准确性。此外，提出条件掩码技术，确保以所需格式输出并降低错误率，同时保持推理速度。还提出一个新基准，旨在评估LLMs在 API 交互中的有效性，为后续研究奠定基础。事实证明，经过微调的模型 Octopus 在软件 API 调用方面比 GPT-4 具有更好的性能。

GPT-4、Alpaca 和 Llama 等大语言模型 (LLM) 中外部计算工具的集成标志着在增强其能力方面取得了实质性进展。最初，集成工作主要围绕特定于模型的微调方法（Lin et al. 2024，Hu et al. 2023），尽管有效，但在广泛和灵活的应用中遇到了挑战。随着示范性演示这种提示的采用，发生了显着的转变，扩大了工具可访问性的范围。该范围包括专门的代码解释器和广泛的检索框架，显着增强了模型解释和执行复杂指令的能力（Zhou et al. 2023）。也注意到工具交互模拟环境（Shen 2024a；Du 2024；Xi 2023）和 API 参与框架（Li2023）的发展。此外，高级推理（Valmeekam et al. 2022；Hao et al. 2023；Lewkowycz et al. 2022）策略的结合显着提高了模型解释和解决复杂任务的效率。

初始数据集包含来自 RapidAPI Hub（世界上最大的 API 存储库之一）的 API 文档。为了促进大语言模型理解 API 使用模式，编译一个全面的 API 文档集合，重点关注大约 30,000 个最常用API。该数据集获取分为两个主要阶段：初始收集和处理各个 API 文档片段，然后进行细致的细化过程去优化用于训练目的的数据集。

如图所示：通过严格的工作流程将数据集 A 细化为数据集 B。该过程涉及三个关键步骤：对可通过特定 API 解决的肯定查询进行采样，并生成相应的响应和 CoT；识别无法解决的查询，并用不相关的函数体增强；采用语义分析将类似的功能加入到数据点中。经过 GPT-4 的严格验证，数据集 B 作为优化的训练数据集出现，有望显着提升模型效率。