LLM迈向智体的一个重要里程碑(Park et al., 2023; Li et al., 2023e)是工具(例如 API(Qin et al., 2023b; Rapid, 2023)和插件(OpenAI ,2023d)) 以满足用户的要求。通过利用工具,LLM可以获得实时数据,例如获取最新的天气预报(GPTStore,2023);加强与用户的互动,例如帮助用户预订机票(Deng et al., 2023);通过查询知识库(Li et al., 2023c; Hu et al., 2023)或互联网(Lazaridou et al., 2022)更好地处理不确定问题。此外,LLM还可以利用特定的工具来处理多模态信息,从而获得与多模态模型相同的能力(Zhang et al., 2023;Yan et al., 2023;Yuan et al., 2023b)。使用工具的能力使LLM能够突破自身的局限性,获取外部信息,从而做出更准确、更有效的反应,为用户提供更好的服务。
先前的研究主要集中在如何增强LLM使用工具的能力,包括使用与工具使用相关的指令来训练模型(Qin et al., 2023b; Tang et al., 2023; Schick et al., 2023),或通过外部 API 解决特定领域任务问题的能力(Yang,2023c)增强该模型。如图展示了LLM使用工具的典型流程。最初,用户输入触发工具使用的问题(即查询)。工具的使用过程可分为四个阶段:是否使用某种工具 (1),如果使用,选择哪些工具 (2)。工具选择过程涉及直接让LLM从提供的工具列表中进行选择(Yang,2023c)或通过检索器进行选择(Qin,2023b)。接下来,LLM将用户的输入配置为工具参数(3),然后处理工具的结果(4),最后将结果返回给用户。
有必要建立一个评价LLM工具使用意识和工具选择能力的基准。
但是这个工作的难度体现在两个方面。
第一个是数据集。
之前的研究提出的数据集(Qin et al., 2023b; Xu et al., 2023)缺乏多样化的用户输入,很难覆盖各种现实场景。
此外,数据集存在重叠问题,这意味着用户的需求可以通过不止一种工具来满足,这使得进行评估变得具有挑战性,因为用户输入可以对应于多种工具。
第二个方面是任务设置。
基准应该包括不同的任务,从不同的角度评估LLM,比如可靠性、日常生活中不同场景下的表现。
为了解决这些问题,提出METATOOL,一个旨在评估LLM的工具使用意识和工具选择能力的基准。