专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
创伙伴  ·  坐在家里赚美金,又一万亿新商机崛起 ·  4 小时前  
我是腾腾爸  ·  这个瓜好大! ·  19 小时前  
南方财富网  ·  AI算力芯片最新8大核心龙头股,这篇文章帮你 ... ·  20 小时前  
南方财富网  ·  AI算力芯片最新8大核心龙头股,这篇文章帮你 ... ·  20 小时前  
厦门日报  ·  突发!史上最大盗窃案,108亿元不翼而飞 ·  昨天  
厦门日报  ·  正式实施!驾驶证申领政策有变 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

语言大模型的 MetaTool 基准:决定是否使用工具以及使用哪些工具

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-10 07:05

正文

ICLR‘24 Lehigh大学、华中理工、剑桥大学和Duke大学的论文“MetaTool benchmark for large language models: deciding whether to use tools and which to use ”。

在LLM的工具利用能力上,主要研究LLM如何与给定的特定工具进行有效协作。然而,在 LLM 作为智体的场景中,如 AutoGPT 和 MetaGPT 等应用程序中所示,LLM 预计会参与复杂的决策过程,包括决定是否使用工具并从工具中选择最合适的工具。满足用户请求的可用工具的集合。本文引入MetaTool,一个旨在评估LLM是否具有工具使用意识并能够正确选择工具的基准。具体来说,在基准测试中创建一个名为 ToolE 的数据集。该数据集包含各种类型的用户查询,以提示的形式触发LLM使用工具,包括单个工具和多个工具场景。随后,设置工具使用意识和工具选择的任务。从工具选择的不同角度定义了四个子任务,包括类似性的工具选择、特定场景下的工具选择、可能存在可靠性问题的工具选择以及多个工具选择。对八个流行的LLM进行实验,大多数仍然难以有效地选择工具,这凸显了LLM和真正的智体之间存在的差距。但通过误差分析,发现仍有很大的改进空间。

MetaTool的代码如下获取:

github.com/HowieHwong/MetaTool

如下网址是ToolE数据集:

atlas.nomic.ai/map/a43a6a84-4453-428a-8738-2534d7bf0b89/b2b8134b-a37e-45d2-a0d9-765911f27df6


LLM迈向智体的一个重要里程碑(Park et al., 2023; Li et al., 2023e)是工具(例如 API(Qin et al., 2023b; Rapid, 2023)和插件(OpenAI ,2023d)) 以满足用户的要求。通过利用工具,LLM可以获得实时数据,例如获取最新的天气预报(GPTStore,2023);加强与用户的互动,例如帮助用户预订机票(Deng et al., 2023);通过查询知识库(Li et al., 2023c; Hu et al., 2023)或互联网(Lazaridou et al., 2022)更好地处理不确定问题。此外,LLM还可以利用特定的工具来处理多模态信息,从而获得与多模态模型相同的能力(Zhang et al., 2023;Yan et al., 2023;Yuan et al., 2023b)。使用工具的能力使LLM能够突破自身的局限性,获取外部信息,从而做出更准确、更有效的反应,为用户提供更好的服务。

先前的研究主要集中在如何增强LLM使用工具的能力,包括使用与工具使用相关的指令来训练模型(Qin et al., 2023b; Tang et al., 2023; Schick et al., 2023),或通过外部 API 解决特定领域任务问题的能力(Yang,2023c)增强该模型。如图展示了LLM使用工具的典型流程。最初,用户输入触发工具使用的问题(即查询)。工具的使用过程可分为四个阶段:是否使用某种工具 (1),如果使用,选择哪些工具 (2)。工具选择过程涉及直接让LLM从提供的工具列表中进行选择(Yang,2023c)或通过检索器进行选择(Qin,2023b)。接下来,LLM将用户的输入配置为工具参数(3),然后处理工具的结果(4),最后将结果返回给用户。

有必要建立一个评价LLM工具使用意识和工具选择能力的基准。 但是这个工作的难度体现在两个方面。 第一个是数据集。 之前的研究提出的数据集(Qin et al., 2023b; Xu et al., 2023)缺乏多样化的用户输入,很难覆盖各种现实场景。 此外,数据集存在重叠问题,这意味着用户的需求可以通过不止一种工具来满足,这使得进行评估变得具有挑战性,因为用户输入可以对应于多种工具。 第二个方面是任务设置。 基准应该包括不同的任务,从不同的角度评估LLM,比如可靠性、日常生活中不同场景下的表现。 为了解决这些问题,提出METATOOL,一个旨在评估LLM的工具使用意识和工具选择能力的基准。

如表所示,METATOOL 与之前的研究工作不同,它由三个主要组成部分组成:ToolE数据集、对工具使用和工具选择的觉察度评估、结果的经验分析。

如图是METATOOL 基准测试架构。 它包含与多样工具相关查询的数据集TOOOLE(a),并基于它,对工具使用和工具选择的觉察度进行评估(b),最终获得8个著名的LLM的结果(c)。

如图是数据集ToolE生成的过程示意图:

工具描述。







请到「今天看啥」查看全文


推荐文章
我是腾腾爸  ·  这个瓜好大!
19 小时前
厦门日报  ·  正式实施!驾驶证申领政策有变
3 天前
星座不求人  ·  金牛座就是这么独一无二
7 年前
热门电影图解  ·  香港电影照么拍,还是有所期待的
7 年前
中国经济网  ·  睡前一杯水“救命”,清晨一杯水养生
7 年前