24年2月复旦大学论文“ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages”。
工具学习被广泛认为是在现实场景中部署语言大模型(LLM)的基础方法。虽然当前的研究主要强调利用工具来增强LLM,但它经常忽视涌现的与其应用相关的安全因素。为了填补这一空白,推出ToolSword,一个综合框架,致力于仔细研究与工具学习中LLM相关的安全问题。具体来说,ToolSword为LLM在工具学习中描绘了六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的噪声误导和风险提示、以及输出阶段的有害反馈和错误冲突。在 11 个开源和闭源 LLM 上进行的实验,揭示了工具学习中持久的安全挑战,例如处理有害查询、使用有风险的工具以及提供有害反馈,甚至 GPT-4 也容易受到这些挑战。此外,还开展进一步的研究,旨在促进工具学习安全性的研究。数据发布网址如下:
github.com/Junjie-Ye/ToolSword
工具学习提供了一种在LLM和现实世界之间建立牢固联系的有效方法。通过外部工具的积累和大量工具使用示例的生成,研究人员可以使LLM能够理解各种工具的功能,在必要时调用适当的工具,并将其用于各种下游任务(Jin,2023;Tang,2023;Zhang,2023;Yang,2023a)。对现有LLM工具学习的评估表明,许多当前模型具有基本的工具使用能力,同时也指出了进一步改进的潜在领域(Chen,2023b;Ye,2024a,b)。然而,在努力提高工具使用能力的同时,也不能忽视可能带来的安全风险。因此,重点是识别和解决与LLM工具学习相关的安全问题,推进该领域的研究和实际应用。
如图所示,ToolSword 对LLM在工具学习过程中遇到的安全挑战进行全面分析,涵盖三个不同的阶段:输入、执行和输出。在每个阶段,设计了两个安全场景,对LLM在使用该工具时可能遇到的现实情况进行彻底的探索。
如图所示:
LLM对标准对话和工具学习上下文之间不安全查询的响应。
工具学习可能会破坏LLM的安全对齐机制,导致通过工具调用响应不安全的查询。
如下详细讨论如何设计这三个阶段的的安全场景。
输入阶段致力于评估LLM识别并有效拒绝用户提出的不合理请求的能力。换句话说,用户可能会请LLM来回答问题或提供带来安全风险的说明。在这种情况下,除了拒绝之外,LLM的任何回应都被认为是不安全的。因此,设计了两种场景来评估这一点。
执行阶段的重点是评估LLM准确选择工具的能力。鉴于工具执行的结果会影响外部环境(Ye et al., 2024a,b),滥用不正确或有风险的工具可能会偏离用户的意图,并可能破坏外部环境。例如,这种滥用可能会引入程序病毒。针对现实世界中与工具相关的问题,也设计了两种不同的场景。