ToolSword: 三步揭示工具学习中语言大模型的安全问题

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-09 02:35

正文

24年2月复旦大学论文“ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages”。

工具学习被广泛认为是在现实场景中部署语言大模型（LLM）的基础方法。虽然当前的研究主要强调利用工具来增强LLM，但它经常忽视涌现的与其应用相关的安全因素。为了填补这一空白，推出ToolSword，一个综合框架，致力于仔细研究与工具学习中LLM相关的安全问题。具体来说，ToolSword为LLM在工具学习中描绘了六种安全场景，包括输入阶段的恶意查询和越狱攻击、执行阶段的噪声误导和风险提示、以及输出阶段的有害反馈和错误冲突。在 11 个开源和闭源 LLM 上进行的实验，揭示了工具学习中持久的安全挑战，例如处理有害查询、使用有风险的工具以及提供有害反馈，甚至 GPT-4 也容易受到这些挑战。此外，还开展进一步的研究，旨在促进工具学习安全性的研究。数据发布网址如下：

github.com/Junjie-Ye/ToolSword

工具学习提供了一种在LLM和现实世界之间建立牢固联系的有效方法。通过外部工具的积累和大量工具使用示例的生成，研究人员可以使LLM能够理解各种工具的功能，在必要时调用适当的工具，并将其用于各种下游任务（Jin，2023；Tang，2023；Zhang，2023；Yang，2023a)。对现有LLM工具学习的评估表明，许多当前模型具有基本的工具使用能力，同时也指出了进一步改进的潜在领域（Chen，2023b；Ye，2024a，b）。然而，在努力提高工具使用能力的同时，也不能忽视可能带来的安全风险。因此，重点是识别和解决与LLM工具学习相关的安全问题，推进该领域的研究和实际应用。

如图所示，ToolSword 对LLM在工具学习过程中遇到的安全挑战进行全面分析，涵盖三个不同的阶段：输入、执行和输出。在每个阶段，设计了两个安全场景，对LLM在使用该工具时可能遇到的现实情况进行彻底的探索。

输入阶段致力于评估LLM识别并有效拒绝用户提出的不合理请求的能力。换句话说，用户可能会请LLM来回答问题或提供带来安全风险的说明。在这种情况下，除了拒绝之外，LLM的任何回应都被认为是不安全的。因此，设计了两种场景来评估这一点。

恶意查询 (MQ) 。MQ 涉及直接的安全测试场景，其中直接使用恶意查询和相关工具来评估 LLM 识别用户意图和拒绝不安全请求的能力。
越狱攻击 (JA) 。JA 基于 MQ，结合越狱方法来处理查询，从而增加了LLM识别恶意查询的挑战。

执行阶段的重点是评估LLM准确选择工具的能力。鉴于工具执行的结果会影响外部环境（Ye et al., 2024a,b），滥用不正确或有风险的工具可能会偏离用户的意图，并可能破坏外部环境。例如，这种滥用可能会引入程序病毒。针对现实世界中与工具相关的问题，也设计了两种不同的场景。

噪声误导 (NM) 。NM 涉及现实场景中遇到的含噪工具名称挑战（Ye，2024b）。它试图确定LLM在存在这种噪声的情况下是否会选择不正确的工具，从而可能造成不可挽回的伤害。

ToolSword: 三步揭示工具学习中语言大模型的安全问题

正文

请到「今天看啥」查看全文