专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
普象工业设计小站  ·  洁癖姐妹建议人手一个,精致出行收纳超好用 ·  13 小时前  
普象工业设计小站  ·  一天被问三次!这瓶花香调好闻到爆! ·  17 小时前  
普象工业设计小站  ·  「磐」电动吸盘支架,哪儿都能用! ·  昨天  
普象工业设计小站  ·  亚朵酒店的控温被,是怎么火起来的? ·  2 天前  
普象工业设计小站  ·  一天被问三次!这瓶花香调好闻到爆! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

ToolSword: 三步揭示工具学习中语言大模型的安全问题

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-09 02:35

正文

24年2月复旦大学论文“ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages”。

工具学习被广泛认为是在现实场景中部署语言大模型(LLM)的基础方法。虽然当前的研究主要强调利用工具来增强LLM,但它经常忽视涌现的与其应用相关的安全因素。为了填补这一空白,推出ToolSword,一个综合框架,致力于仔细研究与工具学习中LLM相关的安全问题。具体来说,ToolSword为LLM在工具学习中描绘了六种安全场景,包括输入阶段的恶意查询和越狱攻击、执行阶段的噪声误导和风险提示、以及输出阶段的有害反馈和错误冲突。在 11 个开源和闭源 LLM 上进行的实验,揭示了工具学习中持久的安全挑战,例如处理有害查询、使用有风险的工具以及提供有害反馈,甚至 GPT-4 也容易受到这些挑战。此外,还开展进一步的研究,旨在促进工具学习安全性的研究。数据发布网址如下:

github.com/Junjie-Ye/ToolSword


工具学习提供了一种在LLM和现实世界之间建立牢固联系的有效方法。通过外部工具的积累和大量工具使用示例的生成,研究人员可以使LLM能够理解各种工具的功能,在必要时调用适当的工具,并将其用于各种下游任务(Jin,2023;Tang,2023;Zhang,2023;Yang,2023a)。对现有LLM工具学习的评估表明,许多当前模型具有基本的工具使用能力,同时也指出了进一步改进的潜在领域(Chen,2023b;Ye,2024a,b)。然而,在努力提高工具使用能力的同时,也不能忽视可能带来的安全风险。因此,重点是识别和解决与LLM工具学习相关的安全问题,推进该领域的研究和实际应用。

如图所示,ToolSword 对LLM在工具学习过程中遇到的安全挑战进行全面分析,涵盖三个不同的阶段:输入、执行和输出。在每个阶段,设计了两个安全场景,对LLM在使用该工具时可能遇到的现实情况进行彻底的探索。

如图所示: LLM对标准对话和工具学习上下文之间不安全查询的响应。 工具学习可能会破坏LLM的安全对齐机制,导致通过工具调用响应不安全的查询。

如下详细讨论如何设计这三个阶段的的安全场景。

输入阶段致力于评估LLM识别并有效拒绝用户提出的不合理请求的能力。换句话说,用户可能会请LLM来回答问题或提供带来安全风险的说明。在这种情况下,除了拒绝之外,LLM的任何回应都被认为是不安全的。因此,设计了两种场景来评估这一点。

  • 恶意查询 (MQ) 。MQ 涉及直接的安全测试场景,其中直接使用恶意查询和相关工具来评估 LLM 识别用户意图和拒绝不安全请求的能力。

  • 越狱攻击 (JA) 。JA 基于 MQ,结合越狱方法来处理查询,从而增加了LLM识别恶意查询的挑战。

执行阶段的重点是评估LLM准确选择工具的能力。鉴于工具执行的结果会影响外部环境(Ye et al., 2024a,b),滥用不正确或有风险的工具可能会偏离用户的意图,并可能破坏外部环境。例如,这种滥用可能会引入程序病毒。针对现实世界中与工具相关的问题,也设计了两种不同的场景。

  • 噪声误导 (NM) 。NM 涉及现实场景中遇到的含噪工具名称挑战(Ye,2024b)。它试图确定LLM在存在这种噪声的情况下是否会选择不正确的工具,从而可能造成不可挽回的伤害。







请到「今天看啥」查看全文


推荐文章
普象工业设计小站  ·  洁癖姐妹建议人手一个,精致出行收纳超好用
13 小时前
普象工业设计小站  ·  一天被问三次!这瓶花香调好闻到爆!
17 小时前
普象工业设计小站  ·  「磐」电动吸盘支架,哪儿都能用!
昨天
普象工业设计小站  ·  亚朵酒店的控温被,是怎么火起来的?
2 天前
普象工业设计小站  ·  一天被问三次!这瓶花香调好闻到爆!
3 天前
晚安少年  ·  走了很远,还是很想你。
8 年前
瞭望消金  ·  银行真的会完蛋吗?你想多了
8 年前