通用嵌套越狱提示可轻松骗过大型语言模型

ChaMd5安全团队 · 公众号 · · 2024-07-23 08:00

正文

招新小广告CTF组诚招re、crypto、pwn、misc、合约方向的师傅,长期招新IOT+Car+工控+样本分析多个组招人有意向的师傅请联系邮箱

[email protected](带上简历和想加入的小组)

前言

本篇来自南京大学新型软件技术国家重点实验室和美团联合发表的论文，主旨依然是对LLM的越狱提示攻击，概括为两个方面：提示重写（Prompt Rewriting）和场景嵌套（Scenario Nesting）。在此基础上，作者提出了 ReNeLLM，一个利用 LLM 自身生成有效越狱提示的自动框架。

ReNeLLM

ReNeLLM，一个自动生成越狱提示的通用框架。
ReNeLLM 将越狱提示攻击概括为两个方面：提示重写和场景嵌套。
前者涉及在不改变初始提示语语义的情况下对其进行一系列改写操作，而后者则为改写后的提示语选择一个场景，并通过嵌套对其进行进一步伪装。值得注意的是整个过程由 LLM 自动完成，无需额外的培训和优化。

提示重写

鉴于现有的安全调整技术可以让 LLM 轻松拒绝最初的有害提示，作者认为成功越狱的关键在于伪装这些最初的有害提示的意图。论文提出在不改变语义的情况下对单词或句子进行重写，可以增加 LLMs 识别提示语的难度。具体来说，作者设计了以下六种重写功能：

用更少的词语进行转述。
改变句子结构
拼错敏感词
插入无意义字符
执行部分翻译
改变表达方式

场景嵌套

在经过多次改写后可能会变得无害，因此作者将此 LLM 改用为有害分类器，用于判断给定的提示语是否包含任何潜在的负面、不道德或非法内容。符合标准的提示将进入情景嵌套步骤，否则，将重新执行重写操作。

论文中还特别提到，他们受到了《GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher》的研究启发，他们发现用密码聊天可以绕过 LLMs 的安全对齐技术，从而暴露了 LLMs 在面对非自然语言时的脆弱性。
此外，他们还发现，在预训练数据中从未出现过的密码不起作用。
因此提出一个假设，即一个好的指令嵌套场景必须出现在 LLM 的预训练或 SFT 数据中，并在提高 LLM 的某些方面能力方面发挥重要作用。另一方面，将代码数据纳入预训练或 SFT 数据可能是增强 LLMs推理和推理能力的关键因素。
将代码完成的场景作为种子场景，并通过查询 LLM 生成不同的指令场景。最后，得到了三种通用场景：代码完成、表格填充和文本续写。
这三种情景的共同点是，它们与训练数据（都出现在训练数据中）或 LLM 的训练目标（都是基于语言建模的生成任务）相一致，并且都在情景中留下了空白，类似于句子级的掐词任务。

ReNeLLM 生成的越狱攻击提示在 7 个 LLM 上的各类 ASR

在不同 LLM 上测量的 ASR 和 ASR-E（代表ASREnsemble）

通用嵌套越狱提示可轻松骗过大型语言模型

正文

前言

ReNeLLM

提示重写

场景嵌套

分析

请到「今天看啥」查看全文