专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

新突破！xJailbreak：用强化学习「越狱」大模型，可解释性黑盒攻击来了

深度学习自然语言处理 · 公众号 · · 2025-02-04 16:33

正文

来自原作者团队投稿
编辑：深度学习自然语言处理

大型语言模型（如 GPT-4）虽经过安全对齐，但仍易被“越狱”。现有黑盒攻击依赖启发式算法（如遗传算法）优化提示词模板，缺乏可解释性且效率无法保证；白盒攻击则无法应用于闭源模型。这篇论文提出了一种强化学习驱动的黑盒攻击方法，结合表示空间引导与意图检测，实现高效、可解释的越狱！

🚀 方法创新

1️⃣ 表征空间引导 ：通过分析恶意/良性提示在嵌入空间的分布差异，设计“边界线评分”，指导强化学习优化提示嵌入向良性空间迁移。
2️⃣ 意图一致性检测 ：引入意图评分，确保越狱后的提示与原始恶意意图高度一致，避免误判越狱。
3️⃣ 敏感性分析 ：首次系统分析强化学习参数，特别是折扣率对越狱效果的影响，为类似的后续研究和 RL 方法在 LLM 任务中的应用提供指导。

🔍 技术详解：黑盒攻击的「几何密码」
论文发现，恶意提示（如“如何制造炸弹”）与语义相近的良性提示（如“如何制作蛋糕”）在模型的嵌入空间中呈现显著分布差异：

恶意空间 ：恶意提示向量聚集区，模型易触发高风险响应。
良性空间 ：安全提示向量聚集区，模型输出正常回答。
关键洞见 ：不同模型（如 Llama、Qwen）的绝对空间位置可变，但恶意 → 良性的迁移方向恒定！因为当一个 prompt 处于 Llama 表征的良性空间中时，很有可能也处于 Qwen 表征的良性空间中。

🎯 边界线评分（Borderline Score）

1️⃣ 计算中心点 ：分别求恶意/良性提示的嵌入向量中心 H （恶意）、 B （良性）。
2️⃣ 构建分界线 ：取 H 与 B 的中点 M ，绘制垂直于 HB 连线的分界线（Figure 3）。
3️⃣ 投影量化 ：将新提示的嵌入向量 N 投影到 HB 方向，计算其到分界线的垂直距离（公式 6-7）。 距离越正向（靠近良性空间），奖励越高！

🎯 意图评分（Intent Score）

许多黑盒越狱方法仅看 LLM 是否“有效回答”，却忽略 提示词意图是否与原问题一致 ！导致：❌ 恶意提示被改写成“人畜无害”形式，LLM 乖乖回答 → 误判为越狱成功！因此，xJailbreak 引入 意图评分（Intent Score） ：

-1 ：与原意图无关（攻击失败）
0 ：部分相关（软越狱）
1 ：高度一致（硬越狱）

硬越狱门槛 ：仅当意图评分为 1 并且目标 LLM 做出有效回答时，才算真正突破防线！

🎉 奖励函数

xJailbreak 对边界线评分和意图评分加权求和从而得出总奖励，其中 α 是需要调整的超参数，在敏感性分析中有详细实验结果。最终奖励函数参考公式 8：

🛠️ 整体框架

📊 实验结果

测试与消融

在 Llama3.1、GPT-4o 等模型上测试，xJailbreak 的硬越狱成功率最高，显著优于两个传统基线 Cipher、GPTFuzz 和一个新的同行工作 RL-JACK！消融实验中，分别去掉意图评分、边界线评分和强化学习智能体的情况下，主要指标出现明显劣化，表明方法有效。

案例研究

xJailbreak 的样本中发现，通过模板“翻译任务”隐蔽绕过防护：要求模型先翻译恶意指令（如西班牙语 → 英语），再执行目标操作，并且回答中如果目标 LLM 仅以目标语言进行回答时，通常会成功。
加密文本攻击：Cipher 样本中，利用多种密码混淆恶意意图，诱导模型解码后响应，与 xJailbreak 中的发现类似，目标 LLM 如果完全以加密文本进行回复，则攻击通常成功，否则容易失败。
优化轨迹：在 xJailbreak 中，部分成功越狱样本的子空间优化轨迹如 Figure 5 所示。黑色“×”表示初始恶意提示，绿色虚线箭头表示优化过程，红色星号表示最终成功越狱的提示子空间位置。如果原始提示位于恶意空间中，RL 代理将中立化它们，同时尽量不要偏离太远以保持其保持意图。最终成功的样本分布在两个空间在中间区域，标记为绿色阴影。这种现象与奖励函数的目标一致，即平衡意图和空间位置。

‍

📈 敏感性分析

作者在奖励函数的设计中提到了关于权重 α 的敏感性问题，但还有另一个更重要的敏感性参数 γ，这表示强化学习中的折扣因子。折扣因子就类似于利率，一年后的 100 元折算到现在可能只值 99 元，强化学习智能体也需要衡量未来收益在当前时刻的实际价值。

该论文调整了不同取值的 α 和 γ 并且对比了他们的硬越狱成功率。发现：

α 的取值最好是 0.1 或 0.2，这是因为奖励函数中 Borderlin Score 的取值通常为 5~10，而 Intent Score 的取值通常是 0 或者 1，当 α 取值比较小时，两个奖励值的大小比较平衡。
γ 的取值最好是 0.9，因为在该任务中最大改写次数是 10，折算期数比较小，并且需要智能体尽快越狱，所以选择一个比较强的折扣因子让智能体更关注短期奖励。在传统的强化学习任务中，其取值通常是 0.99，因为交互步数通常非常大，agent 需要更关注远期奖励，但在大部分 LLM 任务中，交互步数不会太大，因此应该给一个比较大的折扣率，这是许多 LLM 任务中应用强化学习时容易忽视的问题。