来自原作者团队投稿
编辑:深度学习自然语言处理
大型语言模型(如 GPT-4)虽经过安全对齐,但仍易被“越狱”。现有黑盒攻击依赖启发式算法(如遗传算法)优化提示词模板,缺乏可解释性且效率无法保证;白盒攻击则无法应用于闭源模型。这篇论文提出了一种强化学习驱动的黑盒攻击方法,结合表示空间引导与意图检测,实现高效、可解释的越狱!
🚀
方法创新
1️⃣
表征空间引导
:通过分析恶意/良性提示在嵌入空间的分布差异,设计“边界线评分”,指导强化学习优化提示嵌入向良性空间迁移。
2️⃣
意图一致性检测
:引入意图评分,确保越狱后的提示与原始恶意意图高度一致,避免误判越狱。
3️⃣
敏感性分析
:首次系统分析强化学习参数,特别是折扣率对越狱效果的影响,为类似的后续研究和 RL 方法在 LLM 任务中的应用提供指导。
🔍
技术详解:黑盒攻击的「几何密码」
论文发现,恶意提示(如“如何制造炸弹”)与语义相近的良性提示(如“如何制作蛋糕”)在模型的嵌入空间中呈现显著分布差异:
恶意空间
:恶意提示向量聚集区,模型易触发高风险响应。
良性空间
:安全提示向量聚集区,模型输出正常回答。
关键洞见
:不同模型(如 Llama、Qwen)的绝对空间位置可变,但恶意 → 良性的迁移方向恒定!因为当一个 prompt 处于 Llama 表征的良性空间中时,很有可能也处于 Qwen 表征的良性空间中。
🎯
边界线评分(Borderline Score)
1️⃣
计算中心点
:分别求恶意/良性提示的嵌入向量中心
H
(恶意)、
B
(良性)。
2️⃣
构建分界线
:取
H
与
B
的中点
M
,绘制垂直于
HB
连线的分界线(Figure 3)。
3️⃣
投影量化
:将新提示的嵌入向量
N
投影到
HB
方向,计算其到分界线的垂直距离(公式 6-7)。
距离越正向(靠近良性空间),奖励越高!
🎯
意图评分(Intent Score)
许多黑盒越狱方法仅看 LLM 是否“有效回答”,却忽略
提示词意图是否与原问题一致
!导致:❌ 恶意提示被改写成“人畜无害”形式,LLM 乖乖回答 → 误判为越狱成功!因此,xJailbreak 引入
意图评分(Intent Score)
:
硬越狱门槛
:仅当意图评分为 1 并且目标 LLM 做出有效回答时,才算真正突破防线!
🎉
奖励函数
xJailbreak 对边界线评分和意图评分加权求和从而得出总奖励,其中 α 是需要调整的超参数,在敏感性分析中有详细实验结果。最终奖励函数参考公式 8:
🛠️
整体框架
📊
实验结果
测试与消融
在 Llama3.1、GPT-4o 等模型上测试,xJailbreak 的硬越狱成功率最高,显著优于两个传统基线 Cipher、GPTFuzz 和一个新的同行工作 RL-JACK!消融实验中,分别去掉意图评分、边界线评分和强化学习智能体的情况下,主要指标出现明显劣化,表明方法有效。
案例研究
xJailbreak 的样本中发现,通过模板“翻译任务”隐蔽绕过防护:要求模型先翻译恶意指令(如西班牙语 → 英语),再执行目标操作,并且回答中如果目标 LLM 仅以目标语言进行回答时,通常会成功。
加密文本攻击:Cipher 样本中,利用多种密码混淆恶意意图,诱导模型解码后响应,与 xJailbreak 中的发现类似,目标 LLM 如果完全以加密文本进行回复,则攻击通常成功,否则容易失败。
优化轨迹:在 xJailbreak 中,部分成功越狱样本的子空间优化轨迹如 Figure 5 所示。黑色“×”表示初始恶意提示,绿色虚线箭头表示优化过程,红色星号表示最终成功越狱的提示子空间位置。如果原始提示位于恶意空间中,RL 代理将中立化它们,同时尽量不要偏离太远以保持其保持意图。最终成功的样本分布在两个空间在中间区域,标记为绿色阴影。这种现象与奖励函数的目标一致,即平衡意图和空间位置。
📈
敏感性分析
作者在奖励函数的设计中提到了关于权重 α 的敏感性问题,但还有另一个更重要的敏感性参数 γ,这表示强化学习中的折扣因子。折扣因子就类似于利率,一年后的 100 元折算到现在可能只值 99 元,强化学习智能体也需要衡量未来收益在当前时刻的实际价值。
该论文调整了不同取值的 α 和 γ 并且对比了他们的硬越狱成功率。发现:
α 的取值最好是 0.1 或 0.2,这是因为奖励函数中 Borderlin Score 的取值通常为 5~10,而 Intent Score 的取值通常是 0 或者 1,当 α 取值比较小时,两个奖励值的大小比较平衡。
γ 的取值最好是 0.9,因为在该任务中最大改写次数是 10,折算期数比较小,并且需要智能体尽快越狱,所以选择一个比较强的折扣因子让智能体更关注短期奖励。
在传统的强化学习任务中,其取值通常是 0.99,因为交互步数通常非常大,agent 需要更关注远期奖励,但在大部分 LLM 任务中,交互步数不会太大,因此应该给一个比较大的折扣率,这是许多 LLM 任务中应用强化学习时容易忽视的问题。
🤯 总结