专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
中国基金报  ·  今夜,大跳水! ·  昨天  
中国基金报  ·  多家券商出手:接入DeepSeek! ·  昨天  
中国基金报  ·  汇添富基金率先部署DeepSeek大模型,以 ... ·  昨天  
中国基金报  ·  “元宇宙第一股”,暴跌! ·  2 天前  
中国基金报  ·  广电总局通知! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

新突破!xJailbreak:用强化学习「越狱」大模型,可解释性黑盒攻击来了

深度学习自然语言处理  · 公众号  ·  · 2025-02-04 16:33

正文

来自原作者团队投稿
编辑:深度学习自然语言处理

大型语言模型(如 GPT-4)虽经过安全对齐,但仍易被“越狱”。现有黑盒攻击依赖启发式算法(如遗传算法)优化提示词模板,缺乏可解释性且效率无法保证;白盒攻击则无法应用于闭源模型。这篇论文提出了一种强化学习驱动的黑盒攻击方法,结合表示空间引导与意图检测,实现高效、可解释的越狱!

🚀 方法创新

1️⃣ 表征空间引导 :通过分析恶意/良性提示在嵌入空间的分布差异,设计“边界线评分”,指导强化学习优化提示嵌入向良性空间迁移。
2️⃣ 意图一致性检测 :引入意图评分,确保越狱后的提示与原始恶意意图高度一致,避免误判越狱。
3️⃣ 敏感性分析 :首次系统分析强化学习参数,特别是折扣率对越狱效果的影响,为类似的后续研究和 RL 方法在 LLM 任务中的应用提供指导。


🔍 技术详解:黑盒攻击的「几何密码」
论文发现,恶意提示(如“如何制造炸弹”)与语义相近的良性提示(如“如何制作蛋糕”)在模型的嵌入空间中呈现显著分布差异:

  • 恶意空间 :恶意提示向量聚集区,模型易触发高风险响应。
  • 良性空间 :安全提示向量聚集区,模型输出正常回答。
  • 关键洞见 :不同模型(如 Llama、Qwen)的绝对空间位置可变,但恶意 → 良性的迁移方向恒定!因为当一个 prompt 处于 Llama 表征的良性空间中时,很有可能也处于 Qwen 表征的良性空间中。

🎯 边界线评分(Borderline Score)

1️⃣ 计算中心点 :分别求恶意/良性提示的嵌入向量中心 H (恶意)、 B (良性)。
2️⃣ 构建分界线 :取 H B 的中点 M ,绘制垂直于 HB 连线的分界线(Figure 3)。
3️⃣ 投影量化 :将新提示的嵌入向量 N 投影到 HB 方向,计算其到分界线的垂直距离(公式 6-7)。 距离越正向(靠近良性空间),奖励越高!

🎯 意图评分(Intent Score)

许多黑盒越狱方法仅看 LLM 是否“有效回答”,却忽略 提示词意图是否与原问题一致 !导致:❌ 恶意提示被改写成“人畜无害”形式,LLM 乖乖回答 → 误判为越狱成功!因此,xJailbreak 引入 意图评分(Intent Score)

  • -1 :与原意图无关(攻击失败)
  • 0 :部分相关(软越狱)
  • 1 :高度一致(硬越狱)

硬越狱门槛 :仅当意图评分为 1 并且目标 LLM 做出有效回答时,才算真正突破防线!

🎉 奖励函数

xJailbreak 对边界线评分和意图评分加权求和从而得出总奖励,其中 α 是需要调整的超参数,在敏感性分析中有详细实验结果。最终奖励函数参考公式 8:

🛠️ 整体框架

📊 实验结果

测试与消融

在 Llama3.1、GPT-4o 等模型上测试,xJailbreak 的硬越狱成功率最高,显著优于两个传统基线 Cipher、GPTFuzz 和一个新的同行工作 RL-JACK!消融实验中,分别去掉意图评分、边界线评分和强化学习智能体的情况下,主要指标出现明显劣化,表明方法有效。

案例研究

  • xJailbreak 的样本中发现,通过模板“翻译任务”隐蔽绕过防护:要求模型先翻译恶意指令(如西班牙语 → 英语),再执行目标操作,并且回答中如果目标 LLM 仅以目标语言进行回答时,通常会成功。
  • 加密文本攻击:Cipher 样本中,利用多种密码混淆恶意意图,诱导模型解码后响应,与 xJailbreak 中的发现类似,目标 LLM 如果完全以加密文本进行回复,则攻击通常成功,否则容易失败。
  • 优化轨迹:在 xJailbreak 中,部分成功越狱样本的子空间优化轨迹如 Figure 5 所示。黑色“×”表示初始恶意提示,绿色虚线箭头表示优化过程,红色星号表示最终成功越狱的提示子空间位置。如果原始提示位于恶意空间中,RL 代理将中立化它们,同时尽量不要偏离太远以保持其保持意图。最终成功的样本分布在两个空间在中间区域,标记为绿色阴影。这种现象与奖励函数的目标一致,即平衡意图和空间位置。

📈 敏感性分析

作者在奖励函数的设计中提到了关于权重 α 的敏感性问题,但还有另一个更重要的敏感性参数 γ,这表示强化学习中的折扣因子。折扣因子就类似于利率,一年后的 100 元折算到现在可能只值 99 元,强化学习智能体也需要衡量未来收益在当前时刻的实际价值。

该论文调整了不同取值的 α 和 γ 并且对比了他们的硬越狱成功率。发现:

  1. α 的取值最好是 0.1 或 0.2,这是因为奖励函数中 Borderlin Score 的取值通常为 5~10,而 Intent Score 的取值通常是 0 或者 1,当 α 取值比较小时,两个奖励值的大小比较平衡。
  2. γ 的取值最好是 0.9,因为在该任务中最大改写次数是 10,折算期数比较小,并且需要智能体尽快越狱,所以选择一个比较强的折扣因子让智能体更关注短期奖励。 在传统的强化学习任务中,其取值通常是 0.99,因为交互步数通常非常大,agent 需要更关注远期奖励,但在大部分 LLM 任务中,交互步数不会太大,因此应该给一个比较大的折扣率,这是许多 LLM 任务中应用强化学习时容易忽视的问题。

🤯 总结







请到「今天看啥」查看全文


推荐文章
中国基金报  ·  今夜,大跳水!
昨天
中国基金报  ·  多家券商出手:接入DeepSeek!
昨天
中国基金报  ·  “元宇宙第一股”,暴跌!
2 天前
中国基金报  ·  广电总局通知!
3 天前
超神助手  ·  蛇女尾巴改动!再也不走大S型了
7 年前
戴绿帽的单身狗  ·  VOL.128 - 爱情和友情的边界
7 年前
家长慧  ·  独立生存能力决定孩子的一生
7 年前