专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

NeurIPS 2024 | 利用概念激活向量破解大模型的安全对齐，人大&港科大揭示LLM重要安全风险漏洞

数据派THU · 公众号 · 大数据 · 2024-12-10 17:00

正文

来源：PaperWeekly‍‍‍
本文约4000字，建议阅读10+分钟




    
本文提出了一种基于安全概念激活向量（SCAV）的框架，以揭示大语言模型在安全对齐方面的潜在漏洞。

随着大语言模型能力的快速提升，其潜在的安全隐患愈发显著。尽管开发者进行了大量安全对齐工作，以避免模型被用于恶意用途，然而现有的安全对齐方式仍易被多种攻击方式逆转，显示了安全对齐技术的弱点。

然而，当前攻击方法大多基于对模型有限的理解，难以有效规避误导性的启发式策略。为此，人大和港科大的研究者提出了一种基于安全概念激活向量（SCAV）的框架，通过精确解读大模型的安全机制来指导攻击。基于 SCAV 的攻击方法能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升了攻击成功率和响应质量。

在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为 99.14%。同时，研究表明，基于 SCAV 生成的攻击提示具有跨模型迁移的潜力，可在 GPT-4 等黑盒 API 上取得成功。

论文题目：

Uncovering Safety Risks of Large Language Models through Concept Activation Vector (NeurIPS 2024 Conference)

论文链接：

https://arxiv.org/pdf/2404.12038

代码仓库：

https://github.com/SproutNan/AI-Safety_SCAV

一、介绍

大语言模型的能力正在迅速发展，目前的模型已经具备了强大的信息处理和生成能力，能够通过理解复杂的上下文提供详细、连贯的回答。然而，这种高度智能的生成能力也使得模型面临着日益严重的滥用风险。恶意用户可能利用模型的强大能力生成虚假信息、构造恶意代码或传播有害内容，给社会安全带来隐患。

因此，模型开发者往往需要在发布前进行安全对齐工作，通过训练和约束，使模型能够识别并拒绝涉及危险、敏感或不当的请求，确保模型符合预期的伦理和行为标准。

然而，尽管进行了大量的对齐工作，研究表明现有的对齐措施仍易被绕过，一些针对大模型的攻击方法可以有效地逆转这些安全防护，揭示了大模型在安全性上的脆弱性。

在这一背景下，研究团队提出了安全概念激活向量（SCAV）框架，通过引入可解释领域的概念激活向量，更深入地解读模型的安全机制来进行更精确的攻击设计。

二、方法

使用 SCAV 框架诱导攻击，首先需要训练 SCAV 分类器。通过对恶意和安全指令嵌入的降维分析，研究者发现这两类指令在低维空间中呈现明显的分隔。

因此，通过在模型的嵌入空间中定义一个“安全”与“恶意”的概念分离面，就能够识别出模型在不同输入上对“安全性”的反应。SCAV 分类器的目标是在嵌入空间中建立一种简单的线性模型，将恶意指令和安全指令进行分离，以便在后续攻击中利用这一特性。

▲ 图1：SCAV 分类器的训练流程

SCAV 框架可以诱导两种攻击层次——嵌入层（embedding-level）和提示层（prompt-level）。

▲ 图2：SCAV 诱导的嵌入层攻击

嵌入层攻击通过在模型的中间层嵌入空间中引入微小扰动来改变模型对输入的安全判断，从而绕过安全机制。具体来说，模型的每一层都可以用对应输出的嵌入训练 SCAV 分类器，分类器在该层的测试集准确率反映了模型在该层的安全机制的存在与强弱。

研究发现，对于经过安全对齐的模型（例如 LLaMA），其早期层通常具有较低的测试集准确率，而在中后期层通常具有逼近 100% 的测试集准确率；而对于未经过安全对齐的模型（例如 Alpaca），其所有层的 SCAV 分类器测试集准确率通常在 85% 以下，行为与对齐模型呈现明显不同（如图3所示）。因此，嵌入层攻击将锚定那些测试集准确率大于阈值 P1（设定 P1=90%）的层。

▲ 图3：不同模型各层的 SCAV 分类器测试集准确率变化

在模型处理一个恶意指令的前向传播过程中，利用 SCAV 分类器的参数在各层引入一个扰动，使得所在层的输出嵌入变为。这个扰动的参数为大小，为方向，需要满足约束条件：

这个约束条件的直观意义就是降低嵌入被模型确认为恶意指令的概率 Pm 到阈值 P0（设定 P0=0.01%）以下，从而逆转模型的安全概念认知，同时保证对模型尽量小的修改。由于这个优化问题有闭式解，因此不同于已有的基于优化的攻击手段，执行这种攻击是非常快速的。

在模型处理恶意指令的每一个新生成 token 的过程中，逐层应用这种扰动，就可以达到高效、高质量的攻击结果。

▲ 图4：SCAV 诱导的提示层攻击

提示层攻击则仍是一个优化类的攻击方式。研究发现，现有的基于优化的攻击手段如 AutoDAN 等，其优化的目标往往不是模型的真实输出。而 SCAV 分类器正提供了模型对安全认知的精确描述，因此更适合用于优化目标。

通过将 AutoDAN 的分层遗传优化算法的优化目标修改为基于 SCAV 分类器的函数，提示层攻击能够达到比现有的基于优化的攻击手段更好的效果。值得注意的是，在开源模型上训练得到的攻击提示对于 GPT-4 的 API 也一样有效，具有相当的可迁移性。

三、实验和评价

本文评估了 SCAV 诱导的嵌入层攻击和提示层攻击与 DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt 等基线方法的攻击效果。恶意指令数据集为 Advbench 和 StrongREJECT。

评价指标有两类：一是常用的基于关键词匹配计算出的攻击成功率（ASR-keyword），而是基于 GPT-4 进行评价的进阶指标，ASR-answer、ASR-useful 和 Language Flaws，分别从不同的角度考察模型回复的质量。

嵌入层级的攻击结果如表 1、表 2 所示。结果表明，SCAV 方法在两个数据集和两个被攻击的模型上始终表现最佳，并且 Language Flaws 减少了 16% 到 24%，并成功引导了良好对齐的模型以有用的信息回答超过 90% 的恶意指令。表 2 所示的人工标注结果佐证了 GPT-4 评测的有效性。

达到这一效果所需的数据总量则比基线方法少得多。如图 5 所示，研究结果表明，受益于 SCAV 良好的建模与刻画安全机制的能力，仅需 5 对恶意-安全指令样本就可以达到 100% 的 ASR-keyword。而在仅有一对数据时，基线方法几乎失去效果，但 SCAV 仍然保持了 80% 左右的 ASR-keyword，并且在随机多次的实验中具有更小的方差。

▲ 图5：在使用不同训练数据数量时，SCAV 和基线方法的 ASR-keyword 比较，显示方差

提示层级的攻击结果如表 3、表 4 所示。表 3 显示，SCAV 方法始终表现最佳，相比于手动设计或优化攻击提示的基线方法，ASR 相关的标准提高了 12% 到 42%，Language Flaws 最多减少了 18%。这证明了优化目标的有效性，即同时提高攻击成功率并保持模型性能。

表 4 显示了将从 LLaMA 模型学习的提示应用于 GPT-4 的结果。SCAV 方法通常表现更好，ASR 相关标准最多提高 48%，Language Flaws 最多减少 26%。这表明通过研究某些白盒模型的内部工作原理所学习的攻击提示可能仍然对其他黑盒 API 有用。

四、见解

基于 SCAV 的攻击过程，研究者们提出了如下见解。

见解一：当前开源和闭源的大模型均存在严重的安全风险。

表 5 显示了使用 SCAV 攻击 7 个知名开源大模型的结果。可以看到，除了一个模型外，所有大模型对超过 85% 的恶意指令都提供了相关答案（ASR-answer）。响应质量也很高，平均 ASR-useful 为 87%，Language Flaws 平均为 12%。

此外，在大多数情况下，ASR-keyword 接近 100%。这非常危险，因为最近发布的开源 LLM 的性能正在逐渐提高，并且几乎不需要成本就可以获得对任何恶意指令的响应，因为不需要对大模型进行微调或使用大量训练数据。

表 6 显示了使用各种 SCAV 攻击手段组合对 GPT-4 攻击的结果。即使是最先进的 GPT-4 对 Advbench 上的 84% 恶意指令返回有用的响应，并且对 StrongREJECT 上的 54% 恶意指令给出有用的响应。

这表明，黑盒模型的对齐也可能通过使用现有攻击方法显著逆转。因此，迫切需要开发有效的方法来防御当前的攻击方法或停止开源高性能大模型。

见解二：遗忘学习等现有防御方法并不能抹消SCAV所揭示的安全漏洞。

现有的防御方法如遗忘学习等是否能有效帮助大语言模型忘记有害知识？通过对一个经过 Eraser 遗忘学习微调的 LLaMA-2-7B-Chat 版本应用 SCAV 攻击方法，表 7 显示，仍然可以诱导大模型产生许多有害响应，这表明现有的遗忘学习并不能抹消 SCAV 所揭示的安全漏洞。

此外，研究者们还发现 ICD、Perplexity 等经典的防御方法对嵌入层攻击这种手段基本不适用，说明了 SCAV 安全漏洞的高危特性。

见解三：对大模型可区分安全和恶意嵌入这一漏洞的认识

▲ 图6：通过（a）攻击单层；（b）攻击多层，以及（c）将嵌入级攻击转移到其他白盒大模型，揭示大模型的安全机制

（1）线性可分性与大模型的安全机制之间可能存在密切关系。之前的实验表明，对齐的模型可以在中晚期层线性分离来自恶意和安全指令的嵌入（图 1），并且由线性分类器引导的攻击成功率很高，这表明大模型的安全机制可能很好地被线性可分性建模。

为了更好地理解它们之间的关系，进一步攻击了 LLaMA-2-7B-Chat 的第 0、第 10、第 20 和第 30 层。如图 6a 所示，对线性可分层（第 10、20、30 层）的攻击始终导致 ASR-keyword 的增加，而对其他层（第 0 层）的攻击则没有改善 ASR-keyword。

基于这些结果，研究者推测，对于每一层，线性可分性不仅可能表明大模型理解安全概念，还可能意味着大模型将在后续层中使用这一安全概念来生成响应。

（2）不同的层可能从相关但不同的角度建模安全机制。图 6b 显示了在攻击 LLaMA-2-7B-Chat 的不同层时 Pm 的值，有两个现象。首先，攻击单一层（第 10 层）会导致当前层的Pm较低，但随后在后续层中 Pm 会增加。这意味着后面的层以某种方式逐渐通过利用嵌入的现有信息来纠正攻击，可能是因为模型从不同的角度建模安全机制。

其次，当更多层被扰动（例如，第 10 层到第 13 层）时，后续层的 Pm 不再能够被模型纠正。这表明某一些层可能共同决定了从不同角度的整体安全机制。

（3）不同的白盒大模型可能在其安全机制上存在一些共性。图 6c 展示了在将嵌入级攻击从一个白盒模型应用到另一个模型时的 ASR-keyword。可以看到，ASR-keyword 有时相当大（接近 100%）。

这表明大模型的安全机制可能具有某种共性，并且 SCAV 在某种意义上可能已经表征了这种共性。然而，关于何时可以转移以及为什么会转移，仍然缺乏清晰的解释。

五、结论

在本研究中，研究者们提出了一种基于安全概念激活向量（SCAV）的框架，以揭示大语言模型在安全对齐方面的潜在漏洞。通过在模型的嵌入空间中定义“安全”与“恶意”指令的分离面，SCAV 框架能够在嵌入层和提示层引导两种攻击方式，显著提升了对模型安全机制的攻击成功率和攻击迁移性。

实验表明，SCAV 方法在更少样本下比基线方法更有效，且减少了生成内容的缺陷。研究指出，大模型在嵌入空间的线性可分性是其安全机制的薄弱点，现有防御方法难以完全阻止 SCAV 攻击，强调了开发更强安全防护的紧迫性。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU