作者:Portia Cooper, Harshita Narnoli, Mihai Surdeanu
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/pdf/2412.12212
文本到图像模型常常遭受一种称为“分而治之攻击”(DACA)的逐步攻击,该攻击通过大型语言模型将敏感文本包装在看似无害的叙述中,以隐藏不当内容。为了有效抵御这种逐步DACA攻击,我们提出了一种包含两个阶段的方法:首先是文本摘要,随后进行二元分类。我们构建了一个名为对抗性文本到图像提示(ATTIP)的数据集,包含940个样本,涵盖了经过DACA掩盖和未掩盖的提示。利用ATTIP数据集,我们生成了两个版本的摘要——一个由小型编码器模型生成,另一个由大型语言模型生成。接着,我们运用编码器分类器和GPT-4o分类器对这些经过摘要处理和未经摘要处理的提示进行了内容审核。与仅处理未摘要数据的分类器相比,我们的方案将F1分数的性能提升了31%。值得一提的是,编码器分类器在处理摘要化的ATTIP变体时,达到了最高的F1分数,即98%。这项研究证实,通过预先进行文本摘要的分类,可以有效保护内容检测模型不受逐步DACA掩盖的干扰。
文本到图像模型能够创造出高度逼真的图像,以呈现用户提供的提示文本。许多公开可用的文本到图像模型采用内容审查技术,以确保所生成的图像内容适宜。然而,即便是像DALL-E 3这样的尖端模型,也难以抵御对抗性提示技术的侵袭。邓和陈(2024年)的研究发现,所谓的“分而治之攻击”(DACA)掩盖技术,通过大型语言模型(LLM)生成的叙述来重新构建和填充不适当的图像提示,超过85%的时间能够成功欺骗DALL-E 3的内容过滤器。
针对文本到图像模型的各种攻击已经开发出来,包括逆向工程模型的安全过滤器以及在提示中引入字符级别的扰动。DACA之所以引人注目,是因为它首次利用LLM修改的提示来绕过文本到图像模型的安全过滤器。DACA的逐步方法通过指示LLM识别对抗性提示的核心要素(如角色、行动、属性和场景描述)来运作。随后,LLM被用来通过重新构建敏感文本来掩盖这些提取的内容。
我们假设直接的文本摘要可以作为对抗DACA的有效手段,通过消除语言掩盖来实现。在图1的子图(a)和(b)中,我们展示了一个被内容检测过滤器放行用于图像生成的适当提示,以及一个被过滤器标记的不适当提示。子图(c)展示了一个成功的DACA掩盖案例,其中不适当的提示被LLM驱动的修改所混淆。我们将这种现象称为“披着羊皮的狼”,因为不适当的提示被厚厚的语言“绒毛”所伪装。最后,子图(d)展示了我们提出的文本摘要方法的结果,将混淆的提示压缩成一个简洁的描述性句子。随着“绒毛”的去除,内容检测过滤器成功标记了提示,并阻止了图像的生成。
图1:分而治之攻击(DACA)“披着羊皮的狼” - 子图(a)显示了内容检测过滤器清除的适当提示;(b)显示了被过滤器标记的不适当提示;(c)显示了被DACA掩盖修改的不适当提示,绕过了过滤器;以及(d)显示了掩盖提示的摘要版本,去除了“绒毛”,未能通过过滤器。
-
我们提出了一种简便直接的文本摘要方法,有效去除文本到图像提示中的DACA掩盖。
-
我们构建了一个评估基准——对抗性文本到图像(ATTIP)数据集,该数据集包含了对不适当和适当提示进行逐步DACA掩盖的实例。
-
我们对比了基于小型编码器和大型语言模型(LLM)的文本摘要在提取掩盖提示中关键信息的有效性。研究结果表明,针对摘要提示进行微调的内容检测模型,在性能上优于那些直接在原始掩盖文本上训练和评估的模型。
近期文本到图像生成模型的快速发展催生了一系列研究,这些研究揭示了模型的潜在脆弱性。Rando等人(2022年)深入探究了Stable Diffusion模型安全过滤器的不足之处,并证实了其容易被绕过,进而生成包含暴力和血腥内容的图像。Qu等人(2023年)对文本到图像模型的脆弱性进行了研究,发现有19%的概率生成不安全的图像。Liu等人(2023年)提出了一种可靠且难以察觉的对抗性文本到图像生成技术,证明了在白盒和黑盒环境下,基于对抗性提示的图像能够被成功生成。Radharapu和Krishna(2023年)提出了一种新的攻击分类方法,发现在十三种攻击方式中,有十种能够有效绕过模型的安全过滤器。此外,CharGrad(Kou等人,2023年)利用文本到图像提示中的字符级扰动来欺骗黑盒模型,提出了一种可控的提示对抗性攻击框架。而Groot框架(Liu等人,2024年)则利用语义分解和大型语言模型(LLM)系统地提炼对抗性提示。
此外,以往的研究还探讨了中和各种对抗性图像生成方法的技术。Yang等人(2024年)引入了GuardT2I框架,该框架利用LLM将文本到图像提示中的文本嵌入转换为自然语言,以确保生成图像的完整性。Wu等人(2024年)提出的用于安全文本到图像生成的通用提示优化器框架,使用LLM在图像生成前处理有毒提示,显著降低了不当图像的生成概率。Schramowski等人(2023年)提出了一种稳定的潜在扩散层方法,作为一种无分类器的解决方案,用于抑制生成图像中的不适当内容。
本文的一个关键贡献是整合了一个包含文本到图像提示的基线数据集,这些提示包括未掩盖的适当内容、掩盖的适当内容和掩盖的不适当内容。为了实现这一目标,我们构建了一个包含1,000个提示的初始语料库,其真实标签构成如下:(1) 来自VBCDE-100数据集的100个不适当提示(Deng和Chen,2024年),这些提示包含暴力、血腥、非法活动、歧视和色情内容等敏感类别;(2) 900个适当提示,这些提示是从HuggingFace上托管的poloclub DiffusionDB大型数据集中随机选择的1.8M个独特提示的子集(Wang等人,2022年)。
在这些适当提示中,随机抽取的50%(n=450)未作更改,保持未掩盖状态。所有不适当提示(n=100)和剩余的适当提示(n=450)被选为使用GPT-3.5 Turbo(OpenAI,2022年)进行LLM驱动的DACA掩盖。在550个掩盖提示中,有58个(占11%)失败并从数据集中排除。当模型将输入提示标记为过于敏感或无法将输入提示适配到DACA分割模板时,这些提示被标记为失败。此外,还特别选取了一个掩盖的不适当提示和一个掩盖的适当提示作为保留集,用作LLM驱动的文本摘要的上下文学习示例(附录A,表3)。
最终形成的数据库包括450个未掩盖和490个掩盖的提示,并被指定为对抗性文本到图像提示(ATTIP)数据集(N=940)。在这个阶段,ATTIP基线数据集被分配了50%-25%-25%的训练(n=470)、测试(n=235)和验证(n=235)分割,掩盖提示在每个集合中均匀分布。
我们提出的对抗DACA掩盖的方法分为两个步骤:文本摘要和不适当提示分类。
4.1 文本摘要
为了消除提示中的掩盖,我们采用了直接文本摘要的方法。我们选择了两种摘要技术来提取提示中的核心信息:
-
编码器摘要器
:使用了philschmid/bart-large-cnn-samsum(philschmid,2022年),这是Facebook的BART变换模型的一个变种(Lewis等人,2019年),并在Samsung的SAMSum数据集(N=16,369)上进行了微调(Gliwa等人,2019年)。
-
GPT-4o摘要器
:这是OpenAI(2024年)发布的最新旗舰模型,它接收了来自保留集的两个上下文学习示例,并被指导以一种风格摘要掩盖提示,使得结果摘要能够反映出提示在被掩盖之前的原始形态。
我们在完整的ATTIP基线数据集上部署了这两种摘要器,生成了940个编码器摘要和940个GPT-4o摘要。
4.2 不适当提示分类
我们对抗DACA掩盖问题的解决方案的第二部分是二元分类。我们选择了两种内容检测方法:
-
编码器分类器
:采用了michellejie-li/inappropriate_text_classifier(Li,2022年),这是一个在综合滥用检测数据集的19,604个样本子集上训练的DistillBERT版本(Song等人,2021年)。
-
GPT-4o分类器
:这是OpenAI(2024年)发布的最新旗舰模型。
编码器分类器在与预定义的训练集(N=470)相关的编码器和GPT-4o摘要上进行了训练,而GPT-4o则被提供了两个上下文学习示例:一个真实适当的和一个真实不适当的。此外,编码器分类器和GPT-4o分类器都利用ATTIP基线数据集的原始、未摘要提示进行了调整。我们使用指定的测试集为两个模型计算了不适当类别的精确度、召回率和F1分数以及整体准确性,并进行了错误分析(附录A.1)。
4.3 编码器分类器的解释
我们使用局部可解释模型无关解释(LIME)来评估编码器分类器的性能。从ATTIP基线数据集的测试子集(n=235)和相应的编码器和GPT-4o摘要中,我们随机抽取了10%的样本。
两名人类注释者根据详细的代码簿(附录A.2)独立评估了生成的LIME图的解释。基于每个图中排名最高的十个词,注释者为每个解释分配了差、一般和高质量的评级。一致性达到了89%,Cohen's Kappa值为0.82(SE=0.06,95% CI=[0.70, 0.94])。对于编码器不一致性的问题,我们进行了讨论和调和。
表1展示了编码器分类器在处理基线掩盖文本、编码器摘要和GPT-4o摘要时的准确性、精确度、召回率以及F1分数。特别地,F1分数显著提升,从使用原始掩盖文本训练时的94%增长至采用我们的编码器摘要方法训练时的98%。
表2呈现了平行实验的结果,该实验涉及使用GPT-4o模型进行相同的不适当提示分类任务。在这一实验中,实现的最高F1分数为81%,这是在使用GPT-4o摘要方法时获得的,而这一分数低于编码器分类器在处理GPT-4o摘要文本时的F1分数,后者达到了94%。
表1:不同摘要方法下编码器分类器的性能指标
提示数据源
|
准确性(A)
|
精确度(P)
|
召回率(R)
|
F1分数(F1)
|
ATTIP基线数据集
|
0.99
|
0.96
|
0.92
|
0.94
|
编码器摘要器
|
1.00
|
0.96
|
1.00
|
0.98
|
GPT-4o摘要器
|
0.94
|
0.89
|
1.00
|
0.94
|
表2:不同摘要方法下GPT-4o分类器的性能指标
提示数据源
|
准确性(A)
|
精确度(P)
|
召回率(R)
|
F1分数(F1)
|
ATTIP基线数据集
|
0.80
|
0.33
|
0.96
|
0.49
|
编码器摘要器
|
0.96
|
0.82
|
0.75
|
0.78
|
GPT-4o摘要器
|
0.96
|
0.83
|
0.79
|
0.81
|
图2:编码器分类器在ATTIP基线数据集、编码器摘要和GPT-4o摘要数据上生成的LIME图的质量标签分布
5.2 编码器分类器解释分析
如图2所示,ATTIP基线数据集的解释中,差质量标签占据了最大比例,达到47.37%。而编码器摘要的解释与一般质量标签关联最为密切,占比39.47%。GPT-4o摘要的解释则获得了最高比例的高质量标签,为40.00%。这些发现表明,对摘要提示进行分类不仅提升了性能,同时也提高了解释的质量。为了进一步阐释掩盖如何影响模型的可解释性,我们在附录A中提供了四个来自验证集数据的LIME图示例。
编码器和GPT-4o分类器在处理未摘要提示时均面临挑战。
特别是GPT-4o分类器,在处理ATTIP基线数据集中的不适当测试集时,其F1分数从49%显著提升至81%,当使用GPT-4o摘要时。
而最高的不适当F1分数——98%——是由在编码器摘要上微调的编码器分类器实现的。
此外,本研究分析的LIME图显示,摘要数据上产生了更高质量的解释,其中编码器和GPT-4o摘要共占总高质量标签的88%。