文章链接:https://arxiv.org/pdf/2406.15305
代码地址:https://github.com/PKU-ML/Diffusion-PID-Protection
亮点直击
-
本文在实证观察中发现,保护阶段和利用阶段之间的提示不匹配可能会削弱当前数据保护算法的有效性。
-
本文深入探讨了利用LDMs中的视觉编码器实现更强大数据保护的可能性,并提出了一种名为PID的新算法。
-
通过广泛的验证,本文展示了PID对不同训练算法、数据集和自适应攻击的有效性。
最近,对潜在扩散模型(LDMs)进行少样本微调使其能够从少量图像中掌握新概念。然而,考虑到在线上可获得的大量个人图像,这种能力引发了对隐私的重要关注。虽然先前已开发了几种防御方法来防止LDMs的滥用,但它们通常假设数据保护者使用的文本提示与数据剥削者完全相匹配。在本文中,首先通过实证方法证明,打破这一假设,即在数据保护者和数据剥削者之间存在文本条件的差异情况下,这些防御方法的有效性可能会大幅降低。此外,考虑到视觉编码器独立于文本提示的特性,本文深入研究了如何通过操纵视觉编码器来影响LDMs的少样本微调过程。基于这些见解,本文提出了一种简单而有效的方法,名为
Prompt-Independent Defense(PID)
,用于保护免受LDMs的侵害。本文展示了PID可以单独作为强大的隐私屏障,同时需要显著较少的计算资源。本文的研究以及全面的理解和新的防御方法,为可靠地对抗LDMs的数据保护迈出了重要的一步。
本文提出以下研究问题(RQs):
-
问题1:保护阶段和滥用阶段使用的提示不匹配是否会影响现有防御算法的有效性?
-
问题2:像素空间中的扰动如何影响LDMs中视觉编码器的输出,从而影响微调过程?
-
问题3:如果问题1的答案是肯定的,我们能否通过更好地利用独立于提示的视觉编码器来提升保护的鲁棒性?
本文首先研究了在提示不匹配情况下当前防御方法的鲁棒性。为了模拟恶意环境,其中滥用者有意设计文本提示来破坏防御,本文定义了一组候选提示,标记为
,供滥用者在微调潜力扩散模型时选择。本文从CelebA-HQ数据集中随机选择一个个体,并使用ASPL算法及其推荐的超参数对其图像进行保护。在保护阶段,本文将文本提示固定为“一张sks人的照片”(表示为
)。随后,分别使用Stable Diffusion v1.5与DreamBooth 在每个恶意候选提示(
)的条件下进行微调。最后,本文使用微调过的模型生成图像,并展示了部分生成图像如下图1a所示。对于
的情况,显示的图像来自候选模型中视觉效果最佳的模型。观察到,提示依赖型防御在面对有意多样化的提示时,其保护性能显著降低。本文假设这种退化是由于扰动与文本条件之间的纠缠所致。针对上述观察结果的深刻关注,深入探讨了LDMs中的潜空间,并充分调查了利用视觉编码器构建更具抗变提示性的数据保护的可能性。基于本文的发现,提出了一种新的防御方法系列,名为独立于提示的防御(PID)。PID完全独立于文本提示,显示出对多样化微调提示的鲁棒性,如下图1b中定性展示的,并在后面章节中定量展示。
文本提示相关的防御对变化的提示是否具有鲁棒性?
在这一部分,本文对与不同提示面对的变化提示的相关防御进行了定量评估。
数据与模型
:本文的实验主要使用CelebA-HQ 数据集,随机选择了10位名人,并为每位名人选择了4张图片。本文使用Stable Diffusion v1.5 作为默认模型,DreamBooth 作为默认的微调方法。
防御方法
:本文考虑了Van Le等人提出的FSGM和ASPL方法,它们的目标完全与文本提示相关。扰动预算设置为0.05,并且在本文中扰动后的图片以PNG格式保存,除非另有说明。
度量标准
:本文使用两个度量标准来衡量生成的图像与训练图像之间的相似性:人脸检测分数(FDS)和Fréchet Inception Distance(FID)。此外,本文还使用两个度量标准评估图像质量:图像质量分数(IQS)和盲/无参考图像空间质量评估器(BRISQUE)。本文使用↑(数值增加)和↓(数值减少)表示更好的保护效果的方向,例如,较大的FID表示生成图像与训练图像的分布之间存在更大的距离,表明生成的图像未能很好地捕捉训练数据,从而保护了训练数据的隐私。
结果
:针对每位名人选择的4张图像,本文采用了FSGM和ASPL防御方法,并使用保护提示
为
,
生成相应的受保护版本。这些受保护的图像随后用于使用微调提示
(
)
微调模型,从而生成不同的微调模型。在测试阶段,本文使用任意提示生成一组图像,并使用上述四个指标对其进行评估。跨不同微调模型的平均结果显示在下图2中。可以看到,当保护提示与微调提示不匹配时,保护性能明显受到影响。例如,在FSGM方法中,当微调提示与保护提示不匹配时,FDS指标增加了超过35%(从0.277增加到0.387),而FID指标减少了30%(从307.421降低到203.916)。其他指标和方法的情况也是一致的。深感关切的是,本文观察到破坏数据保护者所做的提示一致性假设,可能使数据探测者能够生成高质量的模拟图像,即使在某种程度上对数据进行了保护。因此,本文旨在设计一种无关提示的防御方法,以应对这一问题。
扰动视觉编码器会影响微调过程吗?
回想一下,潜在分布是通过基于KL散度的变分自编码器(VAE)建模为多项式高斯分布,
,这是与提示无关的。这个属性可以用来解决在提示不匹配时防御性能下降的问题。在深入探讨这个潜在的解决方案之前,本文首先研究了潜在分布的变化,即均值
和方差
,对微调的影响。
用于最大化扰动图像均值与原始图像之间的距离,而
则用于最大化两个分布方差之间的距离。具体而言,
和
定义如下:
其中
表示添加的扰动,使用
最大化上述损失函数。
受到
的限制。然后,本文对通过优化上述两个目标得到的图像进行微调,并使用上面相同的评估框架评估微调后的模型。
下表1中呈现的结果表明,显著重塑潜在分布确实对微调产生了重大影响。为了直观展示扭曲的潜在分布对结果的影响,本文使用视觉解码器解码在优化过程中从分布中采样的表示 z,并在下图3中显示解码后的图像。结合表1的结果和图3,本文发现大的均值差异主要影响输出图像的质地,使其看起来覆盖有大量噪声(低IQS和高BRISQUE)。相反,大的方差显著阻止模型理解图像的核心概念(低FDS和高FID)。
最后,如下图4所示,本文绘制了均值差异和方差差异的
范数,揭示了即使在像素空间中添加的小扰动(0.05),也可以显著改变潜在分布。方差的变化如此剧烈,以至于干净图像和扰动图像之间的方差差距范围从约
。此外,本文观察到均值变化和方差变化并不完全相关。无论是在图4a还是图4b中,一个经历了显著波动,而另一个则没有显著变化,这表明它们对微调结果的影响是不同的。
总体而言,通过在像素空间引入扰动,本文可以操控潜在分布的这两个统计量,从而显著影响微调结果的不同方面。
如何更好地利用视觉编码器进行数据保护?
扰动潜在分布显著影响微调过程,而这种潜在分布是与提示无关的。因此,在本节中,本文旨在利用视觉编码器实现一种有效的独立于提示的防御机制。
Proposed Prompt-Independent Defense
根据前面表1的结果,可以知道影响均值和方差会对学习过程的不同方面产生影响。观察上图4发现仅改变其中一个统计量不足以同时在两者中引起显著变化。这一观察促使本文探索通过设计一个复杂的目标来更有效地操纵潜在分布的可能性,充分利用影响均值和方差的好处。
本文首先尝试干扰从潜在分布中抽样的表示
,这导致了损失函数
的应用,这也是Liang所使用的。为了减少优化过程中不必要的随机性,接着尝试在
中排除
,得到了损失函数
。考虑到在上图4中观察到的均值和方差的显著差异,本文提出了
,它联合优化了方差的对数和均值。此外,本文探索了对均值
的有针对性操作,这类似于Liang和Wu 所做的工作,其中目标是他们论文中指定的默认图像。本文将这种损失称为
。
本文接着评估上述提出的防御目标对潜在分布的影响,如下图5所示。值得注意的是,
(图5a和图5b中的紫色线)是唯一能显著偏离其正常值的防御目标,均值的平均
距离为3.5,方差为0.06。相比之下,
和
在扰动方差方面表现明显较差。
有了合适的目标后,本文接着检查它是否比之前对精细调整有更大影响。下表2中呈现的结果显示,以前文献中采用的损失函数,如