专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

CVPR2024-扩散模型可解释性新探索，图像生成一致性创新高！AI视频生成新机遇？

极市平台 · 公众号 · · 2024-04-23 22:00

正文

↑ 点击蓝字关注极市平台

作者丨 lovelypanda

来源丨GiantPandaCV

编辑丨极市平台

极市导读

在本文中，作者提出了一种基于成对平均CLIP分数的语义一致性分数。本文提出的语义一致性分数为图像生成的一致性提供了一个量化工具，这有助于评估特定任务的模型架构，并为选择合适的模型提供了参考依据。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

1. 本文概要

在本研究中，作者指出了对图像生成扩散模型的可重复性或一致性进行定量评分的重要性。本文提出了一种基于成对平均CLIP（对比语言-图像预训练）分数的语义一致性评分方法。通过将此度量应用于比较两种领先的开源图像生成扩散模型——Stable Diffusion XL（SDXL）和PixArt-α，作者发现它们在语义一致性分数上存在显著的统计差异。所选模型的语义一致性分数与综合人工标注结果的一致性高达94%。此外，本文还研究了SDXL及其经过LoRA（低秩适应）微调的版本之间的一致性，结果显示微调后的模型在语义一致性上有显著提高。本文提出的语义一致性分数为图像生成的一致性提供了一个量化工具，这有助于评估特定任务的模型架构，并为选择合适的模型提供了参考依据。

论文标题：Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation

论文链接： https://arxiv.org/abs/2404.08799

开源链接： https://github.com/brinnaebent/semantic-consistency-score

图1：将单个提示通过设置好的随机种子重复n次传递到扩散模型中。生成的图像通过CLIP图像编码器传递，计算所有来自单个提示生成的图像的成对余弦相似度。

2. 方法引出

随着图像生成扩散模型的研究和应用不断增长，对这些模型输出的可解释性进行更深入的研究变得尤为重要。在使用扩散模型进行图像生成时，输出结果会显示出一定的变异性。这种变异性是由扩散过程中的随机因素造成的，包括随机初始化、概率分布采样以及非线性激活函数等。尽管变异性是扩散模型的一个内在特点，但由于模型架构、训练过程（包括近似方法）以及用于指导生成过程的技术的不同，不同模型之间的变异性水平也会有所不同。在将这些模型应用于实际问题时，需要在输出的多样性和创造性与输入提示的一致性和连贯性之间找到一个平衡点。对输出的一致性或可重复性进行量化，可以使对这种变异性进行量化分析，并在决定使用哪种扩散模型来完成特定任务时，提供创造性与一致性之间的平衡参考。这种量化方法能够评估模型的稳定性和一致性，检测意外的偏差，验证模型输出的解释，并提高人类对模型的理解。

3. 方法详析

3.1. 语义一致性分数

作者认识到，为了量化扩散模型在图像生成中的可重复性或一致性，一个量化分数是必需的。在本研究中，本文介绍了一种基于语义的方法来计算这一分数，即通过使用成对平均CLIP分数（公式1）来实现。

公式1 给出了语义一致性分数，它是一个成对平均CLIP分数，其中是图像的数量，和分别是图像和的CLIP视觉嵌入。为了更好的可解释性和理解，该分数被限制在 0 到 100 之间，得分越接近100表示生成的图像语义越一致。所有成对余弦相似度之和除以唯一图像对的总数。使用均值是为了确保该指标对异常值敏感。

CLIP是一种跨模态检索模型，它在包含个 (图像，标题) 对的大规模数据集上接受训练，这些数据来自于50万个网络搜索查询。用于计算语义一致性分数的CLIP模型采用的是 ViT-B/32版本，该版本采用视觉变换器架构。网络输出一个 512 维向量，用以表征图像内容。模型权重的训练目标是最大化匹配的图像/标题对的标度余弦相似度，同时最小化不匹配对的相似度，从而创建一个嵌入空间，该空间适用于从图像字幕生成到图像检索和搜索等多种应用场景。

3.2. 图像生成模型评估

为了评估先进图像生成模型的一致性，本文选择了SDXL和PixArt- 进行比较，因为它们的权重和架构是开源的。相比之下，DALL-E 3、Imagen 2和Midjourney等封闭式图像生成模型由于缺之图像生成过程的透明度，难以用于一致性研究。特别是，无法设置随机种子，这对于研究模型的重复性至关重要。此外，DALL-E 3的API会重写输入的提示，这在实验中导致无法固定提示和随机种子，从而无法消除混杂变量。

图1详细说明了本文评估大型图像生成模型的方法。首先，作者将一个提示传递给图像生成扩散模型 (SDXL或PixArt- )。然后重复这一过程n次，以确保结果的可靠性。接下来，使用 CLIP图像编码器为每个生成的图像创建嵌入。最后，通过计算成对的余弦相似度并取平均值，以此得出针对特定提示和模型的最终一致性得分。

3.2.1 数据集构建：SDXL和PixArt-

为了评估SDXL和PixArt- ，首先使用一个大型语言模型 (Anthropic，claude-3-opus20240229）编写了100个独特的提示，并将这些提示标准化应用于两个模型。此外，使用预定义的随机种子来确保研究的可重复性，其中一个随机种子对应于一次重复。所有其他参数在两个模型间保持一致：宽度和高度设置为768像素，这是可用最大分辨率的一半。使用的调度器是K-Euler，引导比例设为7.5，推理步骤数设为 20 。

3.2.2 数据集构建：SDXL和LoRA

为了研究低秩适应 (LoRA) 微调对SDXL的影响，使用低秩适应在9幅公有领域的莫奈画作上微调了SDXL的权重。输入图像经过SwinIR (放大)、BLIP (字幕) 和CLIPSeg (去除不利于训练的图像区域，温度1.0) 处理。批量大小为 4 ，epochs为 1000 ，U-Net的学习率为 1 e-6,文本嵌入学习率缩放为 , LORA嵌入的学习率缩放为 1 e-4。LoRA微调在Nvidia A40上 Replicate上运行。

使用了50个之前用于SDXL和PixArt- 模型比较的提示子集，并在模型间使用相同的随机种子。为输入SDXL，在提示末尾添加"莫奈风格"。同样，为LoRA模型修改提示，附加"风格 TOK"，其中"TOK"是训练时用来表示输入图像中概念的唯一标记字符串，即莫奈画风。

3.2.3 人工标注

标注由13名人类标注者完成。本文构建了一个标注界面，并排显示SDXL和PixArt-生成的图像库，标注者选择他们认为最一致的库，并浏览每个提示。通过比较语义一致性得分最高的模型与每个标注者的选择以及所有标注者的整体响应（按频率聚合）来衡量一致性。

3.2.4 敏感性分析

本文进行了敏感性分析，以确定分析的最佳提示重复次数，以平衡准确性和计算效率。本文计算了SDXL和PixArt- 的10个不同提示的成对平均CLIP分数，重复次数从 10 到100不等。

根据敏感性分析的结果，本文对每个模型的每个提示进行了20次重复 (随机种子)，得到了张图像进行分析。

3.2.5 统计分析

对于每个提示和每个模型，计算成对平均CLIP分数。使用Kolmogorov-Smirnov正态性检验发现，每个模型的分数分布都不服从正态分布（p<0.05）。因此，作者使用Wilcoxon符号秩检验（非参数配对样本显著性检验）和两样本Kolmogorov-Smirnov检验（非参数检验，用于确定两个样本是否来自同一连续分布）来检查统计显著性。

图2：（上行）SDXL和PixArt-α在成对得分和分布上显示出显著差异，使用箱线图和核密度估计图可视化。（下行）SDXL（基础）和SDXL（基于Monet的LoRA微调）在成对得分和分布上显示出显著差异，使用箱线图和核密度估计图可视化。

4. 实验

4.1. 敏感性分析

作者进行了敏感性分析，以确定分析的最佳提示重复次数，平衡准确性和计算效率。作者发现，至少需要20次重复，才能确保得分在所有重复的平均得分和100次重复得分的1%范围内。在95%的迭代中，使用20次重复可将得分保持在平均得分和100次重复得分的0.5%范围内。

4.2. 模型比较：SDXL和PixArt-

作者探讨了SDXL和PixArt- 两种最先进的开源模型在图像生成一致性方面的差异 (图2)。在 100 个提示和每个模型张图像中，SDXL的平均一致性得分为 (中位数 91.3 )， PixArt- 为 (中位数 95.1 )。两样本Kolmogorov-Smirnov检验显示, 两个模型的得分分布存在显著差异 (KS统计量 ; p值。Wilcoxon符号秩检验也显示配对得分存在显著差异 (Wilcoxon统计量=110.0；p值=1.01e-16)。

人工标注与最高语义一致性得分之间的比较显示了很高的一致性。获得最高语义一致性得分的模型与人类标注者最常选择的模型匹配的比例为。在所有标注者中，平均一致性为