文章地址:
https://arxiv.org/pdf/2403.06951.pdf
项目地址:
https://github.com/bytedance/DEADiff
01 导言
基于扩散的文本到图像模型在传递参考风格方面具有巨大的潜力。然而,当前基于编码器的方法在传输样式时严重损害了文本到图像模型的文本可控性。
本文
引入了DEADiff,通过两种策略来解决这个问题:1)一种机制来解耦参考图像的风格和语义。解耦的特征表示首先由不同文本描述指示的Q-Formers提取。然后将它们注入到相互排斥的跨注意层子集中,以更好地解开纠缠。2)非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练,其中参考图像和真实图像具有相同的风格或语义。
DEADiff在文本到图像模型中固有的文本可控性和与参考图像的风格相似性之间获得了最佳的视觉风格化结果和最佳平衡。
贡献
-
提出了一种双解耦表示提取机制,分别获得参考图像的风格表示和语义表示,从学习任务的角度缓解了文本和参考图像之间的语义冲突问题。
-
引入了一种解纠缠的条件反射机制,允许跨注意层的不同部分分别负责图像样式/语义表示的注入,从模型结构的角度进一步减少了语义冲突
-
使用非重构训练范式构建了两个成对的数据集来辅助DDRE机制
02 方法
DEADiff的训练和推理范式
使用专有的配对数据集来训练Q-Former,以提取“风格”和“内容”条件下的解纠缠表示,并将其注入互斥的交叉注意层。
2.1 双解耦表示提取
受BLIP-Diffusion的启发,该方法通过不同背景的合成图像对来学习主题表示,以避免繁琐的解决方案,作者整合了两个辅助任务,它们利用Q-Formers作为非重构范式内嵌套的表示过滤器。这能够含蓄地辨别出图像中风格和内容的分离表示。
一方面,对一对不同的图像进行采样,它们保持相同的风格,但分别作为稳定扩散(SD)生成过程的参考和目标,如图2(a)中的a对所示。
将参考图像输入CLIP图像编码器,其输出通过交叉注意与QFormer的可学习查询令牌及其输入文本进行交互。
在这个过程中,将单词“style”作为输入文本,期望生成与文本对齐的图像特征作为输出。该输出封装了风格信息,然后与详细描述目标图像内容的标题相结合,并为去噪U-Net提供条件。这种提示组合策略的动机是为了更好地将风格从内容标题中分离出来,从而使Q-Former能够更多地专注于以样式为中心的表示的提取。这个学习任务被定义为风格表示提取,简称STRE。
另一方面,合并了一个相应的对称内容表示提取任务,称为SERE。如图2(a)中的B对所示,
选择两幅题材相同但风格不同的图像,分别作为参考图像和目标图像。重要的是,将Q-Former的输入文本替换为单词“content”,以提取相关的特定于内容的表示。
为了获得纯粹的内容表示,同时提供Q-Former的查询令牌输出和目标图像的文本样式词,作为去噪U-Net的条件。在这种方法中,Q-Former将在生成目标图像时筛除嵌套在CLIP图像嵌入中的与内容无关的信息。
同时,将重建任务合并到整个管道中。条件反射提示符由“风格”Q-Former和“内容”Q-Former为这个学习任务处理的查询令牌组成。这样就可以保证Q-Formers不会忽视本质的图像信息,同时考虑到内容和风格之间的互补关系。
2.2 解耦条件作用机制
去噪U-Net中不同的交叉注意层支配着合成图像的不同属性,作者引入了一种创新的解纠缠调节机制(Disentangled Conditioning Mechanism,DCM)。本质上,
DCM采用的策略是对空间分辨率较低的粗层进行语义约束,对空间分辨率较高的细层进行风格约束。
如图2(a)所示,
只将带有 “style”条件的Q-Former的输出查询注入到精细层,这些层响应局部特征而不是全局语义。
这种结构调整促使 Q-Former在输入“风格”条件时提取更多面向风格的特征,如笔触、纹理和图像的颜色,同时减少对全局语义的关注。同时,为了使去噪的U-Net支持图像特征作为条件,设计了一个联合文本-图像交叉注意层,如图3所示。以类似于IP-Adapter的方式,包括两个可训练的线性投影层
来处理图像特征
,并结合冻结的层
来处理文本特征
但是,不是单独对图像和文本特征执行交叉注意,而是分别将文本和图像特征的键矩阵和值矩阵连接起来,然后使用U-Net查询特征z启动单个交叉注意操作。这个组合的文本-图像交叉注意过程的公式可以表示为:
2.3 配对数据集的构建
准备具有相同风格或主题的一对图像是一项不平凡的工作。幸运的是,现有的最先进的文本到图像模型已经证明了对给定文本提示的高保真度。因此,通过结合主题词和风格词手动创建文本提示列表,并利用预训练模型构建两个配对的图像数据集-一个具有相同风格的样本,另一个具有相同主题的样本。形式上,配对数据集的构建包括以下三个步骤:
步骤1:文字提示组合
列出了近12000个主题词,涵盖了四个主要类别:人物、动物、物体和场景。此外,还注意到近700个风格词,其中包括艺术风格、艺术家、笔触、阴影、镜头、分辨率和视角等属性。然后,从所有风格词中平均为每个主题词分配大约14个风格词,这些组合形成用于文本到图像模型的最终文本提示。
步骤2:图像生成和收集
将文本提示与主题词、文体词结合起来,获得了超过16万条提示。随后,将所有的文本提示发送到领先的文本-图像生成产品Midjourney,合成相应的图像。作为Midjourney的一个特点,给定提示符的直接输出包含4张分辨率为512 × 512的图像。将每个图像上采样到分辨率1024 × 1024,并根据给定的提示进行存储。由于数据收集的冗余性,最终总共收集了106万对图像-文本对。
步骤3:配对图像选择
即使使用相同风格的词,不同主题词生成的图像也存在显著差异。鉴于此,对于风格表征学习任务,使用了两幅不同的图像,它们分别作为参考和目标,如图2(a)所示。为了实现这一目标,存储具有与单个项目相同提示的图像,并在每次迭代中随机选择两个图像。在图2(b)所示的内容表示学习任务中,将具有相同主题词但不同风格词的图像配对为单个项目。最终为前一个任务获得了一个超过16万项的数据集,为后一个任务获得了一个106万项的数据集。
2.4 训练和推理
在训练过程中,只对Q-Former和新增加的线性投影层进行优化。推理过程如图2(b)所示。
03 实验结果