本文介绍了来自清华大学智能产业研究院的研究团队提出的基于
预训练文生图扩散模型
结合
多任务学习
方法的生成Visual Anagram的方法,此方法无需训练/微调现有模型,并解决了已有方法存在的概念分离与主导等问题,在此生成任务上取得新的最佳性能。
论文题目:
Diffusion-based Visual Anagram as Multi-task Learning
论文链接:
https://arxiv.org/abs/2412.02693
代码链接:
https://github.com/Pixtella/Anagram-MTL
视觉回文(Visual Anagram)
是一类特殊的图像,在
不同角度
下,他们看起来所
呈现的内容可能完全不同
,这类视幻觉在很久以前就得到了艺术家、哲学家以及科学家的关注与研究。
早期由艺术家手工创作的Visual Anagram代表包括1892刊载于德国幽默杂志
Fliegende Blät
ter
的素描画
Kaninchen und Ente
,这幅画正着看像一只嘴巴朝左的
鸭子
,但如果将其旋转45度,它又像一只
兔子
,原先的鸭嘴部分成了兔子耳朵。
Kaninchen und Ente
另一个代表是
意大利文艺复兴时期
的矫饰主义代表画家朱塞佩·阿尔钦博托(Giuseppe Arcimboldo)的油画作品
The Fruit Basket
,它正着看像是一个
果篮
,但倒过来时,则呈现为一个
人的面部
。
这些画作在
不同的视角
或几何变换下生成
多重意象
,而这些意象需要在
一幅图像中协调统一
。
最近,基于
预训练扩散模型
生成Visual Anagram的方法被提出[1],该方法将含噪图像经过不同视角变换后分别输入到扩散模型中,然后将预测出的噪声
取平均
后进行去噪,此方法可以成功生成一些Visual Anagram。
现有的基于扩散模型生成Visual Anagram方法示意[1]
但是,由于此方法对去噪过程
缺少显式的控制
,较容易出现两类失败情形:
概念分离
(Concept Segregation)和
概念主导
(Concept Domination)。概念分离指的是不同视角下的概念被
独立地生成
,未能实现真正的图像一体化;而概念主导则是某些对象显著
压制了其他对象的表达
。这些问题使得现有方法难以生成满足要求的高质量Visual Anagram。
现有方法的失败案例。左:概念分离,兔子和小提琴被独立地生成在了图像的不同区域而未达成一幅图像中的协调统一;右:概念主导,生成的图像被概念“猫”主导,没能在另一个视角下表达“船”。
在本研究中,为解决上述问题,研究团队将Visual Anagram的生成建模为一个
多任务学习问题
,并设计了
抗分离优化
(Anti-Segregation Optimization)、
噪
声向量平衡
(Noise Vector Balancing)、
噪声方差修正
(Noise Variance Rectification)三项核心技术。
实验结果表明,该方法在多项定量和定性评估指标上均显著优于现有的基线方法,以及在生成更复杂的三视角Visual Anagram时,展示出了更高的灵活性和一致性。
二、方法
算法总览:在每个去噪步骤中,各视角下的中间图像 与对应文本提示先一起通过扩散模型以及一个CLIP模型,随后经过噪声向量平衡、噪声方差修正、抗分离优化三个优化步骤得到下一去噪步骤的输入图像。
问题定义:问题的目标是利用
现成的文生图扩散模型
生成Visual Anagram。形式化地,给定一组文本提示
及其对应的视角
,期望生成一幅图像
,使其在每个视角
下与相应的文本提示词
匹配。
2.1 抗分离优化
在多任务学习(Multi-task Learning)中,单一模型被训练来同时解决多个任务,这是通过在模型中
共享表征
以利用任务之间的
相似性
达成的。类似地,在Visual Anagram生成中,不同文本提示中的概念(Concept)被期望
共享同一幅图像
。
抗分离优化旨在解决概念分离问题。研究团队设计了一种
推理时损失项
(Inference-time loss term),调整中间图像以鼓励不同视角下文本提示词与图像的
交叉注意力图
(Cross-attention maps)重叠。损失项的计算公式如下:
其中,
遍历注意力图中的所有像素点,
表示在时间步
时,像素点
处与来自概念
的所有令牌(token)的注意力分数之和,
是视角总数,
是一个用于控制目标重叠比例的超参数。
在每个去噪步骤之后,使用此损失项通过
单步梯度下降
调整图像:
其中,
控制调整力度。更新后的图像将传递到下一个去噪步骤。
抗分离优化技术通过促进注意力图重叠进而鼓励所生成概念的重叠,从而有效地防止了概念的分离,进而提高Visual Anagram生成质量。
抗分离优化:定性结果。应用抗分离优化后,去噪过程找到了两个视角下的生成任务的共性,体现为交集更大的注意力空间分配,最终实现单一图像中更高程度的概念统一和画面协调性。
2.2 噪声向量平衡
多任务学习中的一个常见挑战是任务间
梯度的不平衡
问题,其中某些任务可能主导整个学习过程。为了解决这一问题,GradNorm[2]提出可以实时衡量每个任务的训练进展,并为
进展较少的任务分配更高的梯度权重
。
受此启发,研究团队提出了一种基于任务完成度的噪声向量
权重分配
方法。具体来说,将文本提示及其对应的含噪图像分别输入到CLIP文本编码器和在含噪图像上训练过的CLIP图像编码器中。然后,把图像与文本编码的余弦相似度作为任务完成度评分,这个评分将用于组合噪声向量时各向量的赋权。
赋权和组合过程的公式如下:
1. 计算每个视角的任务完成度评分(余弦相似度):
2. 计算每个视角的权重系数:
3. 系数归一化:
其中,
和
分别代表CLIP文本编码器和CLIP图像编码器,
为视角的下标,
表示视角变换函数,
是视角
的文本提示,
是视角
在时间步
的噪声预测,
是去噪步骤的总数。重赋权后的噪声向量
将被用来计算下一个图像。
直观上,
生成任务更接近完成的视角的噪声向量会被赋予较低的权重
,防止它在去噪过程中占据主导地位。通过这种方式,噪声向量平衡技术有效地平衡了不同视角的生成任务的进度,提高Visual Anagram的整体质量。
噪声向量平衡:定性结果。基线方法生成的图像被概念“鹿”主导,而几乎没有体现“鸟”,应用提出的噪声向量平衡技术后,鸟的眼睛、尾巴上的羽毛、腿和爪子等细节被成功地生成。
2.3 噪声方差修正
研究团队观察到,尽管每个视角的噪声向量估计被期望服从
标准正态分布
,但在Visual Anagram的生成中,噪声向量直接平均后可能
不再保持这些统计属性
,这可能破坏整个去噪过程。因此,研究团队提出了一种矫正方法,通过施加一个比例因子来调整组合后的噪声向量,使其方差呈现标准方差。
具体步骤和公式如下:
1. 基本假设:每个视角下预测所得噪声向量
遵循标准高斯分布
。
2. 因此,对于重赋权后的组合噪声向量中的每个元素
,其期望值为零:
3. 然而,方差不一定为一。为了解决这个问题,研究者们提出通过一个比例因子
来矫正组合噪声向量,使得方差为单位方差。
5. 其中,协方差项
等于它们的相关系数,因为
和
都遵循标准高斯分布。
6. 根据大数定律,可以近似协方差项为:
7. 最后,通过将估计的协方差项代入,计算出所需的比例因子 ,并将组合噪声向量乘以这个比例因子进行矫正。
通过这种噪声方差矫正方法,噪声的
关键统计属性
得以被保持,由此提高整体的图像生成质量。