文章主页:
https://classdiffusion.github.io/
论文地址:
https://arxiv.org/abs/2405.17532v1
代码地址:
https://github.com/Rbrq03/ClassDiffusion
一. 研究背景
个性化生成领域最近取得了飞速的发展, 但微调引入的过拟合导致模型无法生成与提示词一致的结果, 本文通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 并据此提出了一个简单有效的方法ClassDiffusion来提升个性化生成的一致性。文章还引入了BLIP2-T 来为个性化生成领域提供更公平有效的指标。
二. 实验观察
文章对之前方法微调后的模型进行了两个观测:
-
对文本空间进行观测, 发现个性化概念的语义(e.g. “a photo of a sks dog”)离类别分布中心(e.g. “a photo of a dog”)的距离增大了。
-
发现随着优化步数和学习率的增加, 类别token的交叉注意力层激活程度呈现明显的下降趋势。
因此文章提出了一个理论: 一致性的缺失是由于个性化概念的语义偏移导致的。
三. 理论分析
由EBM[1]的结论可以得出:
其中
为类别对应条件,
为模型隐式分类器, 将
,
分别记为
. 条件概率
的熵可以被计算为:
微调前后熵的变化可以被计算为:
结合文章的实验观测和概率论的性质, 有
熵的降低导致了在
条件下进行采样的难度增加,从而导致了一致性的降低。
四.方法介绍
ClassDiffusion引入了一个全新的损失函数Semantic Preservation Loss(SPL), 旨在缩小个性化概念与文本空间中超类分布中心之间的语义差距。用
和
分别表示个性化短语和类短语的 CLIP 编码器输出的嵌入,语义保留损失可以用下式表示: