专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

目录

相关文章推荐

哲学园 · 「哲思入衣 · 穿行智慧」—— ... · 昨天

哲学园 · 低于成本价再捡漏！2000+的高端空气净化器 ... · 2 天前

哲学园 · 有人问Deepseek，如果一生只能读20本书…… · 3 天前

哲学园 · 情人节大放送！爱她，就送她紫水晶 · 3 天前

哲学王 · 陈嘉映：施指与符号 · 3 天前

51好读 › 专栏 › 极市平台

ClassDiffusion: 使用显式类别引导的一致性个性化生成

极市平台 · 公众号 · · 2024-06-03 18:37

正文

↑ 点击蓝字关注极市平台

作者丨黄键楠

编辑丨极市平台

极市导读

本文通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 并据此提出了一个简单有效的方法ClassDiffusion来提升个性化生成的一致性。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

文章主页: https://classdiffusion.github.io/

论文地址: https://arxiv.org/abs/2405.17532v1

代码地址: https://github.com/Rbrq03/ClassDiffusion

一. 研究背景

个性化生成领域最近取得了飞速的发展, 但微调引入的过拟合导致模型无法生成与提示词一致的结果, 本文通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 并据此提出了一个简单有效的方法ClassDiffusion来提升个性化生成的一致性。文章还引入了BLIP2-T 来为个性化生成领域提供更公平有效的指标。

二. 实验观察

文章对之前方法微调后的模型进行了两个观测:

对文本空间进行观测, 发现个性化概念的语义(e.g. “a photo of a sks dog”)离类别分布中心(e.g. “a photo of a dog”)的距离增大了。
发现随着优化步数和学习率的增加, 类别token的交叉注意力层激活程度呈现明显的下降趋势。

因此文章提出了一个理论: 一致性的缺失是由于个性化概念的语义偏移导致的。

三．理论分析

由EBM[1]的结论可以得出:

其中为类别对应条件, 为模型隐式分类器, 将 , 分别记为 . 条件概率的熵可以被计算为:

微调前后熵的变化可以被计算为:

结合文章的实验观测和概率论的性质, 有

熵的降低导致了在条件下进行采样的难度增加，从而导致了一致性的降低。

四．方法介绍

ClassDiffusion引入了一个全新的损失函数Semantic Preservation Loss(SPL), 旨在缩小个性化概念与文本空间中超类分布中心之间的语义差距。用和分别表示个性化短语和类短语的 CLIP 编码器输出的嵌入，语义保留损失可以用下式表示:

请到「今天看啥」查看全文

推荐文章

哲学园 · 「哲思入衣 · 穿行智慧」—— 让思想成为你的时尚宣言

昨天

哲学园 · 低于成本价再捡漏！2000+的高端空气净化器放血清货，价格炸，库存少

2 天前

哲学园 · 有人问Deepseek，如果一生只能读20本书……

3 天前

哲学园 · 情人节大放送！爱她，就送她紫水晶

3 天前

哲学王 · 陈嘉映：施指与符号

3 天前

新浪教育 · 2017年考研国家线发布！申请调剂3月17日开始

7 年前

伊犁我的家 · 伊犁杏花节上了湖南卫视《天天向上》，今晚十点不见不散！

7 年前

练瑜伽 · 夏天练瑜伽，到底能不能开空调？

7 年前

少数派 · 我的 iPhone 只装了 20 个 App | 装了啥

7 年前

庞门正道 · 这种装逼婚纱照，能看不能学啊！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!