专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
重庆市政府网  ·  国家一重大科研仪器研制项目在重庆启动 ·  10 小时前  
火星投资  ·  王炸:麒麟X90芯片来了,华为PC业务的国产 ... ·  11 小时前  
火星投资  ·  王炸:麒麟X90芯片来了,华为PC业务的国产 ... ·  11 小时前  
上海科创汇  ·  《嘉定区技术改造专项资金管理办法》2025- ... ·  2 天前  
上海科创汇  ·  申报|青浦区2025年度企业技术中心认定 ·  3 天前  
51好读  ›  专栏  ›  将门创投

ICLR 2025 | 多步不确定性让生成可控性大幅超越ControlNet++

将门创投  · 公众号  · 科技创业  · 2025-03-14 08:22

正文

还在用 Diffusion 解码出来的图片做 Rewarding Tuning?要知道,Diffusion 生成的图像分布与真实图像分布存在差异,直接使用生成图像计算 Rewarding Loss 会导致错误梯度累积。为此,清华大学智能产业研究院的研究团队提出基于 Uncertainty 建模的 Rewarding 过程,可以显著提升图像生成任务中的可控性以及生成质量!广泛实验证明,这是目前可控性最佳的条件生成模型,并且支持 Segmentation、HED、Depth、Lineart 等多种条件扩展。

image.png

论文题目:

Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling

论文链接:

https://arxiv.org/abs/2410.1123 6

代码链接:

https://grenoble-zhang.github.io/Ctrl-U-Page

一、简介

条件图像生成旨在生成与用户指令高度匹配的图像,尽管现有方法已经取得了显著进展,但在生成图像的 条件一致性 视觉质量 上依然存在巨大挑战。为了解决这个问题,清华大学智能产业研究院的研究团队提出了基于不确定性引导的可控生成框架—— Ctrl-U ,显著提升了模型的可控性和生成质量。

二、研究动机

近年来,随着大规模图文数据集的构建,文本生成图像(文生图)扩散模型在生成高保真、高分辨率图像方面取得了显著进展。然而,由于文本条件在表达细节控制方面的固有局限性,文生图模型在复杂场景渲染和艺术风格模拟等特定应用场景中,难以实现精细化和高精度的控制。

为了解决上述问题,研究者们提出了多种条件控制方法(如 T2i-Adapter 和 ControlNet),通过引入手绘线稿、深度图等先验条件信息,增强了生成模型的精确性。尽管上述方法在扩展文生图模型的应用范围方面取得了一定进展,但在生成图像的质量和条件一致性上,仍面临显著挑战。

为进一步提高生成结果与输入条件之间的一致性,部分研究(如 ControlNet++)尝试利用预训练的奖励模型,提取生成图像中的条件特征,并与输入条件信息进行对齐。然而,研究表明,奖励模型在处理新生成数据时,往往存在反馈不准确的问题。这种不准确性主要源于以下两个方面:

  1. 扩散过程中的噪声干扰 :扩散模型在训练过程中对输入添加不同程度的高斯噪声,显著增加了条件特征提取的难度。

  2. 未见数据的分布偏差 :生成图像与真实图像之间存在分布差异。奖励模型在面对未见分布时,即便生成结果已与条件保持一致,也容易产生错误预测。这些不准确的奖励反馈会造成错误梯度累积,从而影响模型的优化。

image.png

(a)真实图像和先验条件。(b)扩散模型训练过程中,各时间步 t 下生成图像的 mIoU 误差变化曲线。值得注意的是,即使在采样点 t=0,mIoU ≠ 0,反映了预训练奖励模型本身的预测误差。随着 t 值递增,尽管生成图像的整体布局已与条件信息在空间上保持一致,奖励模型仍倾向于增大误差,进而导致错误梯度的反向传播。

三、不确定性引导的可控生成框架

研究团队通过估计奖励模型的不确定性,动态调整训练过程中的损失权重,显著提高了条件图像生成的 一致性 可靠性

image.png

整体分为两个阶段:

3.1 不确定性估计

以分割掩码为先验条件为例,输入文本、源图像 和条件控制 ,分别提取特征 。在训练过程中,我们分别向特征图 添加不同时间步 的高斯噪声 作为噪声潜变量,具体表示为:

image.png

随后,我们将文本条件 和图像条件 融合,用于预测注入的噪声。通过去除预测噪声,得到恢复的潜变量
利用预训练解码器,根据 分别重建输入图像,得到 。为了使生成图像与输入条件 保持一致,我们使用预训练奖励模型 来量化生成图像的输出条件与输入条件之间的一致性。
为估计奖励模型预测的不确定性,我们显式利用两次扩散前向过程,并比较从生成图像中提取的 之间的奖励差异,作为当前时间步的不确定性估计。对于分割掩码,我们利用像素级 KL 散度量化不确定性:

image.png

对于其他非概率条件(如线稿和深度),我们采用 距离






请到「今天看啥」查看全文