专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ECCV2024｜扩散模型的反馈学习 | RFNet：利用人类反馈生成可靠的高质量图像

极市平台 · 公众号 · · 2024-08-29 22:00

正文

↑ 点击蓝字关注极市平台

作者丨雨沐林风321

来源丨AICV与前沿

编辑丨极市平台

极市导读

本文提出了一种名为RFNet的多模态可靠反馈网络，用于提高图像生成的可用率和质量。该方法主要应用于电商领域的广告图像生成，旨在解决自动生成的广告图像可能存在的误导客户和人工审核成本高的问题。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

项目地址： https://arxiv.org/abs/2408.00418

文章地址： https://github.com/ZhenbangDu/Reliable_AD

01 导言

京东的广告团队提出一种提高图像生成可用率的方法，主要思想是通过多模态可靠反馈网络模拟人类审核AI图片，并且利用该网络的反馈提升生图的可用率，同事保持高质量的视觉效果（ 有一说一，思路简单很有意思并且取得不错的效果 ）

动机：电商领域，投放的广告图像对于吸引客户注意至关重要，目前基于AI生成的方法虽然可以自动生成广告图像，但是们通常会生成不合格的图像，这些图像可能会误导客户，并且需要大量的人工成本来检查。

解决： 引入了一个多模态可靠反馈网络 (RFNet) 来自动检查生成的图像。将 RFNet 组合成一个循环过程，即循环生成，可以产生更多的可用广告图像。为了进一步提高生产效率，利用来自 RFNet (RFFT) 的反馈，通过创新的一致条件正则化对扩散模型进行微调。这显著提高了生成图像的可用率，减少了循环生成中的尝试次数，并在不牺牲视觉吸引力的情况下提供了高效的生产过程。

同时构建了一个可靠反馈 100 万 (RF1M) 数据集，其中包含超过一百万张由人工注释的生成广告图像，这有助于训练 RFNet 准确评估生成图像的可用性并忠实反映人工反馈。

02 方法

广告形象是基于产品形象和提示进行重绘生成的。然后利用RFNet提供的反馈FAC对控制网进行一致条件正则化微调 生成广告图像的方法如上图所示。首先从描述所需背景的文本提示符和具有透明背景的产品图像开始。提示被输入到Stable Diffusion中，在输入到ControlNet之前，对进行了Canny控制条件提取。采用DDIM作为去噪方案进行去噪生成。

2.1 基于RFNet的循环生成

由于随机性的存在，重复生成可以显著扩大可用图像的数量。为了使检测过程自动化并消除人工参与，这里引入了一个多模态模型RFNet，以确定生成的图像是否准确可用，如下图所示。除了和 , RFNet还结合了来自辅助模式的信息：

深度图像
Salience图像
产品描述

将和输入到图像编码器中, 获取各自的图像嵌入。同时, 将Cap输入BERT, 得到文本嵌入 , 帮助识别产品的属性。

由于产品标题通常包含过多的信息，例如品牌，所以这里专注于从标题中提取视觉相关属性。因此首先使用个Feature Filter Module (FFM)，每个FFM由一个交叉注意层和几个卷积层组成。FFM的输出公式为:

其中作为Query, 同时作为交叉关注层中的Key和Value值, Conv()表示1 核卷积层, 表示逐元素乘法。这个过程确保了标题中的关键信息与图像嵌入有效地集成在一起, 增强了模型对产品的理解。

通过融合嵌入 , 通过个自关注层进一步整合不同的特征

最后，通过一个完全连接的分类器确定生成图像的每种情况的概率。RFNet通过考虑一组全面的视觉和文本特征，并提供细微的反馈，准确地评估生成的广告图像的可用性

2.2 具有一致条件正则化的RFFT

虽然Recurrent Generation可以生成更多的可用图像，但由于遗传的生成模型能力差，导致生成过程长时间且效率低下，给应用带来了很大的挑战。端到端生成-检测管道允许来自RFNet的反馈梯度直接微调扩散模型，增强其能力。

具体来说，提出的RFFT在40步去噪过程的最后10步中选择一个随机步t来生成

得到的被后处理为

其中是表示期望的 "可用" 类别的one-hot向量, 向量表示生成的每个图像情况的概率, N 为样本总数。然后反向传播梯度以引导模型产生具有更高可用概率的图像。

随着训练的进行，模型达到极高的可用率，但产生同质和美观崩溃的输出。因此，这里需要的是一种既能保持图像美观又能提高其可用性的训练方法。一种流行的解决方案是使用KL正则化，该损失项确保修改后的模型不会明显偏离期望分布，从而保持多样性并防止收敛到次优、重复的结果，该损失项可以表示为:

其中c和z为图像和文本控制条件，和表示当前模型和参考模型的分布。当反馈梯度努力将图像生成转向更高的可用率时，KL正则化努力保持生成的图像不变。

相对于专注于不变的图像，这里的目标是保持视觉质量。对于文本到图像的生成，视觉输出与输入文本条件z密切相关。在没有分类器的情况下，可以通过以下方法从模型的隐式分类器中获得文本引导。

用以表示文本条件影响图像生成的方向。为了确保图像可用性的改进不会损害核心条件，引入了一致条件(CC)正则化项LCC，如下:

图5所示b说明了

ECCV2024｜扩散模型的反馈学习 | RFNet：利用人类反馈生成可靠的高质量图像

正文

01 导言

02 方法

(adsbygoogle = window.adsbygoogle || []).push({}); 2.1 基于RFNet的循环生成

2.2 具有一致条件正则化的RFFT

请到「今天看啥」查看全文

2.1 基于RFNet的循环生成