项目地址:
https://arxiv.org/abs/2408.00418
文章地址:
https://github.com/ZhenbangDu/Reliable_AD
01 导言
京东的广告团队提出一种提高图像生成可用率的方法,主要思想是通过多模态可靠反馈网络模拟人类审核AI图片,并且利用该网络的反馈提升生图的可用率,同事保持高质量的视觉效果(
有一说一,思路简单很有意思并且取得不错的效果
)
动机
:电商领域,投放的广告图像对于吸引客户注意至关重要,目前基于AI生成的方法虽然可以自动生成广告图像,但是们通常会生成不合格的图像,这些图像可能会误导客户,并且需要大量的人工成本来检查。
解决:
引入了一个多模态可靠反馈网络 (RFNet) 来自动检查生成的图像。
将 RFNet 组合成一个循环过程,即循环生成,可以产生更多的可用广告图像。为了进一步提高生产效率,利用来自 RFNet (RFFT) 的反馈,通过创新的一致条件正则化对扩散模型进行微调
。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并在不牺牲视觉吸引力的情况下提供了高效的生产过程。
同时构建了一个可靠反馈 100 万 (RF1M) 数据集,其中包含超过一百万张由人工注释的生成广告图像,这有助于训练 RFNet 准确评估生成图像的可用性并忠实反映人工反馈。
02 方法
图像生成-审查PipeLine
广告形象是基于产品形象和提示进行重绘生成的。然后利用RFNet提供的反馈FAC对控制网进行一致条件正则化微调
生成广告图像的方法如上图所示。首先从描述所需背景的文本提示符和具有透明背景的产品图像
开始。提示被输入到Stable Diffusion中,在输入到ControlNet之前,对
进行了Canny控制条件提取。采用DDIM作为去噪方案进行去噪生成。
2.1 基于RFNet的循环生成
由于随机性的存在,重复生成可以显著扩大可用图像的数量。为了使检测过程自动化并消除人工参与,这里引入了一个多模态模型RFNet,以确定生成的图像是否准确可用,如下图所示。除了
和
, RFNet还结合了来自辅助模式的信息:
RFNet
将
和
输入到图像编 码器中, 获取各自的图像嵌入
。同时, 将Cap输入BERT, 得到文本嵌入
, 帮助识别产品的属性。
由于产品标题通常包含过多的信息,例如品牌,所以这里专注于从标题中提取视觉相关属性。因此首先使用
个Feature Filter Module (FFM),每个FFM由一个交叉注意层和几个卷积层组成。FFM的输出公式为:
其中
作为Query,
同时作为交叉关注层中的Key和Value值, Conv()表示1
核卷积层,
表示逐元素乘法。这个过程确保了标题中的关键信息与图像嵌入有效地集成在一起, 增强了模型对产品的理解。
通过融合嵌入
, 通过
个自关注层进一步整合不同的特征
最后,通过一个完全连接的分类器确定生成图像的每种情况的概率。RFNet通过考虑一组全面的视觉和文本特征,并提供细微的反馈,准确地评估生成的广告图像的可用性
2.2 具有一致条件正则化的RFFT
虽然Recurrent Generation可以生成更多的可用图像,但由于遗传的生成模型能力差,导致生成过程长时间且效率低下,给应用带来了很大的挑战。端到端生成-检测管道允许来自RFNet的反馈梯度直接微调扩散模型,增强其能力。
具体来说,提出的RFFT在40步去噪过程的最后10步中选择一个随机步t来生成
得到的
被后处理为
其中
是表示期望的 "可用" 类别的one-hot向量, 向量
表示生成的每个图像情况的概率, N 为样本总数。然后反向传播梯度
以引导模型产生具有更高可用概率的图像。
随着训练的进行,模型达到极高的可用率,但产生同质和美观崩溃的输出。因此,这里需要的是一种既能保持图像美观又能提高其可用性的训练方法。一种流行的解决方案是使用KL正则化,该损失项确保修改后的模型不会明显偏离期望分布,从而保持多样性并防止收敛到次优、重复的结果,该损失项可以表示为:
其中c和z为图像和文本控制条件,
和
表示当前模型和参考模型的分布。当反馈梯度努力将图像生成转向更高的可用率时,KL正则化努力保持生成的图像不变。
相对于专注于不变的图像,这里的目标是保持视觉质量。对于文本到图像的生成,视觉输出与输入文本条件z密切相关。在没有分类器的情况下,可以通过以下方法从模型的隐式分类器中获得文本引导。
用以表示文本条件影响图像生成的方向。为了确保图像可用性的改进不会损害核心条件,引入了一致条件(CC)正则化项LCC,如下:
图5所示b说明了