专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ICLR2024｜姿势引导 | 一致性 | PCDMs：多阶段的高保真高质量人像生成

极市平台 · 公众号 · · 2024-05-25 22:00

正文

↑ 点击蓝字关注极市平台

作者丨雨沐林风

来源丨AICV与前沿

编辑丨极市平台

极市导读

本文提出了渐进式条件扩散模型(pcdm)，该模型通过三个阶段逐步弥合目标姿态和源姿态下的人物图像之间的差距。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

文章地址： https://arxiv.org/pdf/2310.06313

项目地址： https://github.com/tencent-ailab/PCDMs

AIGC的许多领域都需要涉及到一致性的保持，比如人脸、人体整体、场景等高一致性保持，体现在视频生成、虚拟试衣、写真套装系列等实际场景。最近正好在涉及相关的工作，所以有必要来学习下~~

01 导言

最近的工作已经显示了扩散模型在人体图像合成中的巨大潜力。然而，由于源图像和目标图像的位姿不一致，仅依靠源图像和目标图像的位姿信息来合成具有不同位姿的图像仍然是一个巨大的挑战。

本文提出了渐进式条件扩散模型(pcdm)，该模型通过三个阶段逐步弥合目标姿态和源姿态下的人物图像之间的差距。

第一阶段，设计了一个简单的先验条件扩散模型，该模型通过挖掘姿态坐标与图像外观之间的全局对齐关系来预测目标图像的全局特征。
第二阶段利用前一阶段的全局特征在源图像和目标图像之间建立密集对应关系，并提出一种条件扩散模型来进一步对齐和增强上下文特征，生成粗粒度的人物图像。
第三阶段，提出了一种细化条件扩散模型，利用前一阶段粗生成的图像作为条件，实现纹理恢复并增强细节一致性。

三个阶段的pcdm工作逐步产生最终的高质量和高保真合成图像。定性和定量结果都证明了pcdm在具有挑战性的场景下的一致性和真实感。

02 方法

PCDMs它包含一个先验条件扩散模型、一个Inpaint条件扩散模型和一个细化条件扩散模型。PCDMs方法旨在利用三阶段扩散模型来逐步弥合目标和源姿势下的人物图像之间的差距。

先验条件扩散模型通过挖掘姿态坐标与图像外观之间的全局对齐关系来预测目标图像的全局特征。

Inpaint条件扩散模型利用前一阶段的全局特征进一步增强上下文特征，生成粗粒度合成图像。

细化条件扩散模型利用前一阶段生成的粗粒度图像，完成纹理细化，增强细节一致性。

2.1 先验条件扩散模型

第一阶段，提出了一个简单的先验条件扩散模型，用于预测目标图像的全局embedding。这里选择从CLIP 图像编码器中提取的图像嵌入作为目标图像的全局嵌入。CLIP通过对比学习在大规模图像-文本配对数据集上进行训练。因此， 图像嵌入可以捕获丰富的图像内容和风格信息（InstantStyle这篇风格迁移论文也正是基于这个结论） ，可以用来指导后续的目标图像合成。

先验条件扩散模型的概述

如图3所示，先验条件扩散模型是一个transformer网络，以源图像pose、目标图像pose和源图像为条件。首先采用OpenPose 获取源图像和目标图像的姿态坐标。使用一个紧凑的由3个线性层组成的可训练姿态网络将姿态坐标投影到姿态嵌入中。对于源图像，使用CLIP图像编码器提取图像嵌入，并添加线性层来投影图像嵌入。此外，增加了一个额外的嵌入来预测目标图像的无噪声全局嵌入。将上述嵌入加上目标图像的时间步长嵌入和噪声图像嵌入concat，作为transformer网络的输入。

在unCLIP之后，先验扩散模型被训练成直接预测无噪声图像嵌入，而不是预测图像嵌入中添加的噪声。给定源图像和目标图像的姿态特征和，源图像的全局特征 , 先验扩散模型的训练损失定义为:

一旦模型学习了条件分布，根据Eq. 4进行推理，如下所示:

2.2 Inpainting条件扩散模型

利用第一阶段得到的目标图像的全局特征，提出了一种条件扩散模型， 建立源与目标之间的密集对应关系，将未对齐的图像生成任务转化为对齐的图像生成任务 。

如图4所示，沿着宽度维度连接源和目标图像、源和目标姿态、源和遮罩图像。为了防止源图像和目标图像中的黑白混淆，添加了一个与输入相同宽度和高度的单通道标记符号(在图中省略)。分别使用0和1来表示被屏蔽和未被屏蔽的像素。

然后，将从先验条件扩散模型(先验模型)中获得的目标的全局特征与源图像的局部特征连接起来。这确保了模型的输入条件包括源和目标的全部，并在三个层次上对齐:图像、姿势和特征，

Inpaint条件扩散模型概述

具体来说，使用与ControlNet类似的具有四个卷积层的姿态编码器从姿态骨架图像中提取姿态特征。与先前使用姿态坐标的模型不同，希望该模型在整个学习阶段保持图像模态对齐，特别是空间信息。

对于源图像，使用冻结图像编码器和可训练的MLP来提取源图像的细粒度特征。作者选择DINOv2 作为图像编码器，因为它可以提取精细的细节。

为了更好地利用前一阶段获得的目标图像的全局特征，还将其加入到时间步嵌入中，嵌入到整个网络的ResNet块中。inpainting条件扩散模型的inpainting损失函数L如下:

其中，分别表示源与目标全局特征拼接得到的特征嵌入、源与目标位姿的特征嵌源与掩模图像的特征嵌入。

在推理阶段，同样根据Eq. 6使用无分类器引导，如下:

2.3 细化条件扩散模型

在第二阶段之后，获得初步生成的粗粒度目标图像。为了进一步提高图像质量和细节纹理，如图5所示，提出了一种细化条件扩散模型。该模型以前一阶段生成的粗粒度图像为条件，提高合成图像的质量和保真度。

细化条件扩散模型概述

首先沿着通道将粗粒度目标图像与噪声图像连接起来，这可以通过修改基于UNet架构的扩散模型的第一卷积层来轻松实现。然后，使用DINOv2图像编码器和可学习的MLP层对源图像进行特征提取。最后，通过交叉注意机制将纹理特征注入到网络中，引导模型进行纹理修复，增强细节一致性。

假设给定粗目标特征和源图像特征