文章地址
:
https://arxiv.org/abs/2405.12970
项目地址
:
https://github.com/FaceAdapter/Face-Adapter
01 导言
本文提出FaceAdapter,这是一种高效的轻量级适配器,专为预训练扩散模型的高精度和高保真的人脸再现/交换任务而设计。
人脸再现/交换任务本质上都涉及目标结构、ID和属性的组合,所以本文目标是充分解耦这些因素的控制,以便在一个模型中实现这两个任务。
具体来说,方法包括:
1)提供精确landmarks和背景的空间条件生成器,
2)即插即用的身份编码器,通过转换器解码器将面部嵌入转移到文本空间。
3)集成空间条件和详细属性的属性控制器。
相比于完全微调的人脸再现/交换模型,face - adapter在运动控制精度、ID保留能力和生成质量方面实现了相当甚至更好的性能。此外,Face-Adapter与各种StableDiffusion模型无缝集成。
亮点:
-
-
新的空间条件生成器模块:预测必要的生成区域,与身份编码器和属性控制器协作,将重现和交换任务框架化为具有充分空间指导、身份和必要属性的条件修补任务
-
一个模型两个任务:允许简单的修改输入独立完成人脸再见和人脸交换两个面部任务并获取优越或竞争结果。
02 方法
先来看看Face-Adapter与其它方法的简约对比如下:
上图:Face-Adapter支持“一个模型两个任务”的方法,并在各种具有挑战性的场景下展示了鲁棒性。下图是Face-Adapter和全微调方法/目前adapters方法的对比。
Face-Adapter的具体架构如下:
Face-Adapter pipeline
由三个模块组成:1)空间条件生成器预测3D先验landmarks并自动适应前景蒙版,为控制生成提供更准确的指导。
2) Identity Encoder通过使用可学习的查询将人脸嵌入转移到文本空间,从而提高生成图像的身份一致性。
3)属性控制器具有(i)空间控制功能,将目标运动地标与来自空间条件生成器的不变背景相结合,以及(ii)属性模板来填充缺失属性。
2.1 空间条件生成器
空间条件生成器(SCG)来自动预测3D先验landmarks和不同前景区域的掩码,为后续的控制生成提供更合理和精确的指导。具体来说,该组件由两个子模块组成:
3D面部重建方法用来提取源脸和目标脸的身份、表情和姿势系数。随后,将源的身份系数与目标的表情和位姿系数重新组合,重建一个新的三维人脸,并将其投影以获得相应的landmarks
引入了一种轻量级的适应区域预测器,用于面部重演和交换,自动预测模型需要生成的区域(适应区域),同时保持其余区域不变。对于面部再现,适应区域包括源图像头部在重演前后的区域。
2.2 身份编码
如IP-Adapter-FaceID和InstantID所证明的那样, 高层次语义的人脸嵌入可以确保更强健的身份保存。正如我们所观察到的, 在人脸再现/交换中不需要重型纹理编码器或额外的身份网络。只需调整一个轻量级映射模块, 将人脸嵌入映射到固定的文本空间中, 即可保证身份保持。具体来说, 给定一张人脸图像
, 通过预训练的人脸识别模型
获得人脸嵌入
。随后, 采用三层transformer 解码器
将人脸嵌入
投影到预训练扩散模型的固定文本语义空间中, 获得身份token。
Transformer解码器中指定的可学习查询
的个数 N (本文设
)约束了身份嵌入的序列长度, 保证其不超过文本嵌入的最大长度。通过这种方法, 预训练扩散模型的UNet不需要任何微调来适应人脸嵌入。
2.3 属性控制
与ControlNet一致, 创建了U-Net的一个副本
, 并添加了空间控制
作为调节输入。空间控制图像
由目标运动标志
与自适应区域预测器
或
)得到的非自适应区域相结合得到
再现和交换任务都可以看作是利用给定的身份和其他缺失的属性内容,遵循提供的空间控制执行条件绘制的过程。
考虑到身份和部分背景的空间控制,属性模板被设计来补充缺失的信息,包括灯光和部分背景和头发。属性嵌入