专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
英式没品笑话百科  ·  我的邻居因为妻子在自家花园里裸体晒日光浴而大 ... ·  昨天  
51好读  ›  专栏  ›  计算机视觉工坊

索尼最新!首个融合 2D 和 3D 方法优势的面部重现框架3DFlowRenderer!

计算机视觉工坊  · 公众号  ·  · 2024-04-28 11:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了一种名为3DFlowRenderer的新颖框架,用于进行一次性面部重现,具有对极端头部姿势变化的鲁棒性。该框架结合了2D和3D方法的优势,通过估计输入2D图像的密集3D面部流场,根据目标图像的运动对源图像的3D特征体积进行变形,并生成包含源图像身份和目标表情的2D变形图像。文章还介绍了一种名为Cyclic warp loss的损失函数,用于规范变形网络的运动估计能力,从而提高表情转移的准确性。实验结果表明,该框架在面对极端面部姿势和表情挑战时具有较好的性能,能够实现逼真的面部重现,并且能够防止背景像素的丢失和不必要的运动。文章还对框架进行了综合评估,并讨论了面部重现技术可能引发的伦理问题,并强调严禁使用该技术进行不当行为。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:3DFlowRenderer: One-shot Face Re-enactment via Dense 3D Facial Flow Estimation

作者:Siddharth Nijhawan等

作者机构:Sony Group Corporation

论文链接:https://arxiv.org/pdf/2404.14667

2. 摘要

在一次性设置下进行面部表情转移在研究界日益受到关注,重点是对表情进行精确控制。现有技术展示了在感知表情方面的引人注目的结果,但它们在极端头部姿势下缺乏鲁棒性。它们也难以准确重建背景细节,从而影响了逼真性。在本文中,我们提出了一种新颖的变形技术,它将2D和3D方法的优势结合起来,实现了鲁棒的面部再现。我们在特征空间中生成了密集的3D面部流场,以根据目标表情对输入图像进行变形,而无需深度信息。这使得能够明确地对重现不对齐的源和目标面部进行3D几何控制。我们通过提出的“循环变形损失”来规范3D流预测网络的运动估计能力,通过将变形的3D特征转换回2D RGB空间。为了确保生成具有自然背景的更细致的面部区域,我们的框架首先只渲染面部前景区域,并学习对由于源脸部平移而需要填充的空白区域进行修补,从而重建详细的背景而没有任何不必要的像素运动。广泛的评估表明,我们的方法在渲染无瑕疵的面部图像方面优于最先进的技术。

3. 效果展示

与最先进方法的定性比较。

消融研究的目视比较。

其他消融研究的目视比较。

定性比较与国家的最先进的方法的任务自我身份重新制定。

4. 主要贡献

  • 我们提出了一个网络,用于学习密集的3D面部流,以基于目标表情使用仅2D图像对源图像在3D特征空间中进行变形,并通过提出的循环变形损失在2D空间中规范其流动估计能力。据我们所知,这是第一篇将2D和3D方法的优势整合起来,使用基于3DMM的先验实现鲁棒的面部再现的工作。

  • 我们展示了单独渲染面部前景和背景的有效性;允许重建背景中的高频细节,增加逼真感。

  • 我们对VoxCeleb数据集进行了广泛的评估,定量和定性地展示了我们网络的逼真渲染能力,同时防止了泄漏(或运动)和背景像素的丢失。它也对头部姿势变化和位移的极端情况具有鲁棒性。

5. 基本原理是啥?

这篇文章介绍了一种用于实现高质量面部表情合成的方法。其基本原理包括以下关键步骤:

3DMM(三维形状和纹理模型)预测:从输入的2D图像中估计一组3D面部关键点,并根据目标面部方向应用一系列变形来生成一个复合流场。

3D变形流水线:使用3DMM系数作为先验计算密集的3D面部流场,增强了其整体表达能力,同时对大表情和姿势变化具有鲁棒性。通过将 RGB 空间分解为深度和通道信息,并应用一系列包含 3D 卷积的编码器子块,然后是解码器子块来估计流场。

目标运动注入:在每个卷积块后使用 AdaIN 操作将目标运动注入到源图像统计数据中,以保留原始源信息并防止纹理损失。

3D特征编码器:从2D源图像中提取3D外观特征。与3D变形网络的编码器类似,它将2D特征投影到3D并应用一系列3D卷积块。

3D特征解码器:将变形的特征体积转换回2D图像。它将深度和通道空间合并到RGB空间,并应用一系列解码器子块,现在使用2D卷积和上采样块来生成变形图像。

图像细化:生成的变形图像可能包含多个不良伪影。为了解决这个问题,引入了一个基于 UNet 的块,称为“TransUNet”,对变形图像进行细化,提高渲染质量。

图像修补:生成具有高频细节的背景,以增加逼真度。通过将只包含前景信息的图像细化网络的输出投影到预处理阶段提取的源图像的背景上,然后执行任务,即根据相邻像素填充空白空间,使用另一个 TransUNet 块。

训练策略:分两个阶段训练网络,首先预训练执行3D变形的块以及修补网络的块,然后一起训练整个网络。在训练过程中使用地面实况计算损失时,使用源图像中的个体和目标视频中的个体。

6. 实验结果

在实验中,我们使用了 VoxCeleb 数据集进行训练和评估。数据集包含了从 YouTube 视频中提取的说话头视频序列。我们对数据进行了预处理,裁剪出了空间分辨率为 256×256 的面部区域。训练集包括 16,900 个视频序列,评估集包括 477 个视频。每个序列的长度在 64 到 1024 帧之间变化。

评估指标方面,我们使用了 Fréchet Inception Distance (FID)、结构相似性指数 (SSIM)、余弦相似度 (CSIM)、峰值信噪比 (PSNR) 等指标来量化生成图像的逼真度、重建质量和身份保持能力。此外,为了评估面部表情(或运动)转移的准确性,我们还计算了平均表情距离 (AED)、平均姿势距离 (APD) 和平均关键点距离 (AKD)。

我们的模型在两个任务中进行了性能评估,分别是自身身份 (self-ID) 重现和跨身份 (cross-ID) 重现。自身身份重现是指源图像中的个体与目标视频中的个体身份相匹配。跨身份重现是指身份不同。我们选择了 X2Face、Bi-Layer、FOMM、PIRenderer、DaGAN 和 HyperReenact 等最先进的一次性面部重现方法进行比较。

在自身身份重现和跨身份重现方面,我们的模型在 FID、PSNR、SSIM、CSIM 和 AKD 等指标上表现最好。定性评估结果显示,我们的方法在生成图像的质量方面优于其他方法,尤其是在目标姿势和表情与源图像明显不同时。与其他方法相比,我们的方法生成的图像具有最少的伪影,并在源前景由于运动而移动时呈现出适当的背景细节。

进一步的消融研究结果表明,采用 3D 流进行变形比在 2D 空间进行变形效果更好。通过添加细化器网络 (TransUNet),可以提高渲染质量。采用循环变形损失可以提高 3D 变形网络的渲染性能。

7. 总结 & 未来工作

我们提出了 3DFlowRenderer,这是一个新颖的框架,可以通过融合 2D 和 3D 方法的优势,在极端头部姿势变化下进行一次性面部重现,并具有鲁棒性。我们的模型从输入的 2D 图像中估计密集的 3D 面部流场,根据目标图像的运动对源图像的 3D 特征体积进行变形,并生成一个包含源图像身份和目标表情的 2D 变形图像。此外,我们通过提出的循环变形损失来规范我们变形网络的运动估计能力,提高了表情转移的准确性。此外,我们的模型在实现细微面部区域的逼真渲染的同时,防止了背景像素的丢失和不必要的运动。我们进行了全面的评估,以展示我们网络在面对极端面部姿势和表情的挑战性场景中的重现性能。伦理考虑。面部重现技术可以生成看起来逼真的视频(DeepFakes),其中个人模仿真实个体。因此,我们认识到这类方法可能会被用于不当行为,比如在未经其同意的情况下制作某个特定人的虚假视频。我们严厉谴责这种行为,并支持通过面部重现相关研究的进步来传播社会意识。这也有助于开发旨在检测 DeepFakes 的算法。严禁使用我们的方法生成和分发不道德的视频。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组







请到「今天看啥」查看全文