点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
编辑:计算机视觉工坊
添加小助理
:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程
(星球成员免费学习)、
最新顶会论文
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章介绍了一种名为SMIRK的新方法,用于从图像中准确地重建表情丰富的3D面部。与传统的基于图形的方法不同,该方法采用神经图像到图像翻译器模型,学习根据渲染的预测面部几何形状重建输入面部图像。作者通过实验证明,SMIRK在重建具有挑战性的复杂表情(如不对称表情)和微妙表情(如傻笑)方面优于先前的方法。
下面一起来阅读一下这项工作~
1. 论文信息
题目:3D Facial Expressions through Analysis-by-Neural-Synthesis
作者:George Retsinas, Panagiotis P. Filntisis等
机构:Institute of Robotics, Athena Research Center等
论文:https://arxiv.org/pdf/2404.04104.pdf
代码:https://github.com/georgeretsi/smirk
2. 摘要
尽管现有的从野外图像中重建3D人脸的方法在恢复整体面部形状方面表现出色,但它们通常会错过微妙的、极端的、不对称的或很少见的表情。我们通过SMIRK(基于空间建模的基于图像的动作重建)方法改进了这些方法,该方法可以忠实地从图像中重建出富有表现力的3D人脸。我们发现现有方法存在两个关键限制:在自监督训练公式中存在缺陷,以及训练图像中表情多样性的缺乏。在训练过程中,大多数方法使用可微分渲染来比较预测的人脸网格与输入图像,以及大量额外的损失函数。这种可微分渲染损失不仅必须提供监督以优化3D人脸几何形状、相机、反照率和光照,这是一个不适定的优化问题,而且渲染与输入图像之间的域差距进一步阻碍了学习过程。相反,SMIRK用一个神经渲染模块替换了可微分渲染,该模块在给定渲染的预测网格几何形状和输入图像的稀疏采样像素的情况下生成一个面部图像。由于神经渲染从采样图像像素获取颜色信息,因此用神经渲染为基础的重建损失进行监督可以专注于几何形状。此外,它使我们能够在训练过程中生成具有不同表情的输入身份的图像。然后,这些图像被用作重建模型的输入,并与地面真实几何形状一起用作监督。这有效地增加了训练数据并增强了对多样化表情的泛化能力。我们的定性、定量和尤其是我们的感知评估表明,SMIRK在准确表情重建方面取得了新的最先进性能。有关我们方法的源代码、演示视频等,请访问我们的项目网页:https://georgeretsi.github.io/smirk/。
3. 效果展示
神经表情增强。我们的神经渲染器使我们能够修改表情,生成新的图像-3D训练对。我们可以使用随机噪声、来自其他重建的置换、模板注入或零化来编辑表情。
3D人脸重建的视觉比较。从左到右:输入,Deep3DFaceRecon,FOCUS,DECA,EMOCAv2,和SMIRK。
循环增强的影响。从左到右:输入图像,无循环损失,使用所有增强的循环损失。
循环路径的影响。当没有使用循环路径进行训练时,可能会出现伪影。从左到右:输入图像,无循环路径的3D重建和图像重建,有循环路径的3D重建和图像重建。
4. 主要贡献
5. 基本原理是啥?
SMIRK的基本原理是结合了分析合成方法和深度学习,旨在改进3D人脸重建。其核心思想是利用神经渲染模块来填补输入和合成输出之间的领域差距。通过最小化这种差异,SMIRK能够在分析合成框架内提供更强的监督信号。这意味着可以使用基于神经网络的损失,如感知损失、身份损失或情感损失,来比较重建和输入图像,而不会出现大多数工作中存在的典型领域差异问题。
SMIRK使用FLAME模型来建模面部的3D几何形状,包括由身份和表情参数生成的网格,还有两个blendshapes用于闭眼效果,以及用于下巴旋转的参数。此外,还考虑了刚性姿势和正交相机参数。
SMIRK的主要组件包括编码器、神经渲染器和图像到图像翻译器。编码器是一个深度神经网络,接受图像作为输入并回归FLAME参数。神经渲染器用于替代传统基于图形的渲染,采用图像到图像的卷积网络,通过将面部遮罩并只保留面具内的少量随机采样像素以及来自编码器的预测面部几何信息,强制渲染器依赖于编码器的预测几何信息来准确重建输入图像。图像到图像的翻译器用于生成原始图像的重建。
SMIRK通过两个独立的训练路径进行监督训练:重建路径和增强表情循环路径。在重建路径中,编码器从输入图像回归FLAME参数,然后渲染3D面部以获得重建图像。在增强表情循环路径中,通过引入新的表情参数,生成相应的图像并通过编码器恢复新的表情参数,以强化表情的多样性和一致性。通过交替优化这两个路径,SMIRK能够提高表情重建的准确性和多样性,同时避免翻译器对编码器的过度补偿。
6. 实验结果
训练数据集和最先进方法比较:
-
使用FFHQ、CelebA、LRS3和MEAD数据集进行训练。
-
与DECA、EMOCA v2、Deep3DFace和FOCUS等最先进方法进行比较。
预训练:
-
所有三个编码器在核心训练阶段之前进行了预训练,监督方式包括重建的地标损失和MICA的形状预测。
量化评估:
-
情绪识别准确度:使用AffectNet数据集,训练MLP分类八种基本表情,并回归愉悦度和唤起值。
-
重建损失:使用UNet图像到图像翻译器评估重建损失,冻结编码器权重以仅训练翻译器。
-
用户感知研究:进行用户研究以评估人类参与者对重建的面部表情的感知。
定性评估:
-
提供了与其他方法的多个视觉比较,展示了SMIRK在捕捉面部表情方面的优越性。
消融研究:
-
对地标损失的影响进行了消融研究,表明地标损失在训练中起到了一定的规范化作用。
局限性:
-
提到了SMIRK对遮挡敏感、假设缺失部分更强烈的表情以及尚未探索时间因素等局限性。
7. 总结 & 未来工作
我们提出了SMIRK,这是一种新的范式,用于从图像中准确地重建表情丰富的3D面部。与传统的基于图形的方法不同,该方法通常用于野外单眼3D面部重建,SMIRK采用了一个神经图像到图像翻译器模型,该模型学习根据渲染的预测面部几何形状重建输入面部图像。我们广泛的实验结果表明,SMIRK优于先前的方法,可以忠实地重建表情丰富的3D面部,包括具有挑战性的复杂表情,如不对称表情,以及微妙的表情,如傻笑。
本文仅做学术分享,如有侵权,请联系删文。
3D人脸重建在计算机视觉和图形学中一直是一个经典且热门的研究方向,在游戏、影视、娱乐等众多行业也有着广泛的应用。早期人脸重建主要基于多视角相机或深度相机,随着深度学习的兴起,基于单张图片的人脸重建成为可能,且重建的精度、速度也飞速进步,现如今,3D人脸重建已经融入每个人的生活,像抖音快手的人脸特效、支付宝的人脸识别、苹果手机的人脸解锁和Animoji、3D美妆、游戏换脸、数字人直播等等,都有3D人脸重建在背后做技术支持。
虽然基于单张图片的3D人脸重建技术日趋成熟,也已经有众多落地场景,但对于科研新手或工作新人,想要入门此方向还有一定门槛,需要兼具视觉和图形学方面的知识,具备一定的3D基础,虽然互联网上有很多相关的知识,但这些知识都比较零散不成体系。
为了让想要快速进入该方向的同学快速入门,工坊联合主讲老师Levy为大家准备了这套基于单张图片的3D人脸重建课程,从
基础知识
、
算法讲解
,
再到代码解读
、
落地应用
,能够让同学们由简到难、循序渐进地学习相关知识,掌握相关算法,能够真正做到从小白到入门。
彻底搞懂本门课程,你将拥有至少
2年
算法工程师的工作经验。