点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
编辑:计算机视觉工坊
0.这篇文章干了啥?
这篇文章介绍了DICE,一种用于通过单目图像重建三维手部和面部交互及其变形的端到端方法。DICE模型采用双分支变压器结构MeshNet和InteractionNet来建模局部变形场和全局网格几何,并通过逆运动学模型IKNet输出可动画的参数化手部和面部网格。此外,文章提出了一种新颖的弱监督训练流程,利用少量野外图像并结合深度先验和对抗损失提供姿势先验。实验结果表明,DICE在重建准确性和合理性方面达到了当前最高水平,并且推断速度达20 fps,支持更多的交互式应用。DICE不仅在标准基准数据集上表现出色,还在野外数据上展示了卓越的泛化能力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image
作者:Qingxuan Wu, Zhiyang Dou等
作者机构:University of Pennsylvania, The University of Hong Kong等
论文链接:https://arxiv.org/pdf/2406.17988
2. 摘要
从单张图像中重建具有变形的3D手脸交互是一个具有挑战性但至关重要的任务,在AR、VR和游戏领域有广泛的应用。挑战源于单视角手脸交互过程中自遮挡、手和脸之间多样的空间关系、复杂的变形以及单视角设置的模糊性。现有唯一的手脸交互恢复方法Decaf通过全球拟合优化引入了基于接触和变形估计网络的工作,这些网络在带有3D注释的工作室数据上进行了训练。然而,Decaf由于依赖于手脸交互数据的3D注释,存在耗时的优化过程和有限的泛化能力。为了解决这些问题,我们提出了DICE,这是一种从单张图像中端到端变形感知的手脸交互恢复方法。DICE使用基于Transformer的架构,同时估计手和脸的姿势、接触点和变形。它通过将局部变形场和全局网格顶点位置的回归解耦到两个网络分支中,增强了变形和接触估计,从而实现精确和鲁棒的手脸网格恢复。为提高泛化能力,我们提出了一种弱监督训练方法,使用没有3D地面真值注释的自然环境图像扩充训练集,采用现成模型估计的2D关键点深度和姿势的对抗先验进行监督。实验表明,DICE在标准基准和自然环境数据上在准确性和物理合理性方面达到了最先进的性能。此外,我们的方法在Nvidia 4090 GPU上以交互速率(20 fps)运行,而Decaf对单张图像的处理时间超过15秒。
3. 效果展示
我们的方法DICE是第一个能够从单目图像捕捉手部与面部交互及变形的端到端方法。(a) Decaf验证数据集。(b) 野外图像。(c) 虚拟现实中的应用场景。
DICE在Decaf数据集和野外图像上对手部与面部交互、变形及接触恢复的定性结果。在接触可视化中,颜色越深表示接触概率越高。
在Decaf验证集和野外图像上,DICE、Decaf、PIXIE、METRO的定性对比。我们的方法在Decaf数据集上实现了更高的重建准确性和合理性,同时在Decaf中未见过的复杂野外动作上也表现出良好的泛化能力。
4. 主要贡献
-
我们提出了DICE,这是第一个端到端学习方法,可以从单张图像中准确恢复手脸交互和变形。
-
我们提出了一种新的弱监督训练方案,通过对关键点进行深度监督,以多样化的真实世界数据分布扩充Decaf数据分布,显著提高了泛化能力。
-
DICE在基准方法中达到了优越的重建质量,同时以交互速度(20 fps)运行。
5. 基本原理是啥?
这篇文章的基本原理是利用深度学习和计算机视觉技术,从单目RGB图像中恢复出手部和面部的三维网格模型,特别关注手部和面部的交互及其非刚性变形:
使用MeshNet和InteractionNet两个独立的Transformer分支来分别回归手部和面部的网格顶点位置以及它们之间的交互变形。通过结合逆运动学模型(IKNet),从粗略的网格顶点预测手部和面部的姿态、形状和表情参数。
IKNet接收粗略估计的手部和面部网格顶点作为输入,并预测手部和面部的姿态、形状和表情参数,确保生成的网格可以直接用于下游应用,并提高网格质量。
使用可微渲染器从预测的网格中计算深度图,利用深度损失进行监督,提供强大的深度先验,帮助模型更准确地捕捉手部和面部的空间关系。通过引入弱监督训练方案,利用从互联网收集的野外图像增强模型的泛化能力和鲁棒性。
应用对抗性损失,约束预测的手部和面部参数,使其分布更合理,并引入手部和面部鉴别器,通过对抗训练进一步提高模型的准确性和鲁棒性。
对手部和面部的接触预测施加Chamfer距离损失,并监督接触标签和变形向量,避免网格之间的碰撞,确保模型能准确捕捉手部和面部的交互细节。
使用现有数据集(如Decaf)进行模型训练,同时利用无注释的野外图像进行弱监督训练,增强模型的泛化能力。
6. 实验结果
这篇文章通过详细的实验展示了其在3D面部和手部交互重建上的优势:
数据集和评估指标:
-
使用Decaf和自采集的野外数据集进行训练和评估。
-
采用多种常用评估指标如平均每关节位置误差(MPJPE)、碰撞距离(Col. Dist.)等。
实现细节:
-
使用三个AdamW优化器进行MeshNet、InteractionNet和IKNet的训练。
-
实验结果:
-
定量评估:在重建准确性上超过了现有方法,特别是在每顶点误差方面达到了7.5%的改进。
-
合理性:方法不仅在重建准确性上表现优异,还在物理合理性(如碰撞距离和接触率)方面显著优于其他方法。
-
定性评估:在野外数据上展示了对未见过场景的良好泛化能力。
消融研究:
-
通过增加野外数据和弱监督训练提高了重建精度和泛化能力。
-
引入深度监督和对抗性先验有效提升了方法的物理合理性和准确性。
限制和未来工作:
-
尽管在大部分情况下表现优异,但在极端复杂和遮挡严重的手姿态交互中仍存在挑战。
-
未来可以探索引入更多物理仿真先验和扩展野外数据集以进一步提升方法性能。。
7. 总结 & 未来工作
在本工作中,我们提出了DICE,这是首个通过单目图像重建三维手部和面部交互及其变形的端到端方法。我们的方法采用了两分支变压器结构,MeshNet和InteractionNet,用于建模局部变形场和全局网格几何。逆运动学模型IKNet用于输出可动画的参数化手部和面部网格。我们还提出了一种新颖的弱监督训练流程,利用少量野外图像,并结合深度先验和对抗损失来提供姿势先验。由于我们的网络设计和训练方案的优势,DICE在准确性和合理性上均达到了业界最高水平,超越了所有先前的方法。与此同时,我们的方法实现了快速推断速度(20 fps),为更多的交互式应用提供了可能。除了在标准基准上表现出色外,DICE在野外数据上也展示了卓越的泛化能力。
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com