专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
可爱多手工艺术  ·  多年的十字绣材料还在压箱底吗?拿出来换个方式 ... ·  3 天前  
可爱多手工艺术  ·  剪下来的碎布边角料制作了那么多的小蘑菇,好玩 ... ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

GPAvatar:仅需单图,快速且精准的3D头像重建及其表情控制

大数据文摘  · 公众号  ·  · 2024-06-25 14:09

正文

大数据文摘授权转载自将门创投

作者:楚选耕

头部虚拟形象的重建对于虚拟现实、在线会议、游戏和电影等行业的应用至关重要。

该领域的主要目标是忠实地重建头部虚拟形象并精确控制表情和姿势,但是现有方法往往需要目标对象的视频数据进行训练,且表情控制不够准确,阻碍了这类方法的广泛应用。

针对这些问题,本次我们提出了一种新颖的单图头像重建方法:“GPAvatar: Generalizable and Precise Head Avatar from Image(s)”。

论文标题:
GPAvatar: Generalizable and Precise Head Avatar from Image(s)
论文链接:
https://arxiv.org/abs/2401.10215
代码链接:
https://github.com/xg-chu/GPAvatar
项目网站链接:
https://xg-chu.github.io/project_gpavatar


GPAvatar可以从单图或几张输入中重建可控制人头像

研究动机


对于传统方法来说,创建可控的人体头部虚拟形象具有挑战性,需要熟练的建模者和动画师。为了简化可控头部虚拟形象的创建并促进其应用,研究人员利用人工智能技术开发了一系列方法,包括2D畸变场、基于网格的方法和神经渲染方法。这些方法在快速创建可控头部头像方面取得了初步成功,但是这些方法之中,2D畸变场方法难以保持多视角一致性,基于网格的方法往往无法融合非面部信息(头发、饰品等),而神经渲染方法往往无法扩展到新身份,需要针对每个人进行单独的训练。

在本文中介绍的研究中,我们提出了一个名为GPAvatar的框架。仅给定一张或几张用户图像,它可以在一次前向过程中创建动态可控头像,具有忠实的身份重建、精确的表情控制和多视角一致性。

一些现有方法也具与GPAvatar相似的功能,如NOFA,HideNeRF和GOHA。然而,NOFA直接利用一维表情特征,但其表情相关的表示能力可能不够强,HideNeRF和GOHA渲染面部点云然后提取特征,导致表情特征过度处理并导致表情细节丢失。

与已有方法的对比

方法


2.1 背景方法


NeRF:我们的方法利用神经辐射场 (NeRF) 进行渲染和建模。NeRF 能够从 2D 图像中学习 3D 表示,并允许从任意视点重新渲染。我们扩展了这项技术以适应单张图输入并处理动态场景。

FLAME:我们的方法采用 3DMM(3D Morphable Model)模型:FLAME 用于表情驱动。FLAME 以其精确的面部特征和表情控制而闻名,是一种广泛使用的 3D 可变形模型。给定一维表情和形状特征作为输入,FLAME可以生成相应形状和表情的人头网格模型。在 GPAvatar 中,我们使用了来自 FLAME 网格的点云进行表情驱动。

2.2 GPAvatar


我们的方法能够从任意数量(包括只有一张图像)的输入中忠实地重建头像,并实现自由的表情和姿势控制。

GPAvatar的总体流程

图中展示了我们方法的总体流程。

我们的方法主要由一个编码器和两个分支组成:一个分支使用基于点的表情场(PEF)来捕获细粒度的表情特征,另一个分支通过多三平面注意力(MTA)整合来自多个输入的信息,最后是渲染和超分辨率组件。

因为三平面表示强大的 3D 几何先验,我们首先使用 Encoder-Decoder 编码器将原始图像映射到三平面表示,并将其作为我们的规范特征空间。

在实验中,我们观察到这种 Encoder-Decoder 结构可以在下采样过程中有效地整合来自输入图像的全局信息,然后在上采样过程中生成相互关联的平面。

然后,我们使用来自 FLAME 的点云构建基于点的表情场,从而避免过度处理信息并尽可能保留表情细节。我们设计的 PEF(基于点的表情场)旨在对动态表情进行建模。为了实现这一目标,我们将可学习的权重绑定到每个 FLAME 顶点。对于 NeRF 采样过程中的任何给定 3D 采样位置,我们在 PEF 中检索其最近的 K 个点并获取它们对应的特征和距离。然后,我们使用全链接层计算每个点的特征,并基于距离加权计算采样位置的最终特征。在此过程中,具有可学习特征的点云随 FLAME 表情特征的变化而变化,形成动态的表情特征场。

而这个动态表情场使得 FLAME 的表情变化信息能够直接贡献到 NeRF 的规范特征空间,避免了过度处理带来的信息丢失。同时,由于我们从两个特征空间中采样特征,因此三平面规范特征空间可以与 PEF 中来自 FLAME 的 3D 先验信息协作学习,从而进一步提升重建本身的效果。基于上述模块,我们可以得到高保真度的结果。

然而,由于源图像可以是任意的,这引入了一些具有挑战性的场景。例如,源图像中可能存在遮挡,或者源图像中的眼睛可能是闭着的,而所需的表情需要睁开眼睛。在这种情况下,模型可能会根据统计上平均的眼睛和面部特征产生错觉,但这些错觉可能是不正确的。虽然从一副图像中不能产生缺失部分的真相,但我们可能有其他图像可以补充缺失的部分。

为了实现这个目标,我们实现了一个基于注意力的模块来融合多幅图像的三平面特征,这被称为多三平面注意力 (MTA)。我们的 MTA 使用一组可学习的查询平面来查询从不同图像中提取的多个三平面,从而生成权重并进行融合。通过实验,我们证明了我们的 MTA 可以补充单图输入中缺失的信息,例如瞳孔信息和极端姿势变化下的另一半脸部信息。

经过训练后,我们的 MTA 可以接受任意数量的图像作为输入。结合上述组件,我们采用经典的 NeRF 渲染方法获得低分辨率 2D 结果。然后,我们利用联合训练的超分辨率模型来实现最终结果。

试验结果


以下是 GPAvatar 的一些可视化结果。其中左侧是输入图像,右侧是模型输出和目标表情。


我们也展示了一些具有深度信息的结果。左侧是驱动图像,右侧为具有目标表情的模型输出和深度信息,右下角的小图是输入图像。

GPAvatar的可视化结果

在VFHQ数据集上的量化结果也支持我们的结论。如图示,其中PSNR,SSIM,LPIPS,L1为重建质量的指标,CSIM为身份一致性指标,AED,AKD为表情控制质量相关的指标,APD为头部姿态准确度指标。可以看到在重建质量和表情控制精度相关的指标上我们都取得了最好的结果。







请到「今天看啥」查看全文