专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

中科大开源！一张图像创建全身都会说话的虚拟人！

计算机视觉工坊 · 公众号 · · 2024-12-17 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：One Shot, One Talk: Whole-body Talking Avatar from a Single Image

作者：Jun Xiang, Yudong Guo, Leipeng Hu, Boyang Guo, Yancheng Yuan, Juyong Zhang

机构：University of Science and Technology of China、The Hong Kong Polytechnic University

原文链接：https://arxiv.org/abs/2412.01106

代码链接：https://ustc3dv.github.io/OneShotOneTalk/

1. 导读

构建逼真的可动画化的虚拟人仍然需要几分钟的多视图或单目自旋转视频，并且大多数方法缺乏对手势和表情的精确控制。为了突破这一界限，我们解决了从单一图像构建全身对话虚拟人的挑战。我们提出了一个新颖的流水线，它解决了两个关键问题:1)复杂的动态建模和2)对新颖的手势和表情的概括。为了实现无缝推广，我们利用最近的姿态引导的图像到视频扩散模型来生成不完美的视频帧作为伪标签。为了克服不一致和嘈杂的伪视频所带来的动态建模挑战，我们引入了紧密耦合的3DGS-mesh混合化身表示，并应用几个关键的正则化来减轻由不完美的标签引起的不一致。在不同主题上的大量实验表明，我们的方法能够从单个图像中创建逼真的、精确可动画化的和富有表现力的全身说话的虚拟人。

2. 效果展示

给定一个单镜头图像(例如，你最喜欢的照片)作为输入，我们的方法重建一个完全表达的全身说话的虚拟人，它捕捉个性化的细节并支持逼真的动画，包括生动的身体姿势和自然的表情变化。

在跨身份运动再现任务中与代表性方法的定性比较。我们的方法实现了精确和真实的动画，几乎所有的细节都得到了保留，身份也没有改变。推荐课程：彻底搞懂3D人脸重建原理，从基础知识、算法讲解、代码解读和落地应用。

与代表性方法在自驱动运动重现任务中的定性比较。我们的方法很好地建模了面部和手部区域，在全局身份保留和局部细节建模方面与输入图像最匹配，即使与一些在捕获的视频上训练的方法相比也是如此。

3. 方法

给定目标人物的单一图像，我们的目标是重构一个3D说话化身，完全继承其身份并使其自然动画化。为了解决从不完美的伪视频中进行复杂动态建模的挑战，我们采用紧密耦合的3DGS-mesh混合虚拟人。为了很好地泛化到各种手势和面部运动，我们生成由各种运动序列驱动的目标人物的不完美视频序列。最后，我们引入精心设计的约束条件和损失函数，以有效地从噪声视频中训练表示。整个管道如图2所示。

4. 总结 & 限制性

本文介绍了一种新颖的管道，用于从单个图像创建具有表现力的说话化身。我们提出了一种耦合的3DGS-Mesh化身表示，其中包含几个关键约束和精心设计的混合学习框架，该框架结合了输入图像和伪帧的信息。实验结果表明，我们的方法优于现有技术，我们的单帧化身甚至超过了需要视频输入的先进方法。考虑到其构建的简单性和生成生动、逼真的动画的能力，我们的方法在各种领域的说话化身实际应用中具有显著潜力。

局限性。该方法依赖于输入图像和参数化人体网格之间的精确注册。严重的不匹配，特别是在手指等区域，可能会导致优化问题并导致不正确的纹理。此外，由于当前在人体运动扩散模型中的限制和缺乏大型、新颖视角的数据，渲染大型视图或扩展到完整360度人体重建仍然困难。未来的工作将探索将大型语言模型的语义信息和3D重建的静态先验相结合，以解决这些局限性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、