0. 论文信息
标题:Lifting Motion to the 3D World via 2D Diffusion
作者:Jiaman Li, C. Karen Liu, Jiajun Wu
机构:Stanford University
原文链接:https://arxiv.org/abs/2411.18808
代码链接:https://lijiaman.github.io/projects/mvlift/
1. 导读
从2D观测估计3D运动是一个长期的研究挑战。先前的工作通常需要在包含真实3D运动的数据集上进行训练,这限制了它们对于在现有运动捕捉数据中很好表示的活动的适用性。这种依赖性尤其阻碍了对非分布场景或主题的推广,在这些场景或主题中,收集3D地面实况具有挑战性,例如复杂的体育运动或动物运动。我们介绍了MVLift,一种预测全局3D运动的新方法-包括世界坐标系中的关节旋转和根轨迹-仅使用2D姿势序列进行训练。我们的多阶段框架利用2D运动扩散模型在多个视图中逐步生成一致的2D姿态序列,这是恢复精确的全局3D运动的关键步骤。MVLift概括了各种领域,包括人类姿态,人-对象交互和动物姿态。尽管不需要3D监督,但它优于之前在五个数据集上的工作,包括那些需要3D监督的方法。
2. 引言
在计算机图形学、具身人工智能和机器人技术等领域,生成3D运动至关重要。对于开发能够合成人体运动的生成模型而言,高质量的3D运动数据集至关重要,这些数据集通常是通过先进的动作捕捉系统获得的。然而,这些系统往往局限于实验室环境,且难以大规模应用,成本高昂,尤其是在捕捉舞蹈、瑜伽和体操等需要专业知识的复杂运动时。已有大量研究致力于通过单目视频姿态估计,从2D观测中预测3D人体运动,而无需复杂的动作捕捉(mocap)设置。尽管取得了进展,但即使是最先进的方法仍然严重依赖动作捕捉数据集和具有配对3D真实值的视频。这种依赖性限制了它们为分布外运动(即在现有3D数据集中表示不佳的运动)生成准确的全局3D运动的能力。
为了克服生成分布外3D运动的挑战,近期研究探索了仅利用域内2D姿态并在训练过程中仅使用2D姿态来生成3D姿态的方法。一些研究仅使用单步2D姿态来训练模型,这通常会导致在应用于2D姿态序列时出现不流畅的运动和明显的伪影。近期工作采用了一个预训练的无条件2D运动扩散模型,通过采样噪声来生成3D运动,展示了生成体操、马术和篮球等通常不在现有数据集中涵盖的复杂运动的能力。然而,该方法未考虑3D运动的全局平移。在本文中,我们使用仅特定域2D姿态数据(如人类、动物或交互)来解决预测分布外场景全局3D运动的挑战。与主要关注生成具有固定根关节的3D运动的前期工作不同,我们的目标是从2D姿态序列输入中准确预测具有世界坐标系中根轨迹的逼真3D运动。
当存在3D训练数据时,使用单阶段网络可以有效地解决从2D姿态序列估计全局3D运动的问题。然而,由于缺乏对3D运动或一致的多视角2D姿态的直接监督,仅使用2D姿态训练单阶段模型具有挑战性。为了应对这一根本性挑战,我们提出了一种多阶段方法MVLift,该方法通过2D运动扩散模型逐步建立多视角一致性,从而无需3D训练数据即可实现准确的3D运动恢复。
MVLift包含四个阶段。首先,我们训练了一个线性条件扩散模型,该模型学习预测遵循极线的2D姿态序列。这些极线由关联两个相机视图的基础矩阵导出,确保不同视图中的对应点位于对应的线上,从而强制执行基本几何一致性。其次,我们开发了一种多视角2D运动序列的联合优化方法,该方法使用两个目标:(1)多视角一致性目标,以确保跨视图的几何关系;(2)基于我们训练的线性条件扩散模型的评分蒸馏采样(SDS),以保持运动逼真度。虽然该方法生成了可实现3D运动恢复的多视角2D序列,但优化过程无法保证完美的视图一致性,从而影响重建3D运动的准确性。为了克服这一局限性,我们利用这些优化结果创建了一个合成数据集。尽管优化后的3D运动可能与输入的2D序列不完全对齐,但它们保持了运动的逼真度。通过将这些合成3D运动重新投影到不同视图,我们获得了严格一致的多视角2D序列。最后,我们使用这些序列训练了一个高效的扩散模型,该模型可以在单次前向传递中直接生成多视角一致的2D序列。
我们的工作有三个贡献。首先,我们引入了一种新颖框架MVLift,用于从单视角2D姿态序列估计全局3D运动,而无需任何3D训练数据,从而解决了现有方法中的一个根本局限性。其次,我们展示了如何通过2D运动扩散逐步建立多视角一致性,为3D运动估计提供了新的视角。第三,我们表明MVLift在各种域(人类、动物和交互)中具有通用性,并在五个数据集上显著优于现有方法,甚至包括那些使用3D监督进行训练的方法。
我们的目标是从单视角2D姿态序列估计全局3D运动,包括世界坐标系中的关节旋转和根轨迹。对于在现有3D数据集中表示良好的运动,可以使用经过3D监督训练的单阶段网络来解决此任务,如前期工作[66]所示。然而,对于许多分布外场景(如复杂的运动动作或动物运动),3D运动数据和多视角记录通常不可用或难以收集。在这种情况下,由于缺乏直接的3D监督,单阶段方法变得不可行。为了应对这一挑战,我们提出了一种多阶段框架MVLift,该框架仅需现成的单视角2D数据,并利用学习的2D运动扩散先验逐步建立不同视图下2D姿态序列的多视角一致性,从而无需任何3D监督即可准确重建逼真的3D运动。
3. 效果展示
我们的MVLift只能在2D姿态序列上训练,并在世界坐标系中生成关节旋转和根轨迹的3D运动。该方法推广到各种领域的人的姿态,人与物体的互动,和动物的姿态。
4. 方法
关键见解是,虽然单个2D序列提供的3D信息有限,但训练在多样化2D运动上的扩散模型可以学习关于姿态如何从不同视角呈现的丰富先验。我们结合学习的2D扩散先验和几何约束,逐步加强多视角2D序列的一致性。如图2所示,我们的框架分为四个阶段,每个阶段都以不同的方式加强多视角一致性。在第一阶段,我们训练了一个线性条件扩散模型,该模型生成遵守极线约束的2D姿态序列。虽然这确保了视图之间的基本成对一致性,但要实现全局多视角一致性,需要联合考虑所有视图。在第二阶段,我们通过一种优化方法建立了更强的多视角一致性,该方法直接使用显式多视角一致性目标优化多视角2D序列,同时基于我们训练的扩散模型通过评分蒸馏采样(SDS)保持运动逼真度。尽管这种优化方法生成了合理的多视角2D序列,但仅通过优化实现所有视图之间的完美几何一致性仍然具有挑战性。为了克服这一局限性,我们在第三阶段利用这些大致一致的多视角序列,通过具有2D重投影目标的优化来恢复合理的3D运动。通过将这些恢复的3D运动重新投影到多个视图,我们获得了一个严格一致的多视角2D序列的合成数据集。最后,在第四阶段,我们训练了一个专门的扩散模型,以在单次前向传递中直接生成多视角一致的2D序列。从成对几何约束到全局优化再到学习的多视角生成,这一进展使我们能够在没有用于训练的真实3D数据的情况下获得高质量的3D运动估计。以下部分将详细介绍我们框架的每个组件以及它们如何协同工作以实现3D运动重建。
5. 实验结果
我们在AIST++、Steezy和NicoleMove的测试集上对我们的方法和基线进行了评估,如表1所示。我们在多个指标上均优于所有基线,包括评估输入和其他相机视图的根轨迹和重投影的2D姿态的指标。在3D关节位置误差方面,我们的结果优于所有在训练过程中不需要3D运动数据的方法,并且我们也优于需要在AMASS上进行训练的MotionBERT。我们在3D关节位置误差方面取得了与基线WHAM相当的结果,同时在根轨迹平移指标上有了显著提高。
我们在图4中展示了AIST++的定性比较。请注意,ElePose和MAS无法预测根轨迹。由于训练不稳定,ElePose经常生成不现实的3D姿态,因为其预训练的2D姿态先验不足以防止生成不现实的2D姿态。MAS预测的平均姿态与输入的2D姿态匹配度较差,因为其无条件2D运动扩散模型难以生成对于准确3D运动优化至关重要的多视图一致2D序列。由于MotionBERT是在AMASS数据集上进行训练的,这限制了其在数据集分布之外的运动上的性能,因此它无法生成高度动态的3D运动。WHAM生成了不现实的根轨迹,偏离了真实值,因为它是在受限的3D运动数据集上进行训练的,无法很好地泛化到这些数据之外。SMPLify仅基于2D关节位置进行优化,由于深度歧义未解决,通常会导致3D姿态出现突然且不现实的深度变化。
推荐课程:
彻底搞懂大模型数学基础剖析、原理与代码讲解
。
6. 总结 & 未来工作
我们解决了从2D运动序列输入中估计世界坐标系中3D运动的挑战性问题,而无需3D监督。关键思想是在一个新颖的多阶段框架中结合2D运动扩散先验和几何约束,逐步建立跨视图的2D姿态序列的一致性。我们首先训练了一个线性条件2D运动扩散模型,以优化大致一致的多视图2D序列,然后这些序列通过3D优化和重投影用于创建一个具有严格一致多视图序列的合成数据集。使用这个数据集,我们训练了一个用于高效多视图生成的最终扩散模型。我们证明了我们的方法在人类姿态、人与物体交互以及动物姿态等多个领域中的有效性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球