本文介绍我们组近期发表在ACM MM 2024的关于三维人-物交互重建的工作《Monocular Human-Object Reconstruction in the Wild》。本工作旨在从大规模的二维图片中学习三维环境中人和物体交互先验。本工作由汪婧
雅教授指导完成。
论文地址:
https://huochf.github.io/WildHOI/
代码链接:
https://github.com/huochf/WildHOI
摘要
人体与物体之间的交互以及理解人类如何在三维空间中与物体交互是计算机视觉中的一个重要课题。之前的研究从实验室环境中收集的数据集中学习这种先验知识,但由于领域的多样性,这些方法在实际场景中
普遍存在泛化困难
。
为克服这一限制,我们
提出了一种二维监督方法,从野外的二维图像中学习三维人体-物体空间关系的先验知识
。我们的方法利用基于归一化流模型的神经网络学习数据集中每张图像的人体-物体关键点布局和摄像机视角的先验分布。通过在后优化阶段应用该先验来微调人体和物体之间的相对姿态,我们在人体-物体重建任务上说明了从二维图像中学习到的先验的有效性。
为了在自然场景下的图片中验证我们的方法,我们从YouTube网站收集了WildHOI数据集,该数据集包含在现实场景中与8种物体的各种交互。我们在室内BEHAVE数据集和室外WildHOI数据集上进行了实验。结果表明,尽管我们只利用了二维布局信息,但我们的方法在BEHAVE数据集上几乎能与完全的三维监督方法相媲美,并且在自然场景图像的泛化性和交互多样性方面超越了之前的方法。
问题定义
单目人-物联合重建的目的在于从输入图片中恢复出人体和物体的三维信息
, 考虑到单目重建赛道中人和物体相互遮挡而引发的不确定性和歧义性, 将这个问题建模为概率密度预测而不是单峰估计更为合适, 因此该问题目标在于给出概率密度分布
, 为了从数据集中学习该分布, 基于学习的方法需要每一幅图片中的三维标注, 然而, 由于获取三维标注的成本非常昂贵,难以大规模收集三维人-物交互 数据集, 尤其是在自然场景中。因此先前基于学习的方法受到训练数据集分布的限制, 难以推广到多样性较高的自然场景中。
自然场景中人体-物体交互信息大多以2D图片或者视频的形式呈现,这些信息更容易从互联网获取。基于这一观察,我们提出了一种从大规模二维图片中学习三维人-物空间关系先验知识的方法。定义图片
中
的评分函数为
式中,
是摄像机位姿,
是在相机姿态
下的透视投影函数
为相机姿态的分布。在上述定义中, 三维信息
被投射到不同的图像平面上, 得到
。
的得分是通过综合不同视角下的二维信息分布得到的, 它被视为原始概率密度分布
的近似值。
该定义背后的动机在于, 人与物体之间合理的 3D 空间排列从任何角度观察时都必须看起来相容,反之,人与物体之间 2D 投影布局
的相容性意味着相应 3D 空间排列的合理性。在这样的定义下, 目标变成学习
的分布以近似原始概率密度
。
基于归一化流的先验学习算法
使用归一化流模型来对
建模,归一化流模型由归一化层(actnorm layer)、可逆线性层(invertible 1x1 convolution layer)和解耦层(affine coupling layer)堆叠形成,其训练的目标函数为最小化对应的负对数似然。如下图所示,本文所提出的方法利用归一化流模型从大量自然场景图片中学习每个图像平面中人体和物体的二维学习的分布,该归一化流模型将来自高斯分布的样本
转换成一种介于三维和二维的中间表示的概率密度分布,该中间表示结合了相机姿态和二维人体和物体在图片中的二维排布信息。为了训练该归一化流模型,收集大量来自互联网的图片,并根据每个视角下人和物体的二维排布信息来对这些图片聚类,使用聚类的结果最优化最大似然来训练该归一化模型。
基于二维先验的重建算法
考虑在给定物体形状模板的前提下, 从单视角图片中重建人体和物体的任务, 在该任务中, 人体由SMPL模型中的形状参数
和姿态参数
表示, 物体由形状模板的旋转矩阵
、平移向量
和尺度标量
表示。和大多数方法类似, 本文的重建方法采用了预测-优化两阶段的算法框架来从给定的图片
中重构出参数
。在第一阶段中使用预训练好的模型来预测并初始化人体和物体的位姿, 之后使用迭代式的优化算法来微调人体和物体的位姿, 优化的总目标损失函数为
上式中
是SMPL的重投影损失,
是物体的重投影损失,
是人体和物体的正则损失,