专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ACM MM 2024｜基于二维先验学习的三维人物交互重建

极市平台 · 公众号 · · 2024-09-09 22:00

正文

↑ 点击蓝字关注极市平台

作者丨ViHuman Lab@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/718197160

编辑丨极市平台

极市导读

本文提出了一种二维监督方法，从野外的二维图像中学习三维人体- 物体空间关系的先验知识。加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍我们组近期发表在ACM MM 2024的关于三维人-物交互重建的工作《Monocular Human-Object Reconstruction in the Wild》。本工作旨在从大规模的二维图片中学习三维环境中人和物体交互先验。本工作由汪婧 ‍ 雅教授指导完成。

论文地址： https://huochf.github.io/WildHOI/

代码链接： https://github.com/huochf/WildHOI

摘要

人体与物体之间的交互以及理解人类如何在三维空间中与物体交互是计算机视觉中的一个重要课题。之前的研究从实验室环境中收集的数据集中学习这种先验知识，但由于领域的多样性，这些方法在实际场景中 普遍存在泛化困难 。

为克服这一限制，我们 提出了一种二维监督方法，从野外的二维图像中学习三维人体-物体空间关系的先验知识 。我们的方法利用基于归一化流模型的神经网络学习数据集中每张图像的人体-物体关键点布局和摄像机视角的先验分布。通过在后优化阶段应用该先验来微调人体和物体之间的相对姿态，我们在人体-物体重建任务上说明了从二维图像中学习到的先验的有效性。

为了在自然场景下的图片中验证我们的方法，我们从YouTube网站收集了WildHOI数据集，该数据集包含在现实场景中与8种物体的各种交互。我们在室内BEHAVE数据集和室外WildHOI数据集上进行了实验。结果表明，尽管我们只利用了二维布局信息，但我们的方法在BEHAVE数据集上几乎能与完全的三维监督方法相媲美，并且在自然场景图像的泛化性和交互多样性方面超越了之前的方法。

问题定义

单目人-物联合重建的目的在于从输入图片中恢复出人体和物体的三维信息 , 考虑到单目重建赛道中人和物体相互遮挡而引发的不确定性和歧义性, 将这个问题建模为概率密度预测而不是单峰估计更为合适, 因此该问题目标在于给出概率密度分布 , 为了从数据集中学习该分布, 基于学习的方法需要每一幅图片中的三维标注, 然而, 由于获取三维标注的成本非常昂贵,难以大规模收集三维人-物交互数据集, 尤其是在自然场景中。因此先前基于学习的方法受到训练数据集分布的限制, 难以推广到多样性较高的自然场景中。

自然场景中人体-物体交互信息大多以2D图片或者视频的形式呈现，这些信息更容易从互联网获取。基于这一观察，我们提出了一种从大规模二维图片中学习三维人-物空间关系先验知识的方法。定义图片中的评分函数为

式中, 是摄像机位姿, 是在相机姿态下的透视投影函数为相机姿态的分布。在上述定义中, 三维信息被投射到不同的图像平面上, 得到。的得分是通过综合不同视角下的二维信息分布得到的, 它被视为原始概率密度分布的近似值。

该定义背后的动机在于, 人与物体之间合理的 3D 空间排列从任何角度观察时都必须看起来相容,反之，人与物体之间 2D 投影布局的相容性意味着相应 3D 空间排列的合理性。在这样的定义下, 目标变成学习的分布以近似原始概率密度。

基于归一化流的先验学习算法

使用归一化流模型来对建模，归一化流模型由归一化层（actnorm layer）、可逆线性层（invertible 1x1 convolution layer）和解耦层（affine coupling layer）堆叠形成，其训练的目标函数为最小化对应的负对数似然。如下图所示，本文所提出的方法利用归一化流模型从大量自然场景图片中学习每个图像平面中人体和物体的二维学习的分布，该归一化流模型将来自高斯分布的样本转换成一种介于三维和二维的中间表示的概率密度分布，该中间表示结合了相机姿态和二维人体和物体在图片中的二维排布信息。为了训练该归一化流模型，收集大量来自互联网的图片，并根据每个视角下人和物体的二维排布信息来对这些图片聚类，使用聚类的结果最优化最大似然来训练该归一化模型。

基于二维先验的重建算法

考虑在给定物体形状模板的前提下, 从单视角图片中重建人体和物体的任务, 在该任务中, 人体由SMPL模型中的形状参数和姿态参数表示, 物体由形状模板的旋转矩阵、平移向量和尺度标量表示。和大多数方法类似, 本文的重建方法采用了预测-优化两阶段的算法框架来从给定的图片中重构出参数。在第一阶段中使用预训练好的模型来预测并初始化人体和物体的位姿, 之后使用迭代式的优化算法来微调人体和物体的位姿, 优化的总目标损失函数为

上式中是SMPL的重投影损失, 是物体的重投影损失, 是人体和物体的正则损失,

ACM MM 2024｜基于二维先验学习的三维人物交互重建

正文

摘要

问题定义

基于归一化流的先验学习算法

基于二维先验的重建算法

请到「今天看啥」查看全文