该工作提出了一种
联合重建人与物体
的方法,有效地利用了人与物体之间的接触信息,该重建方法可在虚拟现实场景、具身智能等应用场景下发挥重要作用。
论文标题:
Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer
论文链接:
https://arxiv.org/abs/2404.04819
项目主页:
https://github.com/dqj5182/CONTHO_RELEASE
一、引言
3D人体与物体的联合重建在AR/VR沉浸式体验和机器人智能操作等应用上发挥重要作用。在这项任务中,人与物体的接触位置是一个重要信息,但以往工作将接触位置预测和人-物三维重建当作两个独立的任务,有一部分工作根据输入图像预测了人体表面与物体的接触点集,但没有重建人和物体;还有一部分重建了人和物体,但没有充分提取和利用接触信息来协助重建。
本次导读论文将这两部分任务整合起来,集成到了一个统一的框架中 (CONTact-based 3D Human and Object reconstruction,简称CONTHO)。CONTHO有两个核心步骤:(1) 估计三维人体和物体的接触位置;(2) 基于接触位置微调三维人体和物体。在第一个步骤中,首先从输入图像中重建人体网格,并预测给定三维物体网格的位姿(三维平移和旋转),得到三维人体和物体后,用Contact estimation Transformer (简称ContactFormer) 预测两者的接触位置。在第二个步骤中,用Contact-based Refinement Transformer(简称CRFormer)来根据接触信息来调整三维人体和物体。
CRFormer中根据人-物接触位置选择性地利用人和物体特征,从而更准确地进行位姿微调。这种微调的方法有两个优势:一方面,CRFormer指明了哪些特征是人-物交互中的关键;另一方面,防止无关特征干扰网络交互信息的学习。基于以上这些设计,CONTHO在人-物联合重建以及接触位置估计两个任务上都达到了目前的领先水平。
二、技术贡献
本工作主要贡献如下:
提出了CONTHO,利用
人-物接触位置
作为关键信息来联合重建3D人和物体;
利用
三维人体和物体作为显式的三维引导
,从而获得准确的人-物交互信息;
提出了CRFormer,
有效地基于接触信息利用人体特征和物体特征
,排除了无关信息;
CONTHO在
人-物接触位置
估计和
三维人与物体联合重建
方面的
精度远优于以往方法
。
三、方法介绍
本文方法的输入为单张RGB图像和对应物体网格,输出是三维人体网格和物体位姿,算法流程如图1所示,主要分为三个部分:初始化重建、接触位置估计和人-物微调。
图1 算法流程图
初始化重建 (initial reconstruction)
给定一个包含人和物体交互的RGB图像,以及对应图中物体的三维网格,目标是重建出三维人体网格并估计物体网格的三维旋转和平移。首先对RGB图像进行实例分割,得到人和物体的二维掩码,然后将RGB和人/物二维掩码输入一个CNN网络,提出逐像素图像特征。这些图像特征用来回归SMPL+H [1]人体模型的身体参数
和手部参数
,以及物体的三维旋转参数
和平移参数
。SMPL+H的姿态参数可以用于生成对应姿态下的三维人体网格。为了减少后续的计算量,完成位姿估计的三维人体和物体网格分别下采样,得到人体网格
和物体网格
。
三维信息引导的接触位置估计 (3D-guided contact estimation)
在这个阶段,ContactFormer从三维人体和对象网格
上分别提取特征,然后预测每个人体和物体网格顶点的接触概率。具体来说,每个网格上的顶点投影到二维后得到一个二维坐标,根据该坐标,可以对其周围的逐像素特征进行插值和卷积,从而得到网格顶点对应的视觉特征。这种视觉特征与三维坐标拼接,就得到了该三维顶点的点特征。这些人和物体的点特征
送入ContactFormer,经过交叉注意力层和多个全连接层后,输出三维人体和物体各点的接触概率
。
基于接触位置的人-物微调 (contact-based refinement)
得到接触概率后,连同网格点特征传入CRFormer。CRFormer的任务是用接触概率和点特征来微调人和物体,这部分的流程如图1右侧部分所示。对于非接触的顶点,其点特征被置零,也即只保留接触点的特征,这样操作后的人和物体点特征分别记为
,
。这种基于接触信息的特征屏蔽是CRFormer的核心,因为接触信息可以指明哪些特征包含了关键的人-物交互信息,防止不必要的信息干扰网络的学习。接下来
和
被传入交叉注意力层处理,用来学习人-物交互的上下文信息;
和
则分别传入各自的自注意力层,用来提取独立的位置信息。交叉注意力层和自注意力层的输出拼接后传入下一个自注意力层,最后用全连接层来预测出逐点调整位置后的三维人体和物体网格
。
损失函数
其中,
表示网格顶点接触概率
和
与真实值的交叉熵损失,
则由两个部分组成,即:
其中,
计算CRFormer输出的人体和物体点坐标与真实值的L1损失,
计算微调后人体网格边长与真实值的L1损失。
第一个约束项
计算SMPL+H参数
与真实值的L1损失;
计算人体三维及其投影的二维关节与真实值的L1损失;