专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
新华网财经  ·  华为,尊界最新消息 ·  9 小时前  
新华网财经  ·  华为,尊界最新消息 ·  9 小时前  
将门创投  ·  ICLR 2025 | Diffusion ... ·  昨天  
创乎  ·  不上班的出路,远比你想的要多 ·  昨天  
起点锂电  ·  新能安/多氟多/蓝京/中比/东磁/比克/锂威 ... ·  2 天前  
起点锂电  ·  新能安/多氟多/蓝京/中比/东磁/比克/锂威 ... ·  2 天前  
创业家  ·  公司规模不大,如何招到大牛? ·  2 天前  
51好读  ›  专栏  ›  将门创投

CVPR 2024 | 基于接触信息微调的Transformer实现人-物联合重建

将门创投  · 公众号  · 科技创业  · 2024-07-19 08:22

正文

该工作提出了一种 联合重建人与物体 的方法,有效地利用了人与物体之间的接触信息,该重建方法可在虚拟现实场景、具身智能等应用场景下发挥重要作用。

论文标题:

Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer

论文链接:

https://arxiv.org/abs/2404.04819

项目主页:

https://github.com/dqj5182/CONTHO_RELEASE

一、引言

3D人体与物体的联合重建在AR/VR沉浸式体验和机器人智能操作等应用上发挥重要作用。在这项任务中,人与物体的接触位置是一个重要信息,但以往工作将接触位置预测和人-物三维重建当作两个独立的任务,有一部分工作根据输入图像预测了人体表面与物体的接触点集,但没有重建人和物体;还有一部分重建了人和物体,但没有充分提取和利用接触信息来协助重建。

本次导读论文将这两部分任务整合起来,集成到了一个统一的框架中 (CONTact-based 3D Human and Object reconstruction,简称CONTHO)。CONTHO有两个核心步骤:(1) 估计三维人体和物体的接触位置;(2) 基于接触位置微调三维人体和物体。在第一个步骤中,首先从输入图像中重建人体网格,并预测给定三维物体网格的位姿(三维平移和旋转),得到三维人体和物体后,用Contact estimation Transformer (简称ContactFormer) 预测两者的接触位置。在第二个步骤中,用Contact-based Refinement Transformer(简称CRFormer)来根据接触信息来调整三维人体和物体。

CRFormer中根据人-物接触位置选择性地利用人和物体特征,从而更准确地进行位姿微调。这种微调的方法有两个优势:一方面,CRFormer指明了哪些特征是人-物交互中的关键;另一方面,防止无关特征干扰网络交互信息的学习。基于以上这些设计,CONTHO在人-物联合重建以及接触位置估计两个任务上都达到了目前的领先水平。

二、技术贡献

本工作主要贡献如下:

  • 提出了CONTHO,利用 人-物接触位置 作为关键信息来联合重建3D人和物体;

  • 利用 三维人体和物体作为显式的三维引导 ,从而获得准确的人-物交互信息;

  • 提出了CRFormer, 有效地基于接触信息利用人体特征和物体特征 ,排除了无关信息;

  • CONTHO在 人-物接触位置 估计和 三维人与物体联合重建 方面的 精度远优于以往方法

三、方法介绍

本文方法的输入为单张RGB图像和对应物体网格,输出是三维人体网格和物体位姿,算法流程如图1所示,主要分为三个部分:初始化重建、接触位置估计和人-物微调。

图1 算法流程图

初始化重建 (initial reconstruction)

给定一个包含人和物体交互的RGB图像,以及对应图中物体的三维网格,目标是重建出三维人体网格并估计物体网格的三维旋转和平移。首先对RGB图像进行实例分割,得到人和物体的二维掩码,然后将RGB和人/物二维掩码输入一个CNN网络,提出逐像素图像特征。这些图像特征用来回归SMPL+H [1]人体模型的身体参数 和手部参数 ,以及物体的三维旋转参数 和平移参数 。SMPL+H的姿态参数可以用于生成对应姿态下的三维人体网格。为了减少后续的计算量,完成位姿估计的三维人体和物体网格分别下采样,得到人体网格 和物体网格

三维信息引导的接触位置估计 (3D-guided contact estimation)

在这个阶段,ContactFormer从三维人体和对象网格 上分别提取特征,然后预测每个人体和物体网格顶点的接触概率。具体来说,每个网格上的顶点投影到二维后得到一个二维坐标,根据该坐标,可以对其周围的逐像素特征进行插值和卷积,从而得到网格顶点对应的视觉特征。这种视觉特征与三维坐标拼接,就得到了该三维顶点的点特征。这些人和物体的点特征 送入ContactFormer,经过交叉注意力层和多个全连接层后,输出三维人体和物体各点的接触概率

基于接触位置的人-物微调 (contact-based refinement)

得到接触概率后,连同网格点特征传入CRFormer。CRFormer的任务是用接触概率和点特征来微调人和物体,这部分的流程如图1右侧部分所示。对于非接触的顶点,其点特征被置零,也即只保留接触点的特征,这样操作后的人和物体点特征分别记为 。这种基于接触信息的特征屏蔽是CRFormer的核心,因为接触信息可以指明哪些特征包含了关键的人-物交互信息,防止不必要的信息干扰网络的学习。接下来 被传入交叉注意力层处理,用来学习人-物交互的上下文信息; 则分别传入各自的自注意力层,用来提取独立的位置信息。交叉注意力层和自注意力层的输出拼接后传入下一个自注意力层,最后用全连接层来预测出逐点调整位置后的三维人体和物体网格

损失函数

CONTHO的损失函数包括以下三个部分:

其中, 表示网格顶点接触概率 与真实值的交叉熵损失, 则由两个部分组成,即:

其中, 计算CRFormer输出的人体和物体点坐标与真实值的L1损失, 计算微调后人体网格边长与真实值的L1损失。
最后是 ,其包含三个约束项:

第一个约束项 计算SMPL+H参数 与真实值的L1损失; 计算人体三维及其投影的二维关节与真实值的L1损失;






请到「今天看啥」查看全文