专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
汽车金融大全APP  ·  被骗了,6.98 万海鸥没有智驾天神之眼 ·  昨天  
51好读  ›  专栏  ›  计算机视觉工坊

精度99.8!无需CAD模型!西门子最新6D姿态估计更快!更准!

计算机视觉工坊  · 公众号  ·  · 2024-07-29 07:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

笔者感悟

这篇文章提出了一种新的方法,结合了神经辐射场(NeRF)和卷积神经网络(CNN),用于利用弱标记数据进行物体姿态估计,而无需使用CAD模型。该方法通过将3D和对称性约束引入特征学习过程中,能够有效处理对称物体,并实现更快的推理速度。实验结果表明,在仅使用真实图像和相对姿态标签的情况下,该方法在LM、LMO和T-Less数据集上取得了基准准确性。特别是在RGB-D设置中,该方法在旋转估计方面表现出了很强的鲁棒性。这项研究使得基于真实训练数据的物体姿态估计方法变得更加简单,因为它只需要相对较弱的标注数据,而无需复杂的6D姿态数据集的标注过程或CAD模型的使用。

物体姿态估计是机器人抓取和增强现实中的一个关键组成部分。基于学习的方法通常需要来自高精度CAD模型的训练数据或使用复杂设备获取的标记训练数据。我们通过从弱标记数据中学习估计姿态,且不依赖已知CAD模型来解决这一问题。我们提出使用NeRF(神经辐射场)来隐式学习物体形状,然后结合对比损失和卷积神经网络(CNN)学习视角不变的特征。NeRF有助于学习视角一致的特征,而CNN确保所学特征符合对称性。在推理过程中,CNN用于预测视角不变的特征,这些特征可用于与NeRF中的隐式3D模型建立对应关系。然后使用这些对应关系来估计在NeRF参考框架中的姿态。与使用类似训练设置的其他方法不同,我们的方法还能处理对称物体。具体来说,我们使用NeRF学习视角不变的判别特征,之后用于姿态估计。我们在LM、LM-Occlusion和T-Less数据集上评估了我们的方法,并在使用弱标记数据的情况下取得了基准精度。

效果展示

连续对称物体的对应关系可视化(T-Less数据集)。第一行展示了输入图像、估计的掩码和分割后的图像。接下来的三张图展示了2D-3D对应关系的可视化。2D分割区域到3D点云的对应关系通过线条连接。蓝色点云表示物体的完整点云,红色点表示与2D点匹配的对应关系。从不同视角的对应关系图可以看出,这些对应关系偏向于一种对称配置。理想情况下,对于一个连续对称的物体,这些对应关系应该均匀分布在物体周围。这种偏向某一对称配置的特点帮助我们加快推理速度,因为我们可以使用简单的PnP Ransac方法来估计最终的姿态,而不需要使用surfEmb处理对称物体时采用的高强度的渲染和比较推理方法。

LM数据集中Can对象的网格重建可视化。图中展示了原始网格、使用NeRF和marching cubes算法进行的我们的重建,以及使用SoftRas可微渲染器优化的网格。由于SoftRas是从零亏格球形网格优化而来,所以它无法重建孔洞。

T-Less数据集中对象28的对应关系可视化:离散对称对象。可视化显示了2D遮罩像素和对象的3D点云之间的2D-3D对应关系。我们用线连接匹配的2D-3D对应点。分割的2D图像点用它们在图像中的RGB颜色表示。蓝色点云表示对象的完整点云,红色点云表示与当前图像(用遮罩像素表示)的对应关系。我们通过不同视图可视化对应关系,显示对象上的3D对应点的位置。第一行表示SurfEmb的对应关系可视化,第二行表示我们方法的对应关系可视化。在SurfEmb中,对称对象的对应点分布在对象周围,而在我们的方法中,对应点偏向于一个对称配置。

T-Less数据集中对象1的对应关系可视化:连续对称对象。可视化显示了2D遮罩像素和对象的3D点云之间的2D-3D对应关系。我们用线连接匹配的2D-3D对应点。遮罩2D图像点用其在图像中的颜色表示。蓝色点云表示对象的完整点云,红色点云表示与当前图像(用遮罩像素表示)的对应关系。我们通过不同视图可视化对应关系,以显示对象上3D对应点的位置。第一行表示SurfEmb的对应关系可视化,第二行表示我们方法的对应关系可视化。在SurfEmb中,对称对象的对应点分布在对象周围,而在我们的方法中,对应点偏向于一个对称配置。

Linemod对象学习到的特征表示可视化。每行的第一幅图是输入的RGB图像,第二幅图是来自CNN的输出特征图像,第三幅图是在给定姿势下从NeRF渲染的特征图像。可视化来自Linemod数据集中的对象Duck、Ironbox、Phone和Holepunch。

T-Less中离散对称对象学习到的特征表示可视化。每行的第一幅图是输入的RGB图像,第二幅图是来自CNN的输出特征图像,第三幅图是在给定姿势下从NeRF渲染的特征图像。这些可视化来自T-Less数据集中的对象5、6、7、9。

T-Less中连续对称对象学习到的特征表示可视化。每行的第一幅图是输入的RGB图像,第二幅图是来自CNN的输出特征图像,第三幅图是在给定姿势下从NeRF渲染的特征图像。这些可视化来自T-Less数据集中的对象14、16、3、30。

主要贡献

  • 提出一种新颖的管道,通过从NeRF渲染特征,将3D知识提炼到2D图像中。
  • 提供CNN和NeRF之间的双向特征学习,使其能够处理对称物体。
  • 通过仅使用相对姿态标签和RGB图像简化姿态估计训练数据的获取和训练,这在实践中更容易获得。
  • 在对称物体上的推理速度更快,因为在仅使用一个物体进行对比学习训练时,对应关系倾向于一种对称配置。

基本原理是啥?

这篇文章的基本原理是通过结合NeRF(神经辐射场)和基于U-Net的卷积神经网络(CNN),学习从二维图像中提取视角不变的每像素特征,并使用这些特征进行对象姿势估计。其核心思想包括以下几个关键点:

  • NeRF的使用:

NeRF(神经辐射场)是一种能够学习三维场景隐式表示的模型。它通过将射线穿过隐式重建对象的体积,渲染出不同视角下的图像。文章首先使用具有已知相对姿势的真实图像训练NeRF,以学习对象的隐式三维表示。NeRF在这个过程中不仅学习对象的密度和颜色,还学习对象的特征。

  • 特征学习:

在NeRF学习了对象的三维表示之后,文章冻结了NeRF中预测密度和颜色的层,然后共同训练CNN和NeRF,以学习对姿势估计有用的特征。CNN通过输入图像,预测出每像素的特征图像。与此同时,NeRF从不同视角渲染出特征图像,确保这些特征具有三维一致性。

  • 对比学习:

为了使学习到的特征具有辨别性和一致性,文章使用对比学习的方法。通过将NeRF和CNN的特征图像进行对比,确保相似的图像在不同视角下学习到相似的特征,并与不同的图像区分开来。这种对比学习有助于处理对象的对称性问题,因为对称配置的视角将产生相同的特征图像。

  • 姿势估计:

在特征学习完成后,文章通过这些特征在二维图像和NeRF中的三维模型之间建立对应关系。这些对应关系用于姿势估计。具体来说,文章使用从不同视角渲染的特征图像,并通过最大化特征相似度来匹配三维点和二维图像像素。然后,利用PnP-Ransac算法,从这些匹配中提取6D姿势。

实验结果

本文的实验结果展示了在多个数据集上进行的物体姿态估计性能,包括 LineMOD、LineMOD-Occlusion 和 T-Less 数据集:

  1. LineMOD 数据集
  • 训练设置:使用了 LineMOD 数据集的 15% 数据进行训练,其余数据用于评估。
  • 比较结果:与 NeRF-Pose 方法比较,我们的方法在使用 Naive PnP ransac 估计姿态时表现更好。
  • 消融研究:使用 Segment Anything 生成的掩码,准确性稍有下降,但不显著;即使在训练视图数量减少到12张图像时,准确性也能达到88%。使用 RGB-D 数据:将深度信息添加到管道中能够解决平移误差,并使准确性达到基准水平。
  1. LineMOD-Occlusion 数据集
  • 测试设置:包含 LineMOD 数据集中被严重遮挡的物体图像。
  • 比较结果:在没有每次 ransac 迭代投影掩码的情况下,我们的方法比 NeRF-Pose 更准确。使用深度信息后,准确性进一步提升。
  • 消融研究:增加训练数据中的合成遮挡能提高准确性,尤其是对于遮挡情况下的鲁棒性。
  1. T-Less 数据集
  • 物体类型:包含连续对称物体、离散对称物体和非对称物体。
  • 比较结果:我们的方法在对称物体处理上优于 NeRF-Pose,尤其是基于稀疏回归的方法。假设在训练期间可获得无纹理 CAD 模型,我们的方法仍能接近基准准确性。
  • 消融研究:通过将对象掩码上的增强物体粘贴到随机 coco 背景上,在训练数据中引入合成遮挡,增强管道使 AR 指标提高了 32%。
  1. NeRF-Pose 比较
  • 核心网络比较:我们的双向特征学习方法相比 NeRF-Pose 的对应回归方法表现更优,特别是在对称物体上。
  • 消融研究:在 LM 和 T-Less 数据集上的消融研究中,发现使用 Segment Anything 掩码不会显著影响准确性。
  1. 使用可微渲染器优化网格
  • 方法:在姿态标签、彩色图像和分割掩码基础上优化网格,并在第二阶段通过从重建网格中采样密度来训练管道,而不是使用 NeRF 的密度 MLP。
  • 结果:在 LM 和 LMO 数据集上,使用采样密度没有性能下降,表明方法对物体类型零至二鲁棒。
  1. ZebraPose 比较
  • 比较结果:我们的姿态准确性接近 ZebraPose,但计算效率和开销更低。ZebraPose 需要更高的计算开销和参数量,而我们的方法通过直接学习双向特征地图来学习物体姿态。

总结 & 未来工作

我们提出了一种结合 Nerf 和 CNN 的新颖管道,使用弱标注数据进行物体姿态估计,而无需 CAD 模型。所提出的特征学习方法通过强制 3D 和对称性约束,使我们能够处理对称物体,并且还促进了更快的推理速度。在 LM、LMO 和 T-Less 数据集上,我们在仅使用真实图像和相对姿态标签的方法中达到了基准准确性。在 RGB-D 设置中,我们的管道在旋转估计上表现出鲁棒性,这从 LM 和 LM-Occlusion 数据集上显著改善的结果中可以看出。我们提出的姿态估计管道使基于真实训练数据的方法变得更容易,因为它使用弱标注数据,相比于复杂的设置来标注 6D 姿态数据集,这不需要 CAD 模型。

参考: NeRF-Feat: 6D Object Pose Estimation using Feature Rendering

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、Mamba、 NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群







请到「今天看啥」查看全文