专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
环球物理  ·  【航天物理】物理学科在航天领域的应用 ·  昨天  
三峡小微  ·  3000多年前,古人穿上了时髦的“雪地靴” ·  昨天  
环球物理  ·  【物理笔记】学霸笔记力学篇全部汇总 ·  2 天前  
中科院物理所  ·  物理学中真有“魔法”,它代表一类量子资源 ·  3 天前  
51好读  ›  专栏  ›  3DCV

CVPR 2024 满分论文!英伟达开源BOP排行榜6D物体姿态第一名方法

3DCV  · 公众号  ·  · 2024-04-02 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

点击加入「3DCV」技术交流群

论文作者:温伯文(作者授权) | 编辑:3DCV
添加微信:dddvision,备注:6D位姿估计,拉你入群。文末附行业细分群

标题:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
论文地址:https://arxiv.org/abs/2312.08344
项目主页:https://nvlabs.github.io/FoundationPose/
开源代码:https://github.com/NVlabs/FoundationPose

Demo展示

1.导读

我们提出了FoundationPose,这是一个统一的大模型,用于6D物体姿态估计和跟踪,支持基于模型和无模型设置。我们的方法可以立即应用于新颖的物体上,无需微调,只要给出其CAD模型,或者拍摄少量参考图像即可。我们通过神经隐式表示来弥合这两种设置之间的差距,这种表示允许有效的新视图合成,并在同一统一框架下保持下游姿态估计模块的不变性。通过大规模合成训练、大型语言模型(LLM)、一种新颖的基于Transformer的架构和对比学习公式的辅助,我们实现了强大的泛化能力。在涉及挑战性场景和物体的多个公共数据集上进行了广泛评估,结果表明我们的统一方法在性能上大幅优于现有的针对每个任务专门化的方法。此外,尽管减少了假设,它甚至达到了与实例级方法相当的结果。

2.主要贡献

在本文中,我们提出了一个统一的框架,称为FoundationPose,它在基于模型和无模型设置下,使用RGBD图像对新颖物体进行姿态估计和跟踪。如下图所示,我们的方法优于现有专门针对这四项任务中的每一项的最先进方法。我们通过大规模合成训练实现了强大的泛化能力,辅以大型语言模型(LLM)、以及一种新颖的基于Transformer的架构和对比学习。我们利用神经隐式表示填补了基于模型和无模型设置之间的差距,使得可以使用少量(约16张)参考图像进行有效的新颖视图合成,实现了比之前的渲染与比较方法[32,36,67]更快的渲染速度。我们的贡献可以总结如下:

  • 我们提出了一个统一的框架,用于新颖物体的姿态估计和跟踪,支持基于模型和无模型设置。一种以物体为中心的神经隐式表示用于有效的新颖视图合成,弥合了这两种设置之间的差距。
  • 我们提出了一种LLM辅助的合成数据生成流程,通过多样的纹理增强扩展了3D训练资源的种类。
  • 我们新颖的基于Transformer的网络架构设计和对比学习公式在仅使用合成数据进行训练时实现了强大的泛化能力。
  • 我们的方法在多个公共数据集上大幅优于针对每个任务专门化的现有方法。即使减少了假设,它甚至实现了与实例级方法可比的结果。

3、方法总览

我们框架的概述如下图。为了减少大规模训练的手动工作,我们利用最近出现的技术和资源,包括3D模型数据库、大型语言模型和扩散模型,开发了一种新颖的合成数据生成流程。为了弥合无模型和基于模型的设置之间的差距,我们利用一个以物体为中心的神经场进行新颖视图的RGBD渲染,以便后续进行渲染与比较。对于姿态估计,我们首先在物体周围均匀初始化全局姿态,然后通过精细化网络对其进行改进。最后,我们将改进后的姿态传递给姿态选择模块,该模块预测它们的得分。具有最佳得分的姿态被选为输出。

下图顶部:FS6D[22]中提出的随机纹理混合。底部:我们LLM辅助的纹理增强使外观更加逼真。最左边是原始的3D模型。其中文本提示由ChatGPT自动生成。

下图显示姿态排序可视化。我们提出的分层比较利用了所有姿态假设之间的全局上下文,以更好地预测整体趋势,使形状和纹理都能对齐。真正的最佳姿态用红色圆圈标注。

4、实验结果

数据集 :我们考虑了5个数据集:LINEMOD[23],OccludedLINEMOD[1],YCB-Video[73],T-LESS[25]和YCBInEOAT[67]。这些数据集涉及各种具有挑战性的场景(密集杂乱、多实例、静态或动态场景、桌面或机器人操作),以及具有不同属性的物体(无纹理、闪亮、对称、尺寸变化)。由于我们的框架是统一的,我们考虑了两种设置(无模型和基于模型)以及两个姿态预测任务(6D姿态估计和跟踪)之间的组合,总共有4个任务。对于无模型设置,从数据集的训练集中选择了一些捕获新颖物体的参考图像,并配备了物体姿态的地面真值注释,按照[22]的方法。对于基于模型的设置,为新颖物体提供了CAD模型。除了消融实验外,在所有评估中,我们的方法始终使用相同的训练模型和配置进行推断,而无需任何微调。此外我们还提交了结果至BOP排行榜并取得了第一名的成绩

团队介绍

该论文来自于英伟达研究院。其中论文一作华人温伯文博士,任研究员。此前曾在谷歌X,Facebook Reality Labs,亚马逊和商汤实习。研究方向为机器人感知和3D视觉。获得过RSS最佳论文奖提名。

个人主页 :https://wenbowen123.github.io/

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球

3D视觉交流群







请到「今天看啥」查看全文