【免费送书】
👇👇👇
本次为大家送出
5本《C++设计模式》
参与方法:关注下方「3DCV」公众号
在「3DCV」公众号后台,回复 送书 即可参与
开奖时间:9月23日 10:00
0.这篇文章干了啥?
这篇文章提出了一种统一的基础模型,用于6D位姿估计和跟踪新物体,支持基于模型和无模型的设置。通过在LINEMOD、OccludedLINEMOD、YCB-Video、T-LESS和YCBInEOAT等数据集上进行的广泛实验,模型在四种不同任务的组合中表现出色,显著超越了现有最先进的方法,尤其是在无模型的设置和实例级训练方法方面。实验结果表明,模型对参考图像数量变化的鲁棒性较强,且训练数据规模的增加对性能有积极影响。模型在实时应用中的运行时间也表现良好,能够高效执行位姿估计和跟踪任务。未来的研究将关注于扩展模型的应用范围,尤其是超越单一刚性物体的状态估计。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
作者:Bowen Wen ,Wei Yang等
作者机构:NVIDIA
论文链接:https://arxiv.org/pdf/2312.08344
2. 摘要
我们提出了FoundationPose,一种用于6D物体姿态估计和跟踪的统一基础模型,支持基于模型和无模型的设置。我们的方法可以在测试时直接应用于新的物体,无需微调,只要提供其CAD模型或捕获少量参考图像即可。得益于统一的框架,在两种设置中下游的姿态估计模块保持一致,当没有CAD模型时,使用神经隐式表示进行高效的新视角合成。通过大规模的合成训练,以及大语言模型(LLM)、新颖的基于Transformer的架构和对比学习公式,实现了强大的泛化能力。在多个包含挑战性场景和物体的公开数据集上的广泛评估表明,我们的统一方法在每个任务中大幅超越了现有的专用方法。此外,尽管假设条件减少,它甚至在实例级方法中也取得了可比的结果。项目页面:https://nvlabs.github.io/FoundationPose/
3. 效果展示
姿势排名可视化。我们提出的分层比较利用了所有假设的全局背景,以便更好地预测形状和纹理的整体趋势。真正的最佳姿势用红圈标出。
无模型设置下LINEMOD数据集姿态估计的定性比较。图像被裁剪和放大以获得更好的可视化效果。
4. 主要贡献
-
我们提出了一个统一框架,可在基于模型和无模型的设置下对新物体进行姿态估计和跟踪。一个以物体为中心的神经隐式表示实现了有效的新视角合成,弥合了两种设置的差距。
-
我们提出了一个由LLM辅助的合成数据生成管道,通过多样的纹理增强扩大了3D训练资产的多样性。
-
-
我们的方法在多个公开数据集上大幅超越了现有专门针对每项任务的方法,尽管假设条件减少,它甚至在实例级方法中也取得了可比的结果。本文开发的代码和数据将会公开发布。
5. 基本原理是啥?
该模型的基本原理是通过统一的框架解决6D位姿估计和跟踪任务,并且适用于两种主要设置:基于模型(model-based)和非基于模型(model-free)。其核心思想包括以下几点:
-
数据生成
:利用大型语言模型(LLM)和扩散模型生成合成数据,以增强训练数据的多样性和质量。这种方法通过自动生成纹理和外观,提升了模型的泛化能力。
-
神经对象建模
:在没有CAD模型的情况下,使用神经隐式表示(如SDF)进行高效的物体建模。这种方法允许从RGBD图像中生成物体的3D表示,支持快速渲染和视图合成。
-
-
初始姿态生成
:通过标准的对象检测方法(如Mask R-CNN)获得2D边界框,并根据框内的中位深度点进行平移初始化。同时,从一个以物体为中心的球形分布中均匀采样多个视点进行旋转初始化。
-
姿态细化
:使用姿态细化网络,通过渲染物体的多个视图来优化初始姿态。该网络根据输入的RGBD图像和粗略姿态进行迭代优化。
姿态选择
:通过分层比较策略,计算多个细化后姿态的得分,选择得分最高的姿态作为最终输出。这一过程利用了多头自注意力机制,以更好地利用全局上下文信息进行比较。
强泛化能力
:通过大规模合成数据训练,FoundationPose能够在测试新物体时无需微调,表现出与实例级方法相当的效果。
6. 实验结果
实验结果部分展示了该模型在不同数据集和任务上的表现。以下是关键实验结果的总结:
数据集和设置
模型在5个数据集上进行了实验,包括LINEMOD、OccludedLINEMOD、YCB-Video、T-LESS和YCBInEOAT,这些数据集涵盖了不同的场景(如密集杂乱、多实例、静态或动态场景)以及不同的物体特性(无纹理、反光、对称性、大小各异)。
位姿估计比较
非基于模型的位姿估计
-
YCB-Video数据集
:与现有的RGB-D方法(如FS6D等)进行对比,模型在不微调目标数据集或使用ICP后处理的情况下,显著超越了这些方法。表1和表2中展示了该模型相对于其他方法的优越性。
-
LINEMOD数据集
:模型也在LINEMOD数据集上表现优异,在不使用额外深度信息的前提下,超越了多种RGB或RGB-D方法。
基于模型的位姿估计
-
在OccludedLINEMOD、YCB-Video和TLESS这三个核心数据集上,模型表现优于现有的基于模型的方法,并且大幅超越了一些实例级别训练的模型。
位姿跟踪比较
在位姿跟踪任务中,模型被评估在没有重新初始化的情况下的鲁棒性,以应对物体失去跟踪的情况。实验在YCBInEOAT数据集上进行了评估,该数据集包含了机器人动态操控的视频数据。
-
YCBInEOAT数据集
:在表4中,模型表现出了最佳的性能,甚至超越了一些需要实例级别训练的模型(如DeepIM、PoseRBPF等)。
-
YCB-Video数据集
:表5显示了模型在该数据集上的跟踪结果。相比其他基线模型,尤其是那些需要针对特定实例训练的模型(如DeepIM、se(3)-TrackNet等),该模型无需外部位姿初始化就可以实现端到端的位姿估计与跟踪。
消融实验
表6展示了消融实验的结果,评估了模型中的关键设计选择:
-
LLM增强纹理移除
:移除该模块后,性能下降,说明它对模型的整体表现有积极影响。
-
Transformer架构替换为卷积和线性层
:使用传统架构会导致性能显著下降,表明Transformer架构的有效性。
-
移除分层比较
:只使用单层比较会降低准确性,证明了分层比较在提升模型性能方面的重要性。
参考图像数量的影响
实验显示,参考图像的数量对模型的表现影响较小,尤其是在ADD-S指标上,当参考图像达到12张时,模型的性能趋于稳定。即便只有4张参考图像,模型的表现仍然优于FS6D使用16张参考图像的结果。
训练数据的影响