从单幅图像中估计6D物体姿态和姿态追踪是计算机视觉中的一项基本任务,在机器人和增强现实/虚拟现实(AR/VR)等应用中具有巨大的潜力。近几十年来,该领域取得了显著进步,主要由数据驱动的学习方法主导。类似于数据在学习型2D基础任务中的核心作用,高质量、全面的数据集在6D物体姿态估计和追踪的背景下也至关重要。
如今,6D物体姿态估计在两种不同视角下进行研究:实例级和类别级。在实例级设置中,诸如Linemod、YCB-Video和T-LESS等数据集已被广泛接受作为基准。这些数据集以其对详细、个体对象实例的关注而著称,从而使算法能够精确学习和预测特定物品的姿态。另一方面,类别级姿态估计强调在特定对象类别内的不同项目之间进行泛化。
NOCS数据集在类别级物体姿态估计领域最为常用,它提供了一个模拟数据集用于训练,以及一个小规模的真实世界数据集用于评估。尽管这些数据集为推动该领域的发展做出了贡献,但由于它们在实例或类别方面的小规模性,它们也呈现出一些局限性。这导致了两个主要的挑战:
(1)它阻碍了不同模型性能的全面评估,限制了该领域研究的发展。
(2)由于所代表的对象实例或类别的多样性有限,它限制了研究成果在不同领域的适用性。
为了应对上述挑战并推动该领域的进步,本文介绍了Omni6DPose,这是一个通用的6D物体姿态估计数据集,其特点在于对象类别的多样性、规模的广泛性以及材料种类的多样性。Omni6DPose被细分为三个主要部分:1) ROPE(真实6D物体姿态估计数据集),包含超过1.5M个标注的332K张图像,跨越149个类别中的581个实例;2) SOPE(模拟6D物体姿态估计数据集),包含在一个混合现实环境中生成的475K张图像,这些图像带有深度模拟,并为同一149个类别中的4162个实例提供了超过5M个标注。混合现实环境弥补了语义模拟与真实之间的差距,而深度传感器模拟则消除了几何模拟与真实之间的差距;3) 在ROPE和SOPE中都使用了手动对齐的真实扫描物体,使得能够生成多样化的下游任务数据。
由于Omni6DPose存在显著的变化、多样的材料和固有的歧义,因此它带来了固有的挑战,这些挑战反映了在现实世界应用中遇到的复杂性。为了解决这些问题,我们引入了GenPose++,它在GenPose的基础上做了两个关键的改进:具有语义感知的特征提取和基于聚类的聚合,这两个改进是专门为Omni6DPose的特点定制的。此外,作为一个通用的6D物体姿态估计数据集,本文还提供了全面的基准测试分析,以评估现有方法在类别级6D物体姿态估计和姿态跟踪方面的性能。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking
作者:Jiyao Zhang, Weiyao Huang, Bo Peng, Mingdong Wu, Fei Hu, Zijian Chen, Bo Zhao, Hao Dong
机构:北京大学、计算机科学学院、早稻田大学、北京人工智能研究院
原文链接:https://arxiv.org/abs/2406.04316
官方主页:https://omni6dpose-pending.vercel.app/
2. 摘要
6D物体姿态估计是计算机视觉中一项重要且具有挑战性的任务,但严重缺乏大规模数据集。这种稀缺性阻碍了模型性能的全面评估,限制了研究进展。此外,可用实例或类别的数量有限也限制了其应用。为了解决这些问题,本文介绍了Omni6DPose,一个以物体类别多样性、大规模和物体材料多样性为特点的大型数据集。Omni6DPose分为三个主要部分:ROPE(真实6D物体姿态估计数据集),包含332K张图像,在149个类别中的581个实例上标注了超过150万个注释;SOPE(模拟6D物体姿态估计数据集),在混合现实环境中创建,包含475K张图像,通过深度模拟,在相同的149个类别中的4162个实例上标注了超过500万个注释;以及用于ROPE和SOPE的手动对齐的真实扫描物体。由于存在显著的变化和歧义,Omni6DPose本身具有挑战性。为了应对这一挑战,我们引入了GenPose++,这是SOTA类别级姿态估计框架的增强版本,它包含两项关键改进:语义感知特征提取和基于聚类的聚合。此外,我们还提供了全面的基准分析,以评估之前的方法在这个大规模数据集上在6D物体姿态估计和姿态跟踪领域的性能。
3. 效果展示
ROPE数据集的样本示例。
该表比较了6D物体姿态估计的数据集,重点是目标类别计数、数据的真实性、数据模式(RGB、深度、IR)和目标属性,如数量、CAD模型可用性以及透明和镜面反射。它还通过数量和标记的存在来详细说明视频特性,以及图像和注释计数。” 因为训练数据不提供注释,Wild6D*'专门指测试拆分。符号“-”表示数据集中缺少特定功能。
4. 主要贡献
我们提出了Omni6DPose,这是一个全面的6D物体姿态估计数据集,具有广泛的类别、实例多样性和材料多样性。
我们提出了一种真实数据收集流程和模拟框架,用于生成具有低语义和几何sim2real差距的合成数据。
我们介绍了GenPose++,用于类别级别的6D物体姿态估计和跟踪,并在Omni6DPose上展示了SOTA(state-of-the-art,即当前最佳)性能。
5. Omni6DPose数据集
本文介绍了一个名为 ROPE 的丰富多样的物体类别、大规模且材质多样化的数据集,用于真实的 6D 物体姿态估计。此外,还提供了一个名为 SOPE 的模拟数据集,该数据集结合了混合现实并具备深度模拟特性,用于训练。
通用的 6D 物体姿态估计依赖于一套全面的物体集合。我们选择了 149 类日常物体,全部使用高精度扫描仪进行重建,并将它们分为两组:SOPE 用于模拟数据,ROPE 用于现实世界场景。SOPE 主要包含来自 OmniObject3D、PhoCal和 GoogleScan等来源的物体,以及我们扫描的子集,总计 5000 个实例。ROPE 包含我们使用工业扫描仪重建的 580 个实例。重要的是,虽然大多数 SOPE 物体来自公共数据集,但需要进行手动类别级别的姿态对齐。对于物体重建,如图 3 所示,我们使用两台专业扫描仪 EinScan H26 和 Revopoint POP 3 7 对不同尺度的物体进行扫描。扫描时间取决于物体特征:对于像鼠标这样的小、简单、Lambertian(朗伯体)物体,大约需要 15 分钟,而对于像透明杯子这样复杂、大或非 Lambertian 的物体,可能需要长达一个小时。最后,我们构建了一个专用的标注工具,用于手动将同一类别的物体对齐到类别级别的规范空间,每个对齐过程大约需要一分钟。
ROPE 通过将物体类别的多样性和数量扩大到前所未有的水平,涵盖了广泛的材料,在类别级别的物体姿态估计方面代表了全面的基准。这种多样性对数据集的规模和多样性提出了更高的要求,从而对网络训练数据提出了新的挑战。收集更大的真实世界数据集将非常昂贵,而且不太可能确保足够的多样性。
为了弥合使用合成数据(无论是 RGB 还是几何)时出现的明显的 sim2real 差距,本文提出了一种基于深度模拟的混合现实新方法用于合成数据生成。具体来说,如图 4 所示,我们采用混合现实技术来生成 RGB 数据,从而缩小 RGB sim2real 差距。同时,我们在 Blender中模拟了结构光深度传感器的机制。这涉及渲染红外(IR)图像并应用立体匹配来生成合成深度图,有效地缩小了几何 sim2real 差距。
在数据生成过程中,我们实现了光照和物体材料的领域随机化,以进一步增强数据集的多样性。所有背景图像均来自公共数据集,包括来自 MatterPort3D的 19,658 张图像、来自 ScanNet++的 2,572 张图像和来自 IKEA [27] 的 540 张图像。
据我们所知,这是首个使用上下文感知的混合现实方法与基于物理的深度传感器模拟相结合的模拟数据集,用于物体姿态估计任务。
图 5 展示了物体类别和大小的全面分布情况。在 SOPE 数据集中,大多数类别都拥有 ≥ 25K 的姿态标注,为训练提供了充分的机会。包含具有多样性和挑战性材质选项(例如透明或镜面材质)的物体类别,如盘子、杯子、瓶子、碗、马克杯等,明显配备了更多的数据生成。我们数据集中的物体在大小上跨越了广泛的范围。大多数物体的长度(沿其边界框的对角线)约为 0.1 米,而最大的物体则超过 1 米。
6. 类别级6D姿态估计算法
鉴于 Omni6DPose,人们自然会思考用于大规模类别级别姿态估计的最佳技术方法。最近引入的先进的类别级别 6D 姿态估计技术 GenPose提供了一个有希望的途径,即通过采用基于扩散的概率方法。相比之下,扩散模型在各种高维领域和大量训练数据下都展现出了显著的有效性。在此基础上,本研究进一步深入探讨了概率方法,提出了 GenPose 的增强迭代版本,命名为 GenPose++。GenPose++ 集成了两个关键改进:语义感知特征提取(见图 6(a))和基于聚类的聚合(如图 6(c) 所示)。后续章节将详细介绍 GenPose++ 流程的三个主要阶段。此外,给定估计的 6D 姿态,GenPose++ 还提供了一个额外的回归网络来预测物体的 3D 尺度。
7. 实验
在表 2 中,我们展示了在 ROPE 数据集上,GenPose++ 与之前方法的定量评估结果。总体而言,生成方法在 ROPE 的性能评估中继续占据主导地位。图 7 中描绘的 VUS 表面更详细地反映了每个模型的性能。与确定性方法不同,生成方法可以在没有任何特定设计要求的情况下处理歧义。此外,这些方法直接生成物体姿态的分布,从而消除了基于深度图的姿态拟合的需求。这种方法对于具有挑战性的材质类型(如透明或反射物体)特别有利,因为结构光深度相机往往会引入大量噪声,严重影响姿态拟合的准确性。此外,NOCS 方法在 ROPE 数据集上并未表现出有效的性能,这导致人们推测,仅依赖 RGB 信息来预测规范空间中物体形状的方法,随着类别多样性的增加,其鲁棒性会降低。与 GenPose 相比,GenPose++ 通过利用 2D 基础模型的强大感知能力以及聚类对离散对称属性的鲁棒性,取得了显著的领先。
表3展示了GenPose++中每个组件对其性能的贡献。聚类模块的引入使得GenPose++能够有效地聚合由离散对称性引起的多模态分布,从而提高了性能。GenPose++中的尺度预测显著优于直接从物体的点云进行直接计算的结果,因为部分观测的歧义和点云噪声导致的误差,特别是在透明和反射物体中。使用模拟深度数据进行训练比使用完美点云进行训练的效果更好,因为基于物理的深度相机模拟大大减少了深度数据的sim2real差距。逐点融合优于全局融合,因为它保留了更多物体的局部几何特征,这些特征对于准确预测物体姿态至关重要。
表 4 展示了类别级物体姿态跟踪算法 CATRE、GenPose 以及我们的方法的结果,同时也包括了未见物体姿态跟踪算法 BundleTrack 的结果。类别级姿态估计方法似乎取得了相对较好的结果,因为它们受益于在 SOPE 数据集中学习到的类别级规范空间内的物体。然而,对于无需训练的 BundleTrack,它依赖于 RGB 信息进行关键点检测和匹配姿态,这在面对纹理较弱的物体时常常失败。此外,它依赖于深度值进行全局优化,这使得它在处理具有显著深度噪声的实例(如透明或镜面物体)时效果不佳。我们的方法没有经过专门设计,但已取得了与最先进方法相当的结果。尽管我们的方法的推理速度低于 CATRE 和 GenPose,但实现的 17.8 FPS 对于某些下游任务(如机器人操作)已经足够。此外,最近快速发展的快速采样器研究对我们的方法有利,可能提高其在实时场景中的性能和适用性。
8. 总结 & 未来工作
在本研究中,我们介绍了Omni6DPose,一个用于6D物体姿态估计的综合性数据集,具有广泛的尺度、多样性和材质种类。通过全面的实验,我们发现概率框架在类别级别的6D物体姿态估计方面有着巨大潜力,可以利用RGB图像提供的语义信息来应对大规模姿态估计的挑战。然而,GenPose++在Omni6DPose上的性能表明仍有很大的改进空间,模型仍然受到扩散模型内在迭代细化性质导致的推理速度缓慢的困扰。未来的工作可以专注于解决这些挑战,并将在Omni6DPose上训练的通用6D姿态估计模块整合到更广泛的下游任务中。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球