专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
武汉本地宝  ·  情人节,武汉结婚登记预约指南来了!附入口及流程 ·  16 小时前  
武汉本地宝  ·  武汉公积金账户的钱可以全额提取吗? ·  2 天前  
武汉本地宝  ·  武汉居住证网上办理指南 ·  5 天前  
武汉本地宝  ·  元宵节,武汉长江大桥、汉江桥限号吗? ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

相机精确定位!最新重定位框架引领机器人自主探索!

计算机视觉工坊  · 公众号  ·  · 2024-10-05 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Towards Global Localization using Multi-Modal Object-Instance Re-Identification

作者:Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat, Sarthak Chittawar, Siddharth Srivastava, Chetan Arora, K Madhava Krishna

机构:Robotics Research Center, IIIT Hyderabad、is with IIT Delhi、Typeface Inc

原文链接:https://arxiv.org/abs/2409.12002

1. 摘要

重新识别(ReID)是计算机视觉中的一个关键挑战,主要在行人和车辆的背景下进行研究。然而,健壮的对象实例ReID对自主探索、长期感知和场景理解等任务具有重要意义,但仍未得到充分探索。在这项工作中,我们通过提出一种新的双路径对象实例重识别转换器架构来解决这一差距,该架构集成了多模态RGB和深度信息。通过利用深度数据,我们展示了在杂乱或具有不同照明条件的场景中ReID的改进。此外,我们开发了一个基于ReID的定位框架,能够跨不同视点进行精确的摄像机定位和姿态识别。我们使用两个定制的RGB-D数据集以及来自开源TUM RGB-D数据集的多个序列来验证我们的方法。我们的方法在对象实例ReID (mAP为75.18)和定位精度(TUM-RGBD上的成功率为83%)方面都有显著提高,突出了对象ReID在推进机器人感知方面的重要作用。我们的模型、框架和数据集已经公开。

2. 引言

环境中的物体可以作为重要的地标,并为空间认知和定位提供重要线索。它们为理解智能体的总体位置和精确方向提供了宝贵信息。然而,物体可靠的重识别——正式称为物体实例重识别任务——仍研究不足,特别是在机器人学的背景下。

物体实例重识别(ReID),通常简称为物体ReID,是指在不同视角和环境条件下可靠识别并匹配同一物体的不同实例的任务。例如,在仓库环境中,物体ReID可用于跨多个摄像头视图跟踪同一设备,即使光照或设备位置发生变化。尽管针对特定类别(如行人和车辆)的ReID已进行了大量研究,这些研究通常利用步态模式或车辆参数等特定领域的特征,但物体ReID这一更广泛的领域则面临着独特挑战。物体的结构、外观和类型差异巨大,缺乏统一的共同特征。基础模型如DINOv2和视觉-语言模型如CLIP[8]虽能提供大致分类,但在这些类别内重新识别特定实例时却力不从心。它们泛化到新场景的能力并不足以提供精确基于物体的应用所需的精细识别。

在机器人学中,准确重识别物体的能力可广泛用于各种任务。尤其是全局重定位,这是一项关键应用,其中准确的物体ReID可以显著提升性能。在具有重复场景或众多物体和房间的环境中,这项任务尤其具有挑战性,因为这些环境中局部和全局配准困难都很常见。传统的全局重定位方法通常依赖于对齐整个点云或大量图像集合,以最大化可用信息。然而,这些信息中有很大一部分可能是冗余的,或者对有效定位没有帮助。

为解决这些挑战,我们引入了用于物体重识别的双路径注意力变换器(DATOR),这是一种深度物体ReID模型,利用移动机器人常用的RGB和深度传感器。DATOR采用双路径变换器架构,显著增强了其在多视图中的ReID能力。该架构从两种模态中提取并细化特征,将它们整合以生成稳健的最终嵌入。通过有效结合这两种模态,DATOR确保了物体ReID的高准确性,并在不同的光照条件和多样的环境设置中保持性能。

基于DATOR的精细ReID能力,我们引入了一个基于物体实例的全局定位框架。该框架在多样化的室内环境中有效运行,无需手动物体标注。受人类在熟悉环境中导航的启发,我们的方法通过映射可见物体来构建基于实例的地图,遵循与讨论的原则类似的原则。我们使用ReID模型对物体进行编目和编码,保留视觉和结构信息,同时通过单个物体的点云保持位置数据。对于定位,我们处理查询RGB-D视图以检测和匹配可见物体与物体地图中的物体,优化对齐以实现准确定位。

为验证我们的框架,我们提供了一个来自大型、物体丰富的实验室环境的真实世界数据集,该环境包含每个物体类别的多个实例(如桌子、椅子),呈现了一个具有挑战性的ReID场景。此外,我们还提供了一个包含多个类别物体的真实以及合成室内数据集,用于全局定位的基准测试。我们还将我们的方法与来自TUMRGB-D数据集的序列进行了基准测试。

3. 效果展示

我们提出了一种新颖的双路径Transformer架构,即DATOR,该架构结合了RGB和深度模态的线索,以实现有效的目标实例重识别(ReID)。我们的定位框架生成一个基于实例的地图,并结合我们的ReID模型来定位未见视图。

4. 主要贡献

我们做出了以下贡献:

• 一种多模态RGB-D物体实例ReID模型(DATOR),实现了75.18%的mAP,高于其他最优模型。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

• 一种基于物体实例ReID的全局定位框架,无需手动标注,可在室内环境中实现高精度,在密集、公开可用的数据集上成功定位83.01%的时间。

• 一个全面的物体实例ReID数据集,包含不同光照条件下多个室内物体实例。

• 一个真实以及合成数据集,用于在复杂室内环境中进行全局定位的基准测试。

5. 方法

定位框架概述。我们的定位框架接收合成的RGBD图像,并形成一个基于对象的地图,该地图由实例及其描述符组成。给定一个查询RGB-D图像,我们使用ReID模块(DATOR)在该图像中识别对象,并在我们的地图中识别对应项。使用匹配度最高的对应项来计算姿态。

网络架构:我们提出了一种新颖的网络架构,用于利用RGB和深度模态的信息(图3)。该网络具有一个RGB路径和一个深度路径,分别接收RGB图像和深度图像作为输入。在网络内部,两个路径之间会交换信息,并最终将两个路径的特征结合起来,以生成最终的嵌入表示。

6. 实验结果

7. 总结 & 未来工作

我们提出了一种基于对象的定位框架,该框架能够在多种室内环境中实现泛化,且无需手动标注,这在自主室内导航领域取得了重大进展。我们的方法在真实环境和合成环境中均表现出准确且鲁棒的定位能力。此外,我们的重识别(ReID)架构在一个具有不同光照条件的挑战性数据集上实现了75.18%的高平均精度均值(mAP),证明了其对真实场景的适应能力。

我们模型生成的嵌入特征使得对象实例重识别的定位成功率更高,相较于其他大规模图像编码模型,该模型在TUM-RGBD的多个序列中平均成功定位率达到83.01%。此外,我们还发布了一对具有挑战性的、富含对象的真实和合成重定位数据集,以及一个包含不同光照条件的对象ReID数据集。

未来的工作包括探索扩展我们的框架,以有效识别重要的非对象地标、在室外环境中发挥作用、增强其对更极端的光照变化和遮挡情况的鲁棒性,并将其集成到移动机器人管道中。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉知识星球

3D视觉从入门到精通







请到「今天看啥」查看全文