专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
上海发展改革  ·  S4最新进展!计划至2025年底项目具备交工 ... ·  13 小时前  
上海发展改革  ·  【虹桥之上】为企业提供出海服务,虹桥海外发展 ... ·  18 小时前  
哈尔滨日报  ·  晚九点半停止写作业!一地教育局通知 ·  2 天前  
51好读  ›  专栏  ›  3DCV

清华最新!通过循环模态传播实现统一的开放词汇3D目标检测

3DCV  · 公众号  ·  · 2024-03-30 00:24

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

点击加入「3DCV」技术交流群

编辑:3DCV
添加微信:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群

标题:OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation
作者:Zhenyu Wang等人
单位:清华大学等单位
链接:https://arxiv.org/pdf/2403.19580.pdf

1、导读

该论文提出了OV-Uni3DETR,这是一个面向通用开放词汇3D目标检测的多模态检测器。具体来说,我们提出了循环模态传播的概念,目的是在2D和3D模态之间传播知识,以支持上述功能。2D语义知识从大规模词汇学习中引导3D领域的新类发现,而3D几何知识则为2D检测图像提供定位监督。实验证明,OV-Uni3DETR在各种3D检测任务上都取得了最新的性能,其平均性能比现有方法提高了6%以上。仅使用RGB图像的性能与以前基于点云的方法相比具有竞争力。代码和预训练模型将在稍后发布。

图1:OV-Uni3DETR示意图

2、创新点

与现有的3D检测器相比,OV-Uni3DETR具有以下特点:

  • 开放词汇3D检测 :在训练阶段,它利用各种可用的数据集,特别是丰富的2D检测图像,来增强训练的多样性。在推理阶段,它可以检测已见和未见的类别。
  • 模态统一 :它无缝地适应来自任何给定模态的输入数据,有效地解决了涉及不同模态或缺少传感器信息的情况,从而支持测试时的模态切换。
  • 场景统一 :它为通过不同传感器收集的多样化场景提供了一个统一的 多模态模型架构。

3、方法

OV-Uni3DETR是一个统一的开放词汇3D目标检测器,具有以下关键特点:

图2:OV-Uni3DETR。提取点云和图像的特征。转换到相同的体素空间后,将它们添加到多模态特征中。3D检测变压器最终用于类和框预测。我们执行从 2D到3D的语义知识传播,以发现新的类。为了使用2D检测图像,我们预测相机外在参数,并通过类别无关(CA)3D检测器将几何知识从3D传播到2D

多模态学习 :OV-Uni3DETR在训练时同时利用点云、带3D框标注的3D检测图像和仅带2D框标注的2D检测图像,以增强训练的多样性。此外,引入了2D检测图像,尤其是对于开放词汇3D检测具有显著优势。

测试时模态切换 :经过多模态学习,OV-Uni3DETR可以适应任何模态的数据输入,实现测试时的模态切换。

统一的多模态架构 :OV-Uni3DETR为室内外场景提供了一个统一的多模态模型架构。

循环模态传播 :OV-Uni3DETR提出了循环模态传播的概念,旨在传播2D和3D模态之间的知识。具体而言,2D语义知识指导3D域中新类的发现,而3D几何知识为2D检测图像提供定位监督。

优势表现 :OV-Uni3DETR在开放词汇3D检测任务中表现优异,相较于先前的方法,其性能有显著提升。同时,其在闭词汇3D检测中也展现出强大性能。

综上所述,OV-Uni3DETR是一个统一的开放词汇3D目标检测器,通过多模态学习和循环模态传播,实现了模态统一、场景统一和开放词汇学习,是迈向通用3D目标检测的重要一步。

4、实验

这部分主要进行了以下实验:

开放词汇3D目标检测

  • 在室内SUN RGB-D和ScanNet数据集上进行评估,结果表明OV-Uni3DETR在点云输入下能够检测新类别,AP较之前方法提高6%以上。
  • 在室外KITTI和nuScenes数据集上进行评估,结果表明OV-Uni3DETR在室外场景下同样能够检测新类别。
  • 提供了可视化结果,展示了OV-Uni3DETR在室内外场景下检测新类别目标的能力。

封闭词汇3D目标检测

  • 在室内SUN RGB-D数据集上进行评估,结果显示OV-Uni3DETR的性能优于之前的单模态方法。
  • 在室外KITTI数据集上进行评估,结果表明OV-Uni3DETR的性能优于其他单目3D检测方法。

ablation study

  • 分析了循环模态传播和多模态学习的影响,验证了这两个设计对模型性能的改进作用。

更多定量结果

  • 在ScanNet多视角设置下进行了评估,结果显示OV-Uni3DETR的性能优于其他方法。
  • 分析了不同2D检测图像数据集对模型性能的影响,结果表明数据集类别越丰富,对3D开放词汇检测的性能提升越显著。

更多可视化结果

  • 提供了更多在SUN RGB-D、ScanNet和KITTI数据集上的可视化结果,展示了OV-Uni3DETR检测新类别目标的能力。

这部分通过在不同数据集、不同设置下进行充分的实验,全面验证了OV-Uni3DETR模型的优越性能。

5、总结

本文介绍了一种名为OV-Uni3DETR的统一开放词汇3D目标检测器。该检测器通过多模态学习和循环模态传播来实现对未知类别3D目标的检测。具体而言,该检测器在训练过程中使用点云、3D检测图像和2D检测图像进行多模态训练。同时,利用2D开放词汇检测器生成的2D边界框投影到3D空间,以传播语义知识,并利用类无关的3D检测器生成3D边界框,以传播几何知识。实验结果表明,OV-Uni3DETR在室内外场景下,对不同模态输入,都能有效地检测未知类别3D目标,并在开放词汇3D检测任务上取得了最先进的结果。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。







请到「今天看啥」查看全文