专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

清华最新！通过循环模态传播实现统一的开放词汇3D目标检测

3DCV · 公众号 · · 2024-03-30 00:24

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：3DCV
添加微信：dddvision，备注：3D目标检测，拉你入群。文末附行业细分群

标题：OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation
作者：Zhenyu Wang等人
单位：清华大学等单位
链接：https://arxiv.org/pdf/2403.19580.pdf

1、导读

该论文提出了OV-Uni3DETR,这是一个面向通用开放词汇3D目标检测的多模态检测器。具体来说，我们提出了循环模态传播的概念，目的是在2D和3D模态之间传播知识，以支持上述功能。2D语义知识从大规模词汇学习中引导3D领域的新类发现，而3D几何知识则为2D检测图像提供定位监督。实验证明，OV-Uni3DETR在各种3D检测任务上都取得了最新的性能，其平均性能比现有方法提高了6%以上。仅使用RGB图像的性能与以前基于点云的方法相比具有竞争力。代码和预训练模型将在稍后发布。

2、创新点

与现有的3D检测器相比，OV-Uni3DETR具有以下特点：

开放词汇3D检测 ：在训练阶段，它利用各种可用的数据集，特别是丰富的2D检测图像，来增强训练的多样性。在推理阶段，它可以检测已见和未见的类别。
模态统一 ：它无缝地适应来自任何给定模态的输入数据，有效地解决了涉及不同模态或缺少传感器信息的情况，从而支持测试时的模态切换。
场景统一 ：它为通过不同传感器收集的多样化场景提供了一个统一的多模态模型架构。

3、方法

OV-Uni3DETR是一个统一的开放词汇3D目标检测器，具有以下关键特点：

图2：OV-Uni3DETR。提取点云和图像的特征。转换到相同的体素空间后，将它们添加到多模态特征中。3D检测变压器最终用于类和框预测。我们执行从 2D到3D的语义知识传播，以发现新的类。为了使用2D检测图像，我们预测相机外在参数，并通过类别无关(CA)3D检测器将几何知识从3D传播到2D

多模态学习 ：OV-Uni3DETR在训练时同时利用点云、带3D框标注的3D检测图像和仅带2D框标注的2D检测图像，以增强训练的多样性。此外，引入了2D检测图像，尤其是对于开放词汇3D检测具有显著优势。

测试时模态切换 ：经过多模态学习，OV-Uni3DETR可以适应任何模态的数据输入，实现测试时的模态切换。

统一的多模态架构 ：OV-Uni3DETR为室内外场景提供了一个统一的多模态模型架构。

循环模态传播 ：OV-Uni3DETR提出了循环模态传播的概念，旨在传播2D和3D模态之间的知识。具体而言，2D语义知识指导3D域中新类的发现，而3D几何知识为2D检测图像提供定位监督。

优势表现 ：OV-Uni3DETR在开放词汇3D检测任务中表现优异，相较于先前的方法，其性能有显著提升。同时，其在闭词汇3D检测中也展现出强大性能。

综上所述，OV-Uni3DETR是一个统一的开放词汇3D目标检测器，通过多模态学习和循环模态传播，实现了模态统一、场景统一和开放词汇学习，是迈向通用3D目标检测的重要一步。

4、实验

这部分主要进行了以下实验：

开放词汇3D目标检测 ：

在室内SUN RGB-D和ScanNet数据集上进行评估，结果表明OV-Uni3DETR在点云输入下能够检测新类别，AP较之前方法提高6%以上。
在室外KITTI和nuScenes数据集上进行评估，结果表明OV-Uni3DETR在室外场景下同样能够检测新类别。
提供了可视化结果，展示了OV-Uni3DETR在室内外场景下检测新类别目标的能力。

封闭词汇3D目标检测 ：

在室内SUN RGB-D数据集上进行评估，结果显示OV-Uni3DETR的性能优于之前的单模态方法。
在室外KITTI数据集上进行评估，结果表明OV-Uni3DETR的性能优于其他单目3D检测方法。

ablation study ：

分析了循环模态传播和多模态学习的影响，验证了这两个设计对模型性能的改进作用。

更多定量结果 ：

在ScanNet多视角设置下进行了评估，结果显示OV-Uni3DETR的性能优于其他方法。
分析了不同2D检测图像数据集对模型性能的影响，结果表明数据集类别越丰富，对3D开放词汇检测的性能提升越显著。

更多可视化结果 ：

提供了更多在SUN RGB-D、ScanNet和KITTI数据集上的可视化结果，展示了OV-Uni3DETR检测新类别目标的能力。

这部分通过在不同数据集、不同设置下进行充分的实验，全面验证了OV-Uni3DETR模型的优越性能。

5、总结

本文介绍了一种名为OV-Uni3DETR的统一开放词汇3D目标检测器。该检测器通过多模态学习和循环模态传播来实现对未知类别3D目标的检测。具体而言，该检测器在训练过程中使用点云、3D检测图像和2D检测图像进行多模态训练。同时，利用2D开放词汇检测器生成的2D边界框投影到3D空间，以传播语义知识，并利用类无关的3D检测器生成3D边界框，以传播几何知识。实验结果表明，OV-Uni3DETR在室内外场景下，对不同模态输入，都能有效地检测未知类别3D目标，并在开放词汇3D检测任务上取得了最先进的结果。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程：
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。