编辑:3DCV
添加微信:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群
标题:OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation
作者:Zhenyu Wang等人
单位:清华大学等单位
链接:https://arxiv.org/pdf/2403.19580.pdf
1、导读
该论文提出了OV-Uni3DETR,这是一个面向通用开放词汇3D目标检测的多模态检测器。具体来说,我们提出了循环模态传播的概念,目的是在2D和3D模态之间传播知识,以支持上述功能。2D语义知识从大规模词汇学习中引导3D领域的新类发现,而3D几何知识则为2D检测图像提供定位监督。实验证明,OV-Uni3DETR在各种3D检测任务上都取得了最新的性能,其平均性能比现有方法提高了6%以上。仅使用RGB图像的性能与以前基于点云的方法相比具有竞争力。代码和预训练模型将在稍后发布。
图1:OV-Uni3DETR示意图
2、创新点
与现有的3D检测器相比,OV-Uni3DETR具有以下特点:
开放词汇3D检测
:在训练阶段,它利用各种可用的数据集,特别是丰富的2D检测图像,来增强训练的多样性。在推理阶段,它可以检测已见和未见的类别。
模态统一
:它无缝地适应来自任何给定模态的输入数据,有效地解决了涉及不同模态或缺少传感器信息的情况,从而支持测试时的模态切换。
场景统一
:它为通过不同传感器收集的多样化场景提供了一个统一的 多模态模型架构。
3、方法
OV-Uni3DETR是一个统一的开放词汇3D目标检测器,具有以下关键特点:
图2:OV-Uni3DETR。提取点云和图像的特征。转换到相同的体素空间后,将它们添加到多模态特征中。3D检测变压器最终用于类和框预测。我们执行从 2D到3D的语义知识传播,以发现新的类。为了使用2D检测图像,我们预测相机外在参数,并通过类别无关(CA)3D检测器将几何知识从3D传播到2D
多模态学习
:OV-Uni3DETR在训练时同时利用点云、带3D框标注的3D检测图像和仅带2D框标注的2D检测图像,以增强训练的多样性。此外,引入了2D检测图像,尤其是对于开放词汇3D检测具有显著优势。
测试时模态切换
:经过多模态学习,OV-Uni3DETR可以适应任何模态的数据输入,实现测试时的模态切换。
统一的多模态架构
:OV-Uni3DETR为室内外场景提供了一个统一的多模态模型架构。
循环模态传播
:OV-Uni3DETR提出了循环模态传播的概念,旨在传播2D和3D模态之间的知识。具体而言,2D语义知识指导3D域中新类的发现,而3D几何知识为2D检测图像提供定位监督。
优势表现
:OV-Uni3DETR在开放词汇3D检测任务中表现优异,相较于先前的方法,其性能有显著提升。同时,其在闭词汇3D检测中也展现出强大性能。
综上所述,OV-Uni3DETR是一个统一的开放词汇3D目标检测器,通过多模态学习和循环模态传播,实现了模态统一、场景统一和开放词汇学习,是迈向通用3D目标检测的重要一步。
4、实验
这部分主要进行了以下实验:
开放词汇3D目标检测
:
在室内SUN RGB-D和ScanNet数据集上进行评估,结果表明OV-Uni3DETR在点云输入下能够检测新类别,AP较之前方法提高6%以上。
在室外KITTI和nuScenes数据集上进行评估,结果表明OV-Uni3DETR在室外场景下同样能够检测新类别。
提供了可视化结果,展示了OV-Uni3DETR在室内外场景下检测新类别目标的能力。
封闭词汇3D目标检测
:
在室内SUN RGB-D数据集上进行评估,结果显示OV-Uni3DETR的性能优于之前的单模态方法。
在室外KITTI数据集上进行评估,结果表明OV-Uni3DETR的性能优于其他单目3D检测方法。
ablation study
:
分析了循环模态传播和多模态学习的影响,验证了这两个设计对模型性能的改进作用。
更多定量结果
:
在ScanNet多视角设置下进行了评估,结果显示OV-Uni3DETR的性能优于其他方法。
分析了不同2D检测图像数据集对模型性能的影响,结果表明数据集类别越丰富,对3D开放词汇检测的性能提升越显著。
更多可视化结果
:
提供了更多在SUN RGB-D、ScanNet和KITTI数据集上的可视化结果,展示了OV-Uni3DETR检测新类别目标的能力。
这部分通过在不同数据集、不同设置下进行充分的实验,全面验证了OV-Uni3DETR模型的优越性能。
5、总结
本文介绍了一种名为OV-Uni3DETR的统一开放词汇3D目标检测器。该检测器通过多模态学习和循环模态传播来实现对未知类别3D目标的检测。具体而言,该检测器在训练过程中使用点云、3D检测图像和2D检测图像进行多模态训练。同时,利用2D开放词汇检测器生成的2D边界框投影到3D空间,以传播语义知识,并利用类无关的3D检测器生成3D边界框,以传播几何知识。实验结果表明,OV-Uni3DETR在室内外场景下,对不同模态输入,都能有效地检测未知类别3D目标,并在开放词汇3D检测任务上取得了最先进的结果。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程:
3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。
▲长按扫码学习3D视觉精品课程
3D视觉学习圈子
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。