专栏名称: 泡泡机器人SLAM
SLAM的最新资讯,干货内容。
目录
相关文章推荐
电池cbu  ·  LG 新能源:为 Bear ... ·  3 天前  
新机器视觉  ·  手搓ROS应用 | 全局规划与局部避障系统 ·  5 天前  
新机器视觉  ·  手搓ROS应用 | 全局规划与局部避障系统 ·  5 天前  
51好读  ›  专栏  ›  泡泡机器人SLAM

【泡泡点云时空】DETR3D:一种基于DETR的3维物体检测算法

泡泡机器人SLAM  · 公众号  · 机器人  · 2023-06-09 06:30

正文

泡泡点云时空,带你精读点云领域顶级会议文章

标题:DETR3D: 3D Object Detection

from Multi-view Images via 3D-to-2D Queries

作者:Yue Wang,Vitor Guizilini*,Tianyuan Zhang*,Yilun Wang,Hang Zhao,Justin Solomon 

来源:CORL2021

编译:玉玺

审核:阮建源 王志勇

这是点云时空推送的第306篇推文,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权,同时欢迎留言交流,大家的支持和鼓励是我们前进的动力。

要点

    facebook提出的DETR目标检测算法在研究领域中火热,本篇文章是清华大学与MTI合作的发表在CORL2021的对DETR扩展的算法,实现了3D的物体检测。但是本算法并不是基于激光点云或者伪激光(pseudo-LiDAR)的,而是直接基于多相机的照片来检测物体的3D包围盒。同时算法继承了DETR算法的优点,无需做繁杂的后处理如非极大值抑制(NMS),以及使用了多头注意力来提升算法效果等,该算法曾经(2021年10月)在nuScenes数据集上达到了第一的成绩。

主要创新点

1、直接在3D空间中预测3D包围盒,而无需估计物体的深度或者做三维重建。

2、利用多相机将预测的3D包围盒特征投影到所有可以投影的图像帧上来做估计;

3、将DETR拓展到3D­应用场景;

算法流程

图1 算法架构图

Encoder:

    从图1中可以看到算法的输入是车身四周相机采集到的照片以及相机的内外参。使用ResNet作为Encoder对图像做特征编码,然后又接了一个FPN来获得多尺度特征。

Decoder:

    2D特征与3D预测框的转换就是在这里实现的。图1中Object Queries即为初始化的3D框,经过self-attention的到预测的3D reference point信息,即Cli,论文中说明,预测的3D信息主要包括  :BEV坐标系下的包围盒的中心位置,大小,朝向角以及速度。这个过程由图1中的蓝色路径表示。

    由于预测的3D reference point信息是在BEV坐标系下的,因此需要借助相机的内外参数将其转换到图像坐标系下得到Clmi,也就是3D转到2D,是图1中绿色路径;

    现在需要将图像空间中的Clmi对应到FPN后多尺度图层上,而映射到多尺度特征图时极有可能找不到对应的特征点,因此作者采用了双线型插值,来使3D reference point对应到不同的特征图层上,这个过程就是图1中的黄色路径

    将映射后得到的图像特征再与Object query做cross-attention,来优化Object query的结果。这个过程就是图1的红色路径

Loss:

    Loss的计算作者是沿用了DETER中的set-to-set loss的方法,所谓的set-to-set其实就是集合对集合,需要将Object query中预测得到的框的集合与真值的框的集合做匹配,这是一个典型的二部图匹配问题,作者采用了匈牙利匹配来实现的这个过程。

算法效果

    在nuScenes数据集上,在不使用NMS的情况下,大部分指标都比FCOS3D要好,但是mATE要大于FCOS3D,作者觉得可能是FCOS3D直接预测了BoundingBox的深度所以mATE会更好一些。

总结

    对于想要在BEV下基于环视图像做3D物体检测的同学有参考意义,本篇文章延续了DETER算法的优点,即不需要做NMS后处理,简化了过程与计算量,同时避免了三维重建这种大量消耗计算的事情,作者直接对BoundingBox的三维信息做预测,通过相机的内外参数转换到图像空间,做法相对轻量,是一个比较好的启示。

参考资料

1.https://zhuanlan.zhihu.com/p/504294965

2.https://zhuanlan.zhihu.com/p/430198800

3.https://www.techbeat.net/article-info?id=3495

Abstract

    We introduce a framework for multi-camera 3D object detection. Incontrast to existing works, which estimate 3D bounding boxes directly frommonocular images or use depth prediction networks to generate input for 3D ob-ject detection from 2D information, our method manipulates predictions directlyin 3D space. Our architecture extracts 2D features from multiple camera imagesand then uses a sparse set of 3D object queries to index into these 2D features,linking 3D positions to multi-view images using camera transformation matrices.Finally, our model makes a bounding box prediction per object query, using aset-to-set loss to measure the discrepancy between the ground-truth and the pre-diction. This top-down approach outperforms its bottom-up counterpart in whichobject bounding box prediction follows per-pixel depth estimation, since it doesnot suffer from the compounding error introduced by a depth prediction model.Moreover, our method does not require post-processing such as non-maximumsuppression, dramatically improving inference speed. We achieve state-of-the-artperformance on the nuScenes autonomous driving benchmark.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号。

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/bbs/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!


商业合作及转载请联系[email protected]