专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
中国中医  ·  【漫话中医】中医助你健康减重 ·  20 小时前  
中国中医  ·  【媒体聚焦】央视《新闻直播间》| ... ·  昨天  
古典文献学微刊  ·  新书 | 《重庆图书馆藏稀见期刊图录》出版 ·  3 天前  
北京厚朴中医  ·  一个周末的时间,解锁最轻便的中医技能 ·  5 天前  
北京厚朴中医  ·  周二直播 | 修身,非药物疗法的助力器 (上) ·  6 天前  
51好读  ›  专栏  ›  智驾实验室

HeightFormer 基于路边视角的语义对齐单目三维目标检测方法 !

智驾实验室  · 公众号  ·  · 2024-10-21 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

车载3D目标检测技术作为自动驾驶的关键技术受到了广泛关注,但很少有研究关注在3D交通目标检测中应用路边传感器。

现有研究通过基于 Frustum 的高度估计将2D图像特征投影到3D特征。

然而,他们并未考虑高度对齐和鸟瞰视图特征的提取效率。

作者提出了一种新颖的3D目标检测框架,该框架整合了空间前缀和 Voxel 池前缀,以增强基于高度估计的2D到3D投影。

作者使用Rope3D和DAIR-V2X-I数据集进行了大量实验,结果表明所提出的算法的车辆和自行车检测性能优于其他算法。这些结果表明,该算法在各种检测场景下都具有鲁棒性和普适性。

提高路边3D目标检测的准确性有助于构建安全、可靠的智能交通系统,实现车辆与路协同,并促进自动驾驶的大规模应用。

代码和预训练模型将在 https://anonymous.4open.science/r/HeightFormer上发布。

Introduction

自动驾驶技术作为减少交通事故和提高交通效率的新型交通技术范式,正在快速发展。感知技术是自动驾驶领域最重要的技术之一。自动驾驶车辆通过传感器获取周围环境信息,以便做出决策和采取行动[21]。

根据采用的传感器类型,感知技术可分为三类:点云感知、视觉感知和融合感知。

由于激光雷达的高成本,许多学者认为视觉感知是推动自动驾驶车辆大规模生产的主要研究方向。然而,车载摄像头受到安装高度限制,其感知范围有限,且易被周围车辆遮挡,尤其是卡车或公交车,从而导致盲区。这些盲区可能导致严重事故。

为弥补这一空白,许多研究行人开始关注路边摄像头的性能,期望为自动驾驶车辆提供准确可靠的感知结果。

路边感知由于传感器的安装位置较高,具有较宽的感知范围和较少的盲区,与车辆的感知相比具有优势。基于固定和更高安装位置的特点,路边摄像头在3D目标检测任务中具有更好的优势。在3D目标检测任务中,不仅需要分类物体,还需要获取物体在3D空间中的位置、大小、方向和速度等信息[2]。因此,许多研究者从路边视角对单目3D目标检测任务进行了研究[22, 23]。

然而,由于路边摄像头的类型和安装方法不一致,可能存在不同的焦距和像素角,并且其视角不再平行于地面。基于车辆的传统感知坐标系统不再适用于路边感知设备。这些问题给路边单目3D目标检测任务带来了许多挑战。

当前基于视觉的3D目标检测的主流方法包括利用注意力机制和采用 Frustum 投影的方法。基于注意力机制的方法主要通过在3D检测框上进行回归预测来实现检测[10]。然而,由于相机不提供图像深度信息,这种方法在3D检测中的感知精度相对较低。

Frustum 方法估算2D图像中物体的身高或深度,通过投影构建3D物体,并通过 Voxel 池化生成BEV(鸟瞰视角)特征来实现目标检测。由于 Frustum 方法具有更高的精度,且基于高度的投影可以提高算法的鲁棒性,因此作者主要开展了基于 Frustum 投影的3D目标检测任务。

路侧感知可以在未来为自动驾驶车辆提供更广泛、更精确的环境信息。然而,这需要首先解决由不同摄像头参数引起的噪声问题,并克服由于摄像头安装时的不同俯仰角导致的目标识别能力降低,即提高路侧感知的鲁棒性、准确性和可信度。

基于这些问题,作者利用面片的高度投影方法,并使用Rope3D [22]和DAIR-V2X-I [23]数据集进行了广泛的实验。与先前的方法相比,作者的方法在算法的鲁棒性和准确性方面取得了一些改进。

本文的主要贡献如下:

  1. 作者提出了一种从路边视角的单目3D目标检测方法。为了解决在融合高度特征与上下文特征时出现的空间不一致问题,本文在论文中添加了一个可变形的多尺度空间交叉注意力(DMSC)模块,以实现高度特征和背景特征的空间对齐,从而提高算法的鲁棒性。

  2. 作者在BEV特征提取过程中添加了自注意力机制,以解决BEV特征提取中低准确性的问题。该模块考虑了全局背景信息,并通过动态权重调整提高了信息提取的效率,同时在BEV特征提取过程中提高了鲁棒性。

  3. 作者通过广泛的实验来验证所提出的算法的准确性,这些实验基于流行的路边感知基准测试,即Rope3D [22]和DAIR-V2X-I [23]。在Rope3D中,与最先进的(SOTA)算法BEVHeight++ [23]相比,当交并集(IoU)为0.5时,汽车和大型车辆的检测精度分别提高了76.12%至78.49%和50.11%至60.69%。

    同时,通过比较在不同难度下的检测结果,证明了作者的方法具有鲁棒性。

Related Works

Vision-based 3D Detection for Autonomous Driving

近年来,基于视觉的3D目标检测方法因其低成本和持续提高的性能而吸引了学术界和工业界的关注 [14]。基于图像的3D检测的目标是输出输入RGB图像中的物体的类别和位置信息。

如图1所示,中间图像代表3D目标检测任务中需要获取的信息,包括物体的中心点坐标C(x, y, z),长度(L)、宽度(W)、高度(H)和物体在Y方向上的偏航角θ。右侧图像显示了物体在BEV视角下的表示。BEV视图可以更方便地服务于下游任务,即规划。

目前,基于图像的3D目标检测方法主要可以分为两类:基于 Transformer 的方法用于预测3D检测框,以及基于 Mask 的方法用于通过2D特征估计目标深度和高度。基于 Transformer 的方法的主要工作原理是通过 Query 建立3D位置特征与2D图像特征之间的联系。根据不同的 Query 目标,可以分为针对目标集的 Query [24, 25, 26]和针对BEV网格的 Query 。其中最具代表性的算法分别是DETR3D[24]和BEVFormer[11]。

基于 Transformer 的方法通常应用于多视图车载场景,而在单目路边场景中的应用效果不佳。

基于裁剪平面(Frustum Lifts)的Lift-split-shot(LSS)方法将2D图像特征提升到 Frustum 中,并将其均匀分布到BEV网格[27]上。许多后续方法都采用了LSS的思想[13, 22, 23]。

BEVDet使用LSS方法作为视图 Transformer ,将图像视图特征转换到BEV空间,并通过构建独特的数据增强方法和改进的非极大值抑制(NMS),显著提高了多摄像头3D目标检测的性能[13]。其他采用LSS方法的方法使用点云数据作为监督,估计深度和高度。

基于LSS框架改进的BEVDepth引入了显式深度监督和相机感知的深度估计模块,并设计了一个深度优化模块,以提高深度预测的准确性,从而在多视图3D目标检测任务上实现了新的最佳性能[11]。由于在路边视角下,摄像机的光学轴不平行于地面,深度估计存在许多挑战,鲁棒性相对较低。

基于路侧单目相机数据集的特征,BEVHeight通过预测像素相对于地面的身高来改进LSS方法,而不是预测深度,从而解决传统LSS方法在从路侧视角进行深度预测时的缺陷,并提高检测性能和模型在摄像头安装高度变化下的鲁棒性[23]。在此基础上,BEVHeight++通过交叉注意力机制将深度和高度估计相结合,提高车辆安装相机多视图场景下的BEVHeight性能[23]。

然而,在将高度特征和上下文特征融合时,这些方法采用像素逐像素的融合方法,并未实现空间对齐的高效性。因此,作者的框架通过DMSC模块高效地将高度和上下文特征融合。

Spatial Attention and Vision Transformer

注意力机制已在计算机视觉领域广泛应用于解决图像理解与分析中的关键区域识别问题,如图像分类、目标检测、语义分割、视频理解、图像生成、3D视觉、多模态任务以及自监督学习[14]。视觉Transformer(ViT)将图像分割为多个patch,并将这些patch视为序列中的元素。然后,使用类似于自然语言处理的标准Transformer编码器来处理patch序列[13]。

在大型数据集上进行预训练后,它在各种图像识别任务上表现出卓越的性能。随后,徐等人创新了基于ViT的非同质多智能体自注意力与多尺度窗口自注意力模块,有效改善了算法在复杂噪声环境中的3D目标检测性能[15]。

ViT框架的发展显著提升了计算机视觉算法在图像分类和3D目标检测等任务上的性能。

除了ViT,空间注意力[1]和时间注意力[16]已经被广泛应用于计算机视觉任务,以探索全局空间和时间信息,并避免卷积的局限性感知场。ViT通过交叉视图空间注意力模块提升了算法的3D目标检测性能,使得注意力机制能够聚焦于特定目标区域[1]。

为解决空间注意力机制中存在的慢收敛速度和有限空间分辨率问题,Deformable-DETR使得注意力模块仅关注参考点附近的一小部分关键采样点[13]。

考虑到作者需要将高度特征与背景特征匹配,采用了可变形的多尺度空间-空间交叉注意力模块,以高效地将高度特征和上下文特征融合,从而实现算法的性能提升。同时,通过ViT提高BEV特征提取的效率,从而提高3D目标检测的准确性。

Methodology

如图2所示,本论文提出的路边单目3D目标检测算法的整体框架。首先,输入一张固定大小的图像,通过 Backbone 网络提取其二维特征。接着,通过高度网络[15]获取图像的高度特征,并结合上下文特征和相机参数,实现融合特征,考虑相机参数和物体高度特征。

采用从二维到三维投影的方法提取3D物体,然后对3D特征进行 Voxel 池化。通过自注意力模块获得BEV特征,最终通过检测Head输出3D物体的结果。







请到「今天看啥」查看全文