0. 这篇文章干了啥?
单目3D车道检测,即从单张图像中估计车道标记的3D坐标,是自动驾驶系统中的一项基本任务。尽管基于激光雷达(LiDAR)的方法在许多3D感知任务中取得了显著进展,但由于几个关键优势,单目相机在3D车道检测中越来越受欢迎。这些优势包括成本更低、相比激光雷达具有更优越的感知范围,以及能够捕获具有详细纹理的高分辨率图像,这对于识别狭窄且细长的车道标记至关重要。此外,基于深度学习的2D车道检测在各种基准测试中表现强劲,推动了该领域的积极研究,凸显了在3D车道检测中实现类似突破的潜力。然而,2D图像中缺乏深度信息使得这项任务尤其具有挑战性。因此,从2D图像中准确推导出3D车道信息仍然是研究和开发的重要焦点。
最近,随着对鸟瞰图(BEV)表示的关注日益增加,BEV车道检测和3D车道检测的研究也激增。为了应对缺乏深度信息所带来的挑战,一些研究试图对车道所在的地面进行建模。例如,Pers-Former等方法对2D图像或从2D图像中提取的特征应用逆透视变换(IPM),实现空间变换并创建用于3D车道检测的BEV特征,如图1(a)所示。然而,在真实场景中,地面具有不同的坡度和高程,这些假设地面平坦的方法容易导致2D特征与变换后的BEV特征之间的不对齐。为了解决这个问题,如图1(b)所示的LATR等模型将Transformer应用于3D车道检测,通过位置编码纳入地面信息,旨在为特征提供更准确的空间上下文。尽管如此,仅使用俯仰角和高度来预测地面实际上将其视为一个2自由度(2-DoF)问题,这仍然会遇到不对齐问题,特别是在地面坡度不一致的场景中,如从平坦区域过渡到倾斜区域。
推荐学习:
深度剖析面向自动驾驶领域的车载传感器空间同步(标定)
为了解决简单地面建模导致的不对齐问题,我们提出了HeightLane,这是一种如图1(c)所示的地面建模直接方法。HeightLane为地面创建一个预定义的BEV网格,并在该网格上生成多个高度图锚点,假设不同的坡度。然后,将这些高度图锚点投影回图像上以采样前视特征,从而使模型能够高效地预测高度图。为了更好地将每个BEV网格像素与2D前视特征对齐,将预测高度图中的高度信息添加到BEV网格查询的位置编码中。HeightLane利用预测的高度图以及可变形注意力机制,明确地将图像特征的空间变换到BEV网格上。这种方法显著减少了图像与BEV特征之间的不对齐,确保了更准确的表示和处理。通过利用高度图进行精确的地面建模,HeightLane有效地将前视特征转换为BEV特征,从而提高了3D车道检测的准确性和鲁棒性。
下面一起来阅读一下这项工作~
1. 论文信息
标题:HeightLane: BEV Heightmap guided 3D Lane Detection
作者:Chaesong Park, Eunbin Seo, Jongwoo Lim
机构:Seoul National University
原文链接:https://arxiv.org/abs/2408.08270
2. 摘要
由于深度模糊和地面建模不完善,从单目图像中准确检测三维车道面临着重大挑战。以往对地面的建模尝试往往采用平面地面假设,且自由度有限,这使得它们不适合用于具有不同坡度的复杂道路环境。本研究引入了一种创新方法HeightLane,该方法通过基于多坡度假设创建锚点来从单目图像中预测高度图。这种方法提供了地面详细且准确的表示。HeightLane利用预测的高度图,结合基于可变形注意力的空间特征变换框架,有效地将二维图像特征转换为三维鸟瞰图(BEV)特征,增强了空间理解和车道结构识别能力。此外,高度图还用于BEV特征的位置编码,进一步提高了其空间准确性。这种明确的视角转换弥合了前视感知与空间精确的BEV表示之间的差距,显著提高了检测性能。
为了解决原始OpenLane数据集中缺乏必要的真实高度图的问题,我们利用Waymo数据集并积累其激光雷达数据,为每个场景的可驾驶区域生成高度图。这些真实高度图(GT heightmaps)用于训练从单目图像中提取高度图的模块。在OpenLane验证集上进行的大量实验表明,HeightLane在F-score方面达到了最先进的性能,凸显了其在现实世界应用中的潜力。
3. 效果展示
4. 主要贡献
我们的主要贡献可以概括如下:
• 我们为车道检测的地面定义了一个BEV网格,并明确地从图像中预测该网格的高度信息。与以往预测物体高度的研究不同,我们的方法是首次明确预测地面高度以用于3D车道检测。
• 我们提出了一个利用高度图在2D图像特征和BEV特征之间进行有效空间变换的框架。高度图显著减少了2D图像特征和BEV特征之间的不对齐。
• 我们在OpenLane数据集上验证了HeightLane的性能,这是3D车道检测中最有前景的基准测试之一。HeightLane在OpenLane验证集上获得了最高的F-score,在多个场景中显著超越了先前的最先进模型。
5. 基本原理是啥?
图2展示了所提出HeightLane方法的整体架构,并对其进行了描述。给定一个RGB前视图图像I ∈ RH×W×3,其中H和W分别表示输入图像的高度和宽度,我们利用ResNet-50 [5]卷积神经网络(CNN)主干网络来提取前视图特征FFV。然后,结合一个预定义的鸟瞰图(BEV)网格B ∈ RH′×W′,其中H′和W′分别表示相对于自车(ego vehicle)的纵向和横向范围,该网格代表地面,并与高度提取模块一起从前视图特征中提取高度信息,生成高度图。
基于之前PersFormer研究的见解,我们提出了一种高度图引导的空间特征变换框架。该框架基于PersFormer中的观察结果,即二维前视图特征可以作为键(key)和值(value),而BEV特征可以作为可变形交叉注意力(deformable cross-attention)中的查询(query)。原始的PersFormer研究假设地面是平坦的,并使用逆透视映射(IPM)将前视图特征转换为BEV特征查询。相比之下,我们的方法使用高度图来预测预定义BEV网格B内的高度,这使得我们能够在不依赖平坦地面假设的情况下,将每个BEV特征查询与对应的前视图特征进行匹配,从而更有效地执行可变形注意力。这些变换后的BEV特征FBEV随后通过车道检测头进行处理,该检测头遵循中的基于关键点的表示方法,最终产生三维车道输出
6. 实验结果
7. 总结 & 未来工作
综上所述,本工作通过采用新颖的高度图方法改进深度模糊和地面建模,解决了从单目图像中进行3D车道检测的关键挑战。我们的主要贡献包括:建立用于直接预测多坡度高度锚点高度图的鸟瞰图(BEV)网格,引入高度图引导的空间变换框架,并在复杂场景中实证展示了HeightLane模型的鲁棒性能。所提出的方法增强了空间理解和车道识别能力,通过高度图实现精确的三维变换,显著推动了自动驾驶车辆系统的发展。我们进行了广泛的实验,验证了模型的有效性,标志着在现实世界应用中迈出了重要的一步。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、