0. 这篇文章干了啥?
传统的自动驾驶系统以顺序的模块化任务为特点。尽管在解释和错误跟踪方面具有优势,但它不可避免地会在连续的模块之间造成信息丢失和累积误差,从而限制了系统的最佳性能潜力。
最近,一种端到端的驾驶范式作为一个有前景的研究方向出现。这种范式将所有任务整合到一个整体模型中,并可以针对最终的规划追求进行优化。然而,现有的方法在性能和效率方面并不令人满意。一方面,以前的方法依赖于计算成本高昂的BEV(鸟瞰图)特征。另一方面,预测和规划的直接设计限制了模型性能。我们将以前的方法总结为BEV中心范式。
为了充分利用端到端范式的潜力,我们回顾了现有方法的任务设计,并认为在运动预测和规划之间共享的以下三个主要并行点被忽视了:(1) 运动预测和规划都旨在预测周围代理和自身车辆的未来轨迹,因此都应考虑道路代理之间的高阶和双向交互。然而,以前的方法通常对运动预测和规划采用顺序设计,忽略了自身车辆对周围代理的影响。(2) 对未来轨迹的准确预测需要场景理解的语义信息和预测代理未来运动的几何信息,这既适用于运动预测也适用于规划。虽然这些信息在上游的感知任务中为周围代理所提取,但对于自身车辆来说却被忽视了。(3) 运动预测和规划都是具有固有不确定性的多模态问题,但以前的方法只预测确定性轨迹进行规划。
为此,我们提出了SparseDrive,一种以稀疏为中心的范式。具体来说,SparseDrive由一个对称的稀疏感知模块和一个并行的运动规划器组成。通过解耦的实例特征和几何锚点作为实例(一个动态道路代理或静态地图元素)的完整表示,对称稀疏感知使用对称的模型架构统一了检测、跟踪和在线映射任务,学习了一个完全稀疏的场景表示。在并行运动规划器中,首先从自我实例初始化模块中获得一个具有语义和几何感知的自我实例。利用来自稀疏感知的自我实例和周围代理实例,同时进行运动预测和规划,为所有道路代理获取多模态轨迹。为了确保规划的合理性和安全性,采用了一种包含碰撞感知重评分模块的分层规划选择策略,从多模态轨迹提案中选择最终的规划轨迹。
通过上述有效的设计,SparseDrive释放了端到端自动驾驶的巨大潜力。没有额外的花哨手段,我们的基础模型SparseDrive-B显著降低了平均L2误差19.4%(从0.72米降至0.58米),并将碰撞率降低了71.4%(从0.21%降至0.06%)。与之前最先进的方法UniAD[15]相比,我们的小型模型SparseDrive-S在所有任务中都取得了卓越的性能,同时训练速度提高了7.2倍(20小时对比144小时),推理速度提高了5.0倍(9.0 FPS对比1.8 FPS)。
下面一起来阅读一下这项工作~
1. 论文信息
标题:SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
作者:Wenchao Sun, Xuewu Lin, Yining Shi, Chuang Zhang, Haoran Wu, Sifa Zheng
机构:清华大学、地平线
原文链接:https://arxiv.org/abs/2405.19620
代码链接:https://github.com/swc-17/SparseDrive
2. 摘要
传统的模块化自动驾驶系统被解耦成不同的独立任务,如感知、预测和规划,这导致跨模块的信息丢失和误差累积。相比之下,端到端范式将多任务统一到一个完全可微的框架中,允许以规划为导向的优化。尽管端到端范式具有巨大潜力,但现有方法的性能和效率并不理想,尤其是在规划安全性方面。我们认为这是由于计算成本高昂的BEV(鸟瞰图)特征和预测与规划的直接设计导致的。为此,我们探索了稀疏表示,并回顾了端到端自动驾驶的任务设计,提出了一种名为SparseDrive的新范式。具体来说,SparseDrive由一个对称的稀疏感知模块和一个并行的运动规划器组成。稀疏感知模块通过对称的模型架构将检测、跟踪和在线地图统一起来,学习驾驶场景的完全稀疏表示。对于运动预测和规划,我们回顾了这两个任务之间的巨大相似性,导致了对运动规划器的并行设计。基于这种并行设计,我们将规划建模为多模态问题,提出了一种分层规划选择策略,该策略结合了碰撞感知的重评分模块,以选择合理且安全的轨迹作为最终的规划输出。通过这种有效的设计,SparseDrive在所有任务的性能上都大幅超越了之前的最先进方法,同时实现了更高的训练和推理效率。代码将在https://github.com/swc-17/SparseDrive上公开,以促进未来的研究。
3. 效果展示
各种端到端范式的比较。(a) 以纯电动汽车为中心的范式。(b) 提出的稀疏中心范式。(c) (a)和(b)之间的性能和效率比较。
4. 主要贡献
我们工作的主要贡献总结如下:
我们探索了稀疏场景表示在端到端自动驾驶中的应用,并提出了一种名为SparseDrive的以稀疏为中心的范式,该范式通过稀疏实例表示统一了多个任务。
我们重新审视了运动预测和规划之间存在的巨大相似性,相应地导致了一种针对运动规划器的并行设计。我们进一步提出了一种结合碰撞感知重评分模块的分层规划选择策略,以提高规划性能。
在具有挑战性的nuScenes基准测试中,SparseDrive在所有指标上都超越了先前的SOTA方法,尤其是在安全关键指标碰撞率方面,同时保持了更高的训练和推理效率。
5. 基本原理是啥?
SparseDrive的总体框架如图2所示。具体来说,SparseDrive由三部分组成:图像编码器、对称稀疏感知和并行运动规划器。给定多视图图像,图像编码器(包括主干网络和颈部)首先将图像编码为多视图多尺度特征图I =
Is ∈ RN×C×Hs×Ws
,其中S是尺度的数量,N是摄像机视图的数量。在对称稀疏感知模块中,特征图I被聚合成两组实例,以学习驾驶场景的稀疏表示。这两组实例分别代表周围的代理和地图元素,被输入到并行运动规划器中与初始化的自我实例进行交互。运动规划器同时预测周围代理和自我车辆的多模态轨迹,并通过分层规划选择策略选择一条安全轨迹作为最终的规划结果。
如图3所示,稀疏感知模块的模型结构表现出结构对称性,将检测、跟踪和在线建图统一在一起。
并行运动规划器由三个部分组成:自我实例初始化、时空交互和层次规划选择。
6. 实验结果
感知
。在表1a的3D检测中,SparseDrive实现了49.6%的mAP和58.8%的NDS,与UniAD相比,mAP提高了+11.6%,NDS提高了+9.0%,实现了显著的改进。在表1b的多目标跟踪中,SparseDrive实现了50.1%的AMOTA和最低的ID切换次数632,在AMOTA方面比UniAD高出+14.2%,并将ID切换减少了30.2%,展示了轨迹跟踪的时间一致性。在表1c的在线地图构建中,SparseDrive的mAP为56.2%,也比先前的端到端方法VAD高出+8.6%。
预测
。在表2a的运动预测中,SparseDrive以0.60m的minADE、0.96m的minFDE、13.2%的MissRate和0.555的EPA取得了最佳性能。与UniAD相比,SparseDrive在minADE和minFDE上的误差分别降低了15.5%和5.9%。
规划
。在表2b的规划任务中,SparseDrive在所有方法中取得了显著的规划性能,具有最低的0.58m的L2误差和0.06%的碰撞率。与先前的SOTA方法VAD相比,SparseDrive的L2误差降低了19.4%,碰撞率降低了71.4%,这证明了我们方法的有效性和安全性。
效率
。如表3所示,除了出色的性能外,SparseDrive在训练和推理方面也实现了更高的效率。使用相同的骨干网络,我们的基础模型在训练上比UniAD快4.8倍,在推理上快4.1倍。我们的轻量级模型在训练和推理上分别可以实现7.2倍和5.0倍的加速。
7. 总结 & 未来工作
在这项工作中,我们探索了稀疏场景表示,并回顾了端到端自动驾驶领域的任务设计。所产生的端到端范式SparseDrive在性能和效率上都取得了显著成果。我们希望SparseDrive的出色表现能够激发社区重新思考端到端自动驾驶的任务设计,并推动该领域的技术进步。
我们的工作仍然存在一些限制。首先,我们的端到端模型在性能上仍然落后于单任务方法,例如在线地图绘制任务。其次,数据集的规模不足以充分发挥端到端自动驾驶的全部潜力,并且开环评估无法全面反映模型性能。我们将这些问题留待未来探索。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com