点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:计算机视觉工坊
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
近几十年来,自动驾驶(AD)算法取得了显著进展。这些进展从模块化的处理流程转变为端到端模型,后者在一个统一的流程中直接从原始传感器数据规划轨迹。然而,由于预测动态环境时缺乏足够的世界知识,这些方法在泛化能力和安全稳健性方面存在不足。
另一方面,为了嵌入世界知识并模拟驾驶环境的真实物理特性,近期的研究工作引入了世界模型以促进可扩展的自动驾驶。然而,这些工作大多主要关注世界模型的数据生成或预训练范式,而忽视了端到端规划中安全性和稳健性的提升。例如,许多研究旨在通过世界模型生成高保真度的驾驶视频,为下游训练提供额外数据。最近的ViDAR通过预测来自历史视觉输入的点云来预训练视觉编码器,从而提高了以视觉为中心的3D检测和分割等下游任务的性能。因此,我们认为将世界模型的未来预测能力与端到端规划相结合仍然是一个值得探索的领域。
在本研究中,我们探讨了使用世界模型进行4D预测和规划,以实现未来状态预测和端到端规划。基于不同的自我动作,世界模型能够设想各种未来情况,使代理能够提前预测潜在结果。世界模型利用历史观测和不同的自我动作,预测不同动作条件下的环境未来状态。随后,规划器采用同时考虑安全性和环境3D结构的成本函数,选择最合适的轨迹,使代理能够在各种情况下有效导航。最后,预测的未来状态和选定的最优轨迹可以被重新引入世界模型进行下一次迭代,从而实现连续的未来预测和轨迹规划。我们通过实验证明,利用世界模型的未来预测能力可以增强规划器的泛化能力和安全稳健性,同时提供更可解释性的决策制定。
具体而言,我们提出了Drive-OccWorld,一个以视觉为中心的自动驾驶4D预测和规划世界模型。我们的Drive-OccWorld具有三个关键特点:(1)通过4D占用预测理解世界如何演变。Drive-OccWorld基于累积的历史经验预测合理的未来状态。它包括三个关键组件:一个历史编码器,用于编码多视图几何鸟瞰图(BEV)嵌入;一个内存队列,用于累积历史信息;一个未来解码器,通过时空建模预测占用和流动。此外,我们还引入了语义和运动条件归一化,以聚合重要特征。(2)基于动作条件生成各种未来状态。我们纳入了一套灵活的动作条件(如速度、方向盘角度、轨迹和高级命令),这些条件通过统一接口编码并注入到世界解码器中,增强了世界模型的动作可控生成能力。(3)与世界模型一起规划轨迹。由于世界模型可以预测未来的占用和流动,提供包括代理和背景元素精细状态在内的感知和预测结果,我们进一步设计了一个规划器,基于综合的占用成本函数选择最优轨迹。
我们在nuScenes数据集上评估了Drive-OccWorld在以视觉为中心的占用和流动预测以及轨迹规划方面的性能。在预测可移动对象的连续占用及其3D向后向心力流动方面,Drive-OccWorld在mIoUf上比先前方法高出2.0%,在VPQf上高出1.9%。在基于OpenOccupancy基准(Wang等人,2023c)预测可移动和静态对象的占用方面,它在mIoUf上取得了1.1%的提升。轨迹规划实验也表明,Drive-OccWorld可用于安全的运动规划。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving
作者:Yu Yang, Jianbiao Mei, Yukai Ma, Siliang Du, Wenqing Chen, Yijie Qian, Yuxiang Feng, Yong Liu
机构:浙江大学、华为
原文链接:https://arxiv.org/abs/2408.14197
2. 摘要
世界模型基于各种自我行为预测潜在的未来状态。它们嵌入了关于驾驶环境的广泛知识,有助于实现安全且可扩展的自动驾驶。目前大多数方法主要侧重于数据生成或世界模型的预训练范式。与上述先前工作不同,我们提出了Drive-OccWorld,它将以视觉为中心的4D预测世界模型应用于自动驾驶的端到端规划。具体而言,我们首先在内存模块中引入语义和运动条件归一化,该模块从历史鸟瞰图(BEV)嵌入中累积语义和动态信息。然后,将这些BEV特征传递给世界解码器,以进行未来占用和流量预测,同时考虑几何和时空建模。此外,我们提出将灵活的动作条件(如速度、转向角、轨迹和命令)注入世界模型,以实现可控生成并促进更广泛的下游应用。进一步地,我们探索将4D世界模型的生成能力与端到端规划相结合,利用基于占用的成本函数实现未来状态的连续预测和最优轨迹的选择。在nuScenes数据集上进行的大量实验表明,我们的方法可以生成合理且可控的4D占用,为驾驶世界生成和端到端规划开辟了新途径。
3. 效果展示
4. 主要贡献
我们的主要贡献可以概括为以下几点:
• 我们提出了Drive-OccWorld,一个以视觉为中心的世界模型,用于预测4D占用和流动,并探索了将世界模型的未来预测能力与端到端规划相结合的方法。
• 我们设计了一个简单而高效的语义和运动条件归一化模块,用于语义增强和运动补偿,提高了预测和规划性能。
• 我们提供了一个统一的条件接口,将灵活的动作条件融入未来生成中,增强了Drive-OccWorld的可控性,并促进了更广泛的下游应用。
5. 基本原理是啥?
如图2所示,Drive-OccWorld由三个组件组成:(1)历史编码器WE,它接收历史相机图像作为输入,提取多视图几何特征,并将其转换为BEV嵌入。我们遵循之前的工作,使用视觉BEV编码器作为我们的历史编码器。(2)带有语义和运动条件归一化的内存队列WM,它在潜在空间中采用简单而高效的归一化操作来聚合语义信息并补偿动态运动,从而累积更具代表性的BEV特征。(3)世界解码器WD,它通过历史特征的时序建模提取世界知识,以预测未来的语义占用和流动。灵活的动作条件可以被注入到WD中进行可控生成。集成了一个基于占用的规划器P,以实现连续预测和规划。
6. 实验结果
7. 总结 & 未来工作
我们提出了Drive-OccWorld,这是一个用于自动驾驶的4D占用预测和规划世界模型。该世界模型可以注入灵活的动作条件,以实现动作可控的生成,从而促进更广泛的下游应用。我们将基于占用的规划器与世界模型相结合,用于运动规划,同时考虑安全性和环境的3D结构。实验表明,我们的方法在占用和流量预测方面表现出色。通过利用世界模型积累世界知识和预见未来状态的能力,改进了规划结果,从而提高了端到端规划的安全性和鲁棒性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门