0. 这篇文章干了啥?
近年来,自动驾驶技术取得了显著进展,但仍面临诸多挑战。首先,训练一个可靠的自动驾驶系统需要大量的精确标注数据,这既消耗资源又耗时。因此,探索如何在自监督学习范式下利用未标注的多模态传感器数据至关重要。此外,一个可靠的自动驾驶系统不仅需要感知环境的能力,还需要对环境信息进行全面理解以支持决策制定。
我们认为,解决这些挑战的关键在于为自动驾驶构建一个多模态世界模型。通过建模环境,世界模型能够预测未来的状态和行为,从而使自动驾驶代理能够做出更复杂的决策。最近,一些世界模型已经展示了它们在自动驾驶中的实际意义。然而,大多数方法都是基于单一模态的,无法适应当前的多传感器、多模态自动驾驶系统。由于多模态数据的异构性,如何将其整合到一个统一的生成模型中,并无缝地适应下游任务,仍然是一个未解决的问题。
在本文中,我们介绍了BEVWorld,这是一个多模态世界模型,它能够将多样化的多模态数据转换为统一的鸟瞰图(BEV)表示,并在这个统一的空间内进行动作条件未来预测。我们的BEVWorld由两部分组成:一个多模态标记器网络和一个潜在的BEV序列扩散网络。
多模态分词器的核心能力在于将原始的多模态传感器数据压缩到统一的鸟瞰图(BEV)潜在空间中。这是通过将视觉信息转换为3D空间,并利用自编码器结构以自监督的方式将视觉语义信息与激光雷达几何信息进行对齐来实现的。为了逆转这一过程并重构多模态数据,我们从BEV潜在表示中构建了一个3D体积表示,使用基于光线的渲染技术来预测高分辨率图像和点云。
潜在BEV序列扩散网络旨在预测图像和点云的未来帧。在多模态分词器的帮助下,这项任务变得更容易,从而实现了准确的未来BEV预测。具体来说,我们使用了一种基于扩散的方法,该方法结合了时空变换器,根据动作条件将连续的带噪声BEV潜在表示转换为清晰的未来BEV预测。
下面一起来阅读一下这项工作~
1. 论文信息
标题:BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space
作者:Yumeng Zhang, Shi Gong, Kaixin Xiong, Xiaoqing Ye, Xiao Tan, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang
机构:百度
原文链接:https://arxiv.org/abs/2407.05679
代码链接:https://github.com/zympsyche/BevWorld
2. 摘要
世界模型(World models)因其能够预测潜在未来场景的能力,在自动驾驶领域正受到越来越多的关注。在本文中,我们提出了BEVWorld,这是一种将多模态传感器输入编码成统一且紧凑的鸟瞰图(Bird’s Eye View, BEV)潜在空间以进行环境建模的新方法。该世界模型由两部分组成:多模态编码器(tokenizer)和潜在BEV序列扩散模型(latent BEV sequence diffusion model)。多模态编码器首先编码多模态信息,解码器则能够通过自监督的射线投射渲染方式,将潜在BEV标记重建为激光雷达(LiDAR)和图像观测。然后,潜在BEV序列扩散模型在给定的动作标记作为条件下,预测未来场景。实验证明了BEVWorld在自动驾驶任务中的有效性,展示了其生成未来场景的能力,并对下游任务(如感知和运动预测)产生积极影响。代码将发布在https://github.com/zympsyche/BevWorld。
3. 主要贡献
• 我们引入了一种新颖的多模态分词器,将视觉语义和3D几何信息整合到统一的BEV表示中。我们创新性地应用了一种基于渲染的方法来从BEV恢复多传感器数据,从而确保了BEV表示的质量。通过消融研究、可视化和下游任务实验验证了BEV表示的有效性。
• 我们设计了一个基于潜在扩散的世界模型,能够同步生成未来的多视图图像和点云。在nuScenes和Carla数据集上进行了广泛的实验,展示了多模态数据在未来预测方面的领先性能。
4. 基本原理是啥?
在本节中,我们详细阐述了BEVWorld的模型结构。整体架构如图1所示。给定一系列多视图图像和激光雷达观测序列{ot−P, ..., ot−1, ot, ot+1, ..., ot+N},其中ot为当前观测,+/−分别代表未来/过去的观测,P/N分别为过去/未来观测的数量,我们的目标是基于条件{ot−P, ..., ot−1, ot}来预测{ot+1, ..., ot+N}。鉴于在原始观测空间中学习世界模型的高计算成本,我们提出了一种多模态分词器,它按帧将多视图图像和激光雷达信息压缩到统一的BEV空间中。编码器-解码器结构和自监督重建损失确保了BEV表示中恰当地存储了几何和语义信息。这种设计正好为世界模型和其他下游任务提供了一个足够简洁的表示。我们的世界模型被设计为一个基于扩散的网络,以避免像自回归模型那样出现误差累积的问题。它以自我运动和{xt−P, ..., xt−1, xt}(即{ot−P, ..., ot−1, ot}的BEV表示)为条件,来学习在训练过程中添加到{xt+1, ..., xt+N}上的噪声{ϵt+1, ..., ϵt+N}。在测试过程中,我们使用DDIM调度器从纯噪声中恢复未来的BEV标记。接下来,我们使用多模态分词器的解码器来渲染未来的多视图图像和激光雷达帧。
5. 实验结果
多种输入模态和输出模态。所提出的多模态分词器支持多种输入和输出模态的选择。我们测试了不同模态的影响,结果如表1所示,其中L表示激光雷达模态,C表示多视角相机模态,L&C表示多模态。激光雷达和相机的结合实现了最佳的重建性能,这表明使用多模态可以生成更好的鸟瞰图(BEV)特征。我们发现,在比较真实图像和预测图像时,峰值信噪比(PSNR)指标存在一定程度的失真。这是由于PSNR指标的均值特性造成的,它不能很好地评估锐化和模糊效果。
渲染方法。为了将鸟瞰图(BEV)特征转换为多个传感器数据,主要挑战在于不同传感器的位置和方向各不相同,以及成像(点和像素)的差异。我们比较了两种类型的渲染方法:a) 基于注意力的方法,该方法通过全局注意力机制在模型参数中隐式编码几何投影;b) 基于射线的采样方法,该方法明确利用传感器的姿态信息和成像几何。方法(a)和(b)的结果如表2所示。方法(a)在多视图重建中面临显著的性能下降,这表明我们基于射线的采样方法降低了视图转换的难度,使其更容易实现训练收敛。因此,我们采用基于射线的采样方法来生成多个传感器数据。
运动预测。我们进一步验证了将我们的方法作为预训练模型在运动预测任务中的性能。我们将运动预测头附加到3D检测头上。运动预测头由6层交叉注意力(CA)和前馈网络(FFN)堆叠而成。对于第一层,轨迹查询是从3D检测头中选出的前200个最高分对象查询中初始化的。然后,对于每一层,轨迹查询首先在交叉注意力中与时间鸟瞰图未来数据进行交互,并通过前馈网络进一步更新。我们重用了3D检测头中的匈牙利匹配结果来配对轨迹的预测值和真实值。我们预测了五种可能的轨迹模式,并选择最接近真实值的轨迹进行评估。对于训练策略,我们在8个A100 GPU上训练了24个周期,初始学习率为1e−4。其他设置与检测配置保持一致。我们在表3中展示了运动预测结果。在预训练阶段使用分词器时,我们观察到在两帧设置下,最小平均位移误差(minADE)减少了0.455米,最小最终位移误差(minFDE)减少了0.749米。这一发现证实了自监督多模态分词器预训练的有效性。
6. 总结 & 未来工作
我们提出了BEVWorld,一个创新的自动驾驶框架,它利用统一的鸟瞰图(Bird’s Eye View, BEV)潜在空间来构建多模态世界模型。BEVWorld的自监督学习范式使其能够高效地处理大量未标记的多模态传感器数据,从而对驾驶环境进行全面理解。我们在下游自动驾驶任务中验证了BEVWorld的有效性。此外,BEVWorld利用潜在扩散网络在多模态未来预测方面取得了令人满意的结果,并在真实世界(nuScenes)和模拟(carla)数据集上进行了实验,展示了其能力。我们希望本文所做的工作能够激发并促进自动驾驶领域世界模型未来的发展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
这里给大家推荐一门我们工坊推出的课程
《
为什么说BEV和Occupancy仍然是自动驾驶的核心?
》
: