专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

百度开源 BEVWorld | 利用鸟瞰图潜在空间构建多模态世界模型,实现驾驶环境全面理解 !

智驾实验室  · 公众号  ·  · 2024-07-15 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

世界模型因其在预测潜在未来情景方面的能力而在自动驾驶领域受到越来越多的关注。在本文中,作者提出了_BEVWorld_,一种新颖的方法,将多模态传感器输入标记化为统一且紧凑的鸟瞰图(BEV)潜在空间进行环境建模。

世界模型由两部分组成:多模态标记器与潜在BEV序列扩散模型。多模态标记器首先编码多模态信息,解码器能够通过自监督的射线投射渲染将潜在BEV标记重建为激光雷达和图像观测。

然后,潜在BEV序列扩散模型在给定动作标记的条件下预测未来情景。实验证明了_BEVWorld_在自动驾驶任务中的有效性,展示了其在生成未来场景方面的能力,并有利于下游任务,如感知和运动预测。

代码将可在https://github.com/zympsyche/BevWorld获取。

1 Introduction

在近年来,自动驾驶技术取得了显著进展,但仍面临几个挑战。首先,训练一个可靠的自动驾驶系统需要大量精确标注的数据,这既耗费资源又耗时。因此,探索如何在自监督学习框架内利用未标注的多模态传感器数据至关重要。此外,一个可靠的自动驾驶系统不仅需要感知环境的能力,还需要对环境信息进行全面的了解以进行决策。

作者认为解决这些挑战的关键是构建一个用于自动驾驶的多模态世界模型。通过建模环境,世界模型预测未来状态和行为,使自动驾驶代理能够做出更复杂的决策。最近,一些世界模型在自动驾驶中展示了其实际意义。然而,大多数方法基于单一模态,无法适应当前的多传感器、多模态自动驾驶系统。由于多模态数据的异质性,将它们整合到一个统一的生成模型中,并顺利适应下游任务仍然是一个未解决的问题。

在本文中,作者介绍了BEVWorld,一个将不同的多模态数据转换成统一鸟瞰图(BEV)表示,并在该统一空间内进行动作条件未来预测的多模态世界模型。

作者的BEVWorld由两部分组成:一个多模态编码器网络和一个潜在BEV序列扩散网络。

多模态编码器的核心能力在于将原始多模态传感器数据压缩到一个统一的BEV潜在空间。这是通过将视觉信息转换到3D空间,并使用自编码结构以自监督的方式将视觉语义信息与Lidar几何信息对齐来实现的。

为了反转这个过程并重建多模态数据,从BEV潜在表示构建了一个3D体积表示,并使用基于光线追踪的渲染技术[39]预测高分辨率图像和点云。

潜在BEV序列扩散网络旨在预测图像和点云的未来帧。在多模态编码器的帮助下,这一任务变得更容易,允许进行准确的未来BEV预测。具体来说,作者使用基于扩散的方法与时空 Transformer ,将顺序的噪声BEV潜在表示转换为基于动作条件的清洁未来BEV预测。

总结来说,本文的主要贡献是:

  • 作者引入了一种新颖的多模态编码器,它将视觉语义和3D几何整合到一个统一的BEV表示中。通过创新地应用基于渲染的方法从BEV恢复多传感器数据,确保了BEV表示的质量。通过消融研究、可视化以及下游任务实验验证了BEV表示的有效性。
  • 作者设计了一个基于潜在扩散的世界模型,该模型能够同步生成未来多视角图像和点云。在nuScenes和Carla数据集上的大量实验展示了多模态数据在预测性能上的领先表现。

2 Related Works

World Model

这部分主要回顾了世界模型在自动驾驶领域的应用,重点关注场景生成以及规划和控制机制。如果按关键应用分类,作者将涌现的世界模型研究分为两类。

(1)驾驶场景生成。 自动驾驶的数据收集和标注是高成本且有时危险的。相比之下,由于世界模型固有的自监督学习范式,它们找到了另一种方式来丰富无限且多样的驾驶数据。GAIA-1 [12] 采用现实世界中收集的多模态输入,根据不同的提示(例如,变化的天气、场景、交通参与者、车辆动作)以自回归预测的方式生成多样化的驾驶场景,显示了其世界理解的能力。ADriver-I [13] 将多模态大型语言模型与视频潜在扩散模型相结合,预测未来场景和控制信号,显著提高了决策的可解释性,表明世界模型作为基本模型的可行性。MUVO [3] 在视频之外整合了激光雷达点云,以图像、点云和3D占位的表示预测未来驾驶场景。进一步地,Copilot4D [42] 利用在BEV tokens上操作的离散扩散模型进行3D点云预测,而OccWorld [45] 采用类似GPT的生成式架构进行3D语义占位预测和运动规划。DriveWorld [27] 和 UniWorld [26] 将世界模型视为4D场景理解任务,用于下游任务的预训练。

(2)规划和控制。 MILE [11] 是采用基于模型的模仿学习方法,在自动驾驶中联合动力学未来环境与驾驶策略学习的开创性工作。DriveDreamer [33] 提出了一个全面的框架,利用3D结构信息(如HDMap和3D框)来预测未来驾驶视频和驾驶动作。除了单一前方视图生成,DriveDreamer-2 [44] 进一步根据用户描述生成多视角驾驶视频。TrafficBots [43] 开发了一个用于多模态运动预测和端到端驾驶的世界模型,通过促进从BEV视角的动作预测。Drive-WM [34] 生成可控多视角视频,并将世界模型应用于安全驾驶规划,根据基于图像的奖励确定最优轨迹。

Video Diffusion Model

世界模型可以被视为一个序列数据生成任务,它属于视频预测的领域。许多早期方法采用VAE[17]和自回归[6]生成未来预测。然而,VAE的生成质量不令人满意,自回归方法存在累积误差的问题。因此,许多研究者转向研究基于扩散的未来预测方法[44; 20],这些方法最近在视频生成领域取得了成功,并且能够同时预测多个未来帧。这一部分主要回顾了视频扩散模型的相关方法。

标准的视频扩散模型[10]以时间噪声为输入,采用带有时态注意力的UNet[29]获取去噪视频。然而,这种方法需要较高的训练成本,生成质量也需要进一步提高。后续方法主要是沿着这两个方向进行改进。鉴于高训练成本问题,LVDM 和Open-Sora 方法通过VAE或VideoGPT[37]等方案将视频压缩到潜在空间中,这在时空维度上减少了视频容量。为了提高视频的生成质量,稳定视频扩散[2]提出了一种多阶段训练策略,采用图像和低分辨率视频预训练来加速模型收敛并提高生成质量。GenAD  将因果 Mask 模块引入UNet中,以遵循时间因果性预测合理的未来。VDT[24]和Sora[4]用时空变换结构替换了传统的UNet。Transformer 强大的扩展能力使模型能够更好地拟合数据,并生成更合理的视频。

3 Method

在本节中,作者描述了BEVWorld模型的架构。整体架构如图1所示。给定一系列多视角图像和激光雷达观测数据 ,其中 是当前观测, 代表未来/过去观测, 是过去/未来观测的数量,作者的目标是预测 ,条件是 。鉴于在原始观测空间中学习世界模型的高计算成本,作者提出了一个多模态编码器,通过帧将多视角图像和激光雷达信息压缩到一个统一的鸟瞰图(BEV)空间中。编码器-解码器结构和自监督重建损失确保了适当的几何和语义信息能够很好地存储在BEV表示中。这种设计恰好为世界模型和其他下游任务提供了一个足够简洁的表示。作者的世界模型被设计为基于扩散的网络,以避免像自回归方式中那样的错误累积问题。它将自身运动和 ,即 的BEV表示,作为条件来学习在训练过程中添加到 的噪声 。在测试过程中,应用DDIM [32]调度器从纯噪声中恢复未来的BEV标记。接下来,作者使用多模态编码器的解码器来渲染未来的多视角图像和激光雷达帧。

Multi-Modal Tokenizer

作者设计的多模态分词器包含三部分:一个BEV编码网络、一个BEV解码网络以及一个多模态渲染网络。BEV编码网络的架构如图2所示。为了使多模态网络尽可能同质化,作者采用 Swin-Transformer  网络作为图像 Backbone 网络来提取多图像特征。对于激光雷达特征提取,作者首先在BEV空间上将点云分割成柱状体。然后使用 Swin-Transformer 网络作为激光雷达 Backbone 网络来提取激光雷达BEV特征。作者使用基于可变形的 Transformer 融合激光雷达BEV特征和多视图图像特征。具体来说,作者在柱状体的高度维度上采样 个点,并将这些点投影到图像上以采样相应的图像特征。采样的图像特征被视为值,而激光雷达BEV特征作为 Query 在可变形注意力计算中。考虑到未来预测任务需要低维输入,作者进一步将融合的BEV特征压缩成一个低维 的BEV特征。

对于BEV解码器,直接使用解码器恢复图像和激光雷达时会存在一个歧义问题,因为融合的BEV特征缺少高度信息。为了解决这个问题,作者首先通过堆叠的上采样层和swin块将BEV标记转换为3D Voxel 特征。然后使用 Voxel 化的NeRF-based光线渲染来恢复多视图图像和激光雷达点云。

多模态渲染网络可以优雅地分割为两个不同的组件,即图像重建网络和激光雷达重建网络。对于图像重建网络,作者首先得到从相机中心 射向像素中心的射线 。然后沿射线均匀采样一组点 ,其中 是沿一条射线采样的点的总数。对于一个采样的点 ,根据其位置从 Voxel 特征中得到相应的特征 。然后,将射线上所有采样的特征聚合为像素级特征描述符(方程1)。

作者遍历所有像素,并获得图像的2D特征图 。通过CNN解码器,将2D特征转换为RGB图像 。为提高生成图像的质量,添加了三种常见损失:感知损失[14]、GAN损失[8]和L1损失。作者图像重建的完整目标是:

其中 的真实值, 表示预训练的VGG[31]模型的第j层, 的定义可以在[8]中找到。

对于激光雷达重建网络,射线在球坐标系中定义,具有倾角 和方位角 。通过从激光雷达中心射向当前激光雷达点帧来获得 。作者以与图像重建相同的方式采样点并获得相应的特征。由于激光雷达编码了深度信息,因此计算采样点的预期深度 以模拟激光雷达。深度模拟过程和损失函数如方程3所示。

其中 表示从激光雷达中心到采样点的深度, 是通过激光雷达观测计算出的深度真实值。

点云的笛卡尔坐标可以通过以下方式计算:

总体来说,多模态分词器是端到端与方程5中的总损失一起训练的:

Latent BEV Sequence Diffusion

大多数现有世界模型[42; 12]采用自回归策略来获得更长时间的未来预测,但这种方法很容易受到累积误差的影响。相反,作者提出了一个潜在序列扩散框架,它输入多个噪声BEV标记的帧并同时获得所有未来的BEV标记。

图3: :多视角图像渲染的细节。沿着射线对一系列采样点应用三线性插值以获得权重 和特征 通过 加权并分别求和,得到渲染的图像特征,这些特征被连接起来并输入到解码器中进行 上采样,从而得到多视角RGB图像。 :激光雷达渲染的细节。同样应用三线性插值以获得权重 和深度







请到「今天看啥」查看全文