24年12月来自香港中文大学深圳分校、香港大学和华为诺亚的论文“An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training”。
自动驾驶领域对世界模型的兴趣日益浓厚,该模型旨在根据历史观察预测潜在的未来场景。本文介绍
DFIT-OccWorld
,这是一种高效的 3D 占用世界模型,它利用解耦动态流和图像辅助训练策略,大幅提高 4D 场景预测性能。为了简化训练过程,摒弃之前的两阶段训练策略,将占用预测问题重新表述为一个解耦的体素扭曲过程。模型通过体素流扭曲现有观测来预测未来的动态体素,而静态体素则可以通过姿势变换轻松获得。此外,该方法结合图像辅助训练范式来提高预测可靠性。具体而言,采用可微体渲染,通过预测的未来体去生成渲染的深度图,这些深度图用于基于渲染的光度一致性。实验证明该方法的有效性,展示其在 nuScenes 和 OpenScene 基准测试中针对 4D 占用预测、端到端运动规划和点云预测的性能领先。具体而言,与现有的 3D 世界模型相比,它实现最先进的性能,同时计算成本大幅降低。
3D 语义占用率对 3D 体内的占用状态和语义信息进行编码,成为描述自动驾驶 3D 场景的有效表示。基于这一概念,Zheng 提出 OccWorld [51],这是一个 3D 世界模型,可以同时预测未来的占用率并根据过去的占用率观测规划本车的轨迹。具体来说,OccWorld 采用两阶段训练策略,如图 (a) 所示:在第一阶段,矢量量化变分自编码器 (VQ-VAE) [34] 充当占用token化器,以自监督的方式学习离散场景tokens。这可以从观察占用率输入中获得高级表示。在第二阶段,4D 占用预测问题被重定义为预测码本索引的分类任务,其中时空生成式transformer被用作预测未来占用的世界模型。虽然展示有希望的结果,但 OccWorld 面临着影响其现实世界灵活性和可扩展性的限制:
为了解决 OccWorld 中发现的缺点,本文在自动驾驶中引入一种端到端 3D 占用世界模型。该框架建立在单阶段视频预测的优势和潜力之上,能够同时预测多个未来体和图像,如上图(b)所示。这种设计有利于未来预测之间的信息共享,提高结果的准确性和合理性。此外,直接预测每帧的占用率会导致不理想的性能,因为大多数体素是空的。为了解决这个问题,用占用网络预测的语义信息将体素解耦为动态和静态类别。然后,世界模型只预测动态目标的体素流并相应地扭曲这些体素。对于静态目标,由于它们的全局位置保持不变,可以通过姿势变换轻松获得它们。此外,提出一种图像辅助训练策略,在训练阶段将图像作为辅助输入。
如图所示,该方法首先将历史 3D 占用、图像序列和自我姿势输入预处理为时空tokens。然后将它们输入到跨模态时空编码器,以有效捕获模态之间的空间结构和局部时间依赖性。之后,利用各种解码器同时预测未来帧。为了促进学习过程,实施解耦动态流策略。此外,还提出一种图像辅助训练策略来增强占用预测,而不会在推理过程中产生计算负担。
Token化
3D 占用时空编码
。给定一系列历史观测的 N/h 帧,每个占用帧的 3D 占用表示为 O/i,H/0、W/0 和 D/0 表示以自我为中心的周围空间分辨率。每个体素被分配为 C 个类之一。为了将占用序列编码为时空tokens,首先使用可学习的类嵌入将 3D 占用映射到占用嵌入
y
ˆ ,C/0 是嵌入通道数。然后,为了减少计算负担,按照先前的工作 [51] 将 3D 占用嵌入转换为 BEV 表示
y
̃。之后,将 BEV 嵌入分解为不重叠的 2D 块
y
/p,H=H/0/P,W=W/0/P,C′=P^2·D/0·C/0,P 为每个图像块的分辨率。然后使用由多个 2D 卷积层组成的轻量级编码器(即 Conv2d-GroupNorm-SiLU)提取块嵌入,获得编码的历史占用时空token
y
。