DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-11 02:03

正文

24年5月北大论文“DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving”。

近年来，以视觉为中心的自动驾驶因其较低的成本而受到广泛关注。预训练对于提取通用表示至关重要。然而，当前以视觉为中心的预训练通常依赖于 2D 或 3D 预文本任务，忽略了自动驾驶作为 4D 场景理解任务的时间特征。本文引入一种基于世界模型的自动驾驶 4D 表示学习框架（称为 DriveWorld）来应对这一挑战，该框架能够以时空方式对多摄像头驾驶视频进行预训练。具体来说，提出一种用于时空建模的记忆-状态空间模型（Memory State- Space Model），它包括一个用于学习时域-觉察潜动态提供全面场景上下文预测未来变化的动态记忆库（Dynamic Memory Bank）模块和一个学习空域-觉察潜静态预测未来变化的静态场景传播（Static Scene Propagation）模块。还引入任务提示（Task Prompt）来解耦各种下游任务的任务-觉察特征。

如图所示：以视觉为中心的自动驾驶不同预训练方法的比较。(a) 使用 2D 文本前任务（例如 2D 分类和深度估计）进行单目 2D 预训练。(b) 通过 3D 场景重建或 3D 目标检测进行多摄像机 3D 预训练。(c) 所提出的基于世界模型的 4D 预训练学习统一的时空表征。