闭环仿真杀器！DrivingSphere：理想提出直接构建高保真4D世界

arXiv每日学术速递 · 公众号 · · 2024-11-25 12:58

正文

写在前面&笔者的个人理解

近年来，端到端自动驾驶算法取得了重大进展，准确评估这些模型是一项非常紧迫的任务。为了安全、负责任地进行评估，必须有一个精确的模拟环境，准确反映现实世界的驾驶条件。这个要求通常包括两个方面：一是高保真传感数据的生成，二是闭环反馈机制的实现。

当前最常使用的评估方法是开环仿真方法。虽然这些基准测试提供了真实的驾驶数据，但它们的分布相对固定，且缺乏多样性，限制了它们评估自动驾驶算法的泛化能力。总而言之，尽管具有高保真传感数据，但这些开环评估解决方案无法提供评估自主系统如何响应动态变化和决策所需的动态反馈。

另外一种即闭环仿真方法，其提供反馈驱动系统，其中代理的行为会影响其他代理和环境，并受其影响。然而，由于缺乏处理视觉传感器输入的能力，限制了它们与基于视觉的端到端模型的相互作用。基于游戏引擎的模拟器创造了可扩展且物理上逼真的环境，但它们的输出通常与现实世界的传感器数据不同，限制了它们在验证基于实际输入的算法方面的作用。

针对上述提到的相关问题，为了应对这些挑战，我们提出了一种新颖的几何感知闭环模拟框架，可捕捉二维视觉和三维几何特性，同时与基于视觉的端到端驱动代理无缝集成，它利用几何先验信息来生成逼真且可控的驾驶场景，称之为DrivingSphere。与现有的相关仿真框架相比，我们提出的DrivingSphere。与现有的仿真算法框架相比，DrivingSphere 有三个显著特点

丰富的仿真粒度 ：与过去仅对道路和汽车进行建模的方法不同，我们的方法允许包括以前未建模的元素，例如建筑物、植被和其他环境结构。虽然这些非交通元素并不直接参与交通流，但它们的存在会显著影响驾驶模型的输入，从而影响复杂驾驶场景中的决策过程。
物理和空间真实感 ：由于我们的模型明确地表示了 4D 空间中的场景和交通参与者，因此它能够精确地描绘不同交通元素之间的物理相互作用和遮挡关系。这确保每个视点和位置自然地遵循深度和遮挡等物理原理，从而实现全球道路布局、交通参与者及其行为的结构化协调。
高视觉一致性和保真度 ：我们的模型更加努力地将场景中每个交通参与者的外观和唯一 ID 关联起来，从而跨帧和视图提供稳定且高保真的时间和空间一致性。

下图是我们的算法模型和开环与闭环仿真的整体框架进行对比

论文链接：https://arxiv.org/pdf/2411.11252

算法模型网络结构&技术细节梳理

在详细介绍本文提出的DrivingSphere算法框架之前，下图展示了DrivingSphere的整体网络结构图。

DrivingSphere 是一个生成闭环模拟框架，它将基于占用的 4D 世界建模与先进的视频渲染技术相结合，提供高保真视觉输出，增强自动驾驶场景中的仿真真实感和代理与环境的相互作用。具体来说，DrivingSphere 从动态环境合成开始，从地图草图生成静态背景，从参与者库中选择交通参与者，并更新参与者位置，以构成具有占用格式的 4D 驾驶环境。接下来，视觉场景合成调节自车周围的占用数据，准确捕捉遮挡关系和细粒度语义信息，以生成高保真多视图视频。最后，闭环反馈机制实现动态、响应调整，其中自主代理不断接收更新的视觉数据并生成修改模拟环境的控制信号，为算法测试和改进提供全面的平台。

Dynamic Environment Composition

以前的驾驶模拟方法经常忽略建筑物、障碍物和植被等静态和多样化元素。虽然这些元素不是直接的交通参与者，但它们是自动驾驶系统感知输入的一部分，影响最终的驾驶决策。例如，建筑物等静态物体可能会阻挡传感器的视线，导致其他车辆或行人的遮挡。障碍物或植被会给自动驾驶系统带来传感器伪影或误报。这两种情况都可能导致错误的决策，例如不必要的刹车或车道变换。为了解决这个问题，我们提出了一种动态环境组合来构建一个配备复杂数字资产的综合自动驾驶驾驶世界。

4D驾驶世界表达 ：我们的4D驾驶世界表示包括三个关键数字资产，分别是：静态背景场景、动态前景参与者以及这些参与者的空间位置。我们采用来表达。其中，是多个区域静态场景的复合体。每个是第个静态背景场景，捕捉区域内的空间布局和静态元素。是第个参与者，例如车辆和行人，由 3D 坐标和语义标签定义。

静态场景生成 ：一种生成静态3D场景的直接方法是直接使用现有数据集中的真值占用数据，例如 nuScenes中的波士顿地区。然而，这种方法仅限于数据收集期间捕获的特定区域，限制了其对其他城市地区的适用性。为了解决这一限制，我们提出了一个占用扩散模型 OccDreamer，该模型以 BEV 地图和文本描述为条件，能够为任何所需的城市区域生成静态场景。OccDreamer 的框架集成了以下组件，如下图所示。

首先，为了高效地训练扩散模型，同时解决处理 3D 数据的计算复杂性，我们采用 VQVAE 作为占用标记器，将映射到潜在特征。重建的场景被定义为。使用组合损失进行训练。

其次，考虑到不同的道路结构和复杂的区域地形，我们提出了一个可控的区域占用生成模块。它接受捕捉道路结构的区域 BEV 地图和描述抽象特征的语言提示（如植被丰富的郊区或两侧有建筑物的商业区）作为输入，并输出区域占用。遵循扩散模型的原理，CLIP 编码器将文本提示转换为embedding，记作。然后，通过交叉注意机制注入到降噪器中。同时，通过预训练图像 VAE处理 BEV图以提取相应的道路embedding，记作，作为 ControlNet 分支的输入。这可以精确控制潜在空间中的扩散学习过程：

第三，为了实现整个 3D 场景的空间一致性，我们提出了一种场景扩展机制，用于构建连贯的城市级静态场景，其核心思路是扩展一个初始化的区域到相邻的区域通过使用这些区域之间的重叠作为条件约束。为了生成，我们首先创建一个部分掩码的场景。然后采用扩散过程生成邻近区域和部分掩码场景。整个扩散过程可以用采用下式进行表示。

获得潜在表示后，我们使用占用 VAE 解码器对其进行解码，得到扩展区域，然后通过合并操作将两个区域组合成更大的场景

动态参与者选择 ：为了补充静态场景，我们在 4D 驾驶世界中填充了动态参与者，从而创建了逼真的交通流。我们构建了一个参与者库，根据与用户通过 CLIP 提供的描述的语义相似性来选择参与者，如果未指定，则从相关类别中随机抽样，以确保上下文多样性。这种灵活的选择过程允许在 4D 驾驶世界中动态地集成相关和多样化的参与者，支持现实和适应性强的交通模拟。

4D 世界构成 ：通过计算静态背景、动态前景参与者及其位置，我们将它们整合到综合 4D 驾驶世界中。任意时间 t 的世界状态由以下公式表示：

Visual Scene Synthesis

先前的生成模型倾向于采用 2D 视觉条件，无法准确捕捉现实世界驾驶场景中固有的几何和语义复杂性。因此，我们的视觉场景合成采用了 VideoDreamer，将上一步构建的占用驱动的 4D 驾驶世界转换为高保真视觉结果。整体框架如下图所示。

具体来说，我们引入了一种双路径条件编码策略，该策略专注于将占用数据编码为其主要条件。我们通过开发一种 ID 感知的参与者编码方法，进一步增强了视图和帧之间外观的一致性。最后，我们集成了 OpenSora 的时空扩散变换器 (ST-DiT) 作为基础技术，以确保视觉一致性并生成无伪影的帧。

双路径条件编码 。我们设计了一种双路径条件编码策略，旨在有效地捕获占用数据。给定一组跨越从0到T帧的驾驶世界数据，我们首先将它们编码为全局特征，捕捉场景内的综合几何信息和时空关系。其中，

闭环仿真杀器！DrivingSphere：理想提出直接构建高保真4D世界

正文

写在前面&笔者的个人理解

算法模型网络结构&技术细节梳理

Dynamic Environment Composition

Visual Scene Synthesis

请到「今天看啥」查看全文