专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
巴比特资讯  ·  你还在付费求DeepSeek部署教程?来来来 ... ·  22 小时前  
巴比特资讯  ·  千亿美元收购,马斯克是给OpenAI送财还是送灾? ·  22 小时前  
巴比特资讯  ·  两极反转,外国人开始在X上卖中国AI的课了? ·  昨天  
巴比特资讯  ·  为什么中国只有一个 DeepSeek? ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DriveDreamer4D: 世界模型是 4D 驾驶场景表征的有效数据机器

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-01-16 00:06

正文

24年11月来自极佳科技、中科院自动化所、理想汽车、北大和慕尼黑工大的论文“DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation”。

闭环模拟对于推进端到端自动驾驶系统至关重要。当代传感器模拟方法,例如 NeRF 和 3DGS,主要依赖于与训练数据分布紧密相关的条件,而这些条件主要局限于前向驾驶场景。因此,这些方法在渲染复杂动作(例如变道、加速、减速)时面临局限性。自动驾驶世界模型的最新进展已证明生成多样化驾驶视频的潜力。然而,这些方法仍然局限于二维视频生成,本质上缺乏捕捉动态驾驶环境复杂性所需的时空连贯性。

本文提出的 DriveDreamer4D,它利用世界模型先验增强 4D 驾驶场景表示。具体来说,利用世界模型作为数据机器来合成新轨迹视频,其中明确利用结构化条件来控制交通元素的时空一致性。此外,还提出表亲数据训练策略,以促进真实数据和合成数据的合并,从而优化 4DGS。DriveDreamer4D 是一个利用视频生成模型来改善驾驶场景中的 4D 重建。实验结果表明,Drive-Dreamer4D 显著提高生成质量和新轨迹视图,与 PVG、S3 Gaussian 和 Deformable-GS 相比,FID 相对提高 32.1%、46.4% 和 16.3%。此外,Drive-Dreamer4D 显著增强驾驶智体的时空连贯性,这已通过全面的用户研究得到验证,并且 NTA-IoU 指标的相对增幅分别为 22.6%、43.5% 和 15.6%。


端到端规划[26,27,30]直接将传感器输入映射到控制信号,是自动驾驶中最关键和最有前途的任务之一。然而,目前的开环评估不足以准确评估端到端规划算法,迫切需要增强评估方法 [37, 39, 80]。一个引人注目的解决方案在于现实场景中的闭环评估,这需要从任意指定的视点检索传感器数据。这需要构建一个能够重建复杂、动态驾驶环境的 4D 驾驶场景表示。

驾驶环境中的闭环模拟,主要依赖于场景重建技术,如神经辐射场 (NeRF) [18, 45, 71, 73] 和 3D 高斯splatting (3DGS) [11, 28, 32, 70],这些技术本质上受到输入数据密度的限制。具体来说,这些方法只能在与训练数据分布紧密结合的条件下(主要是前向驾驶场景)才能有效地渲染场景,并且在复杂的操作过程中难以准确执行(如图所示)。


为了缓解这些限制,SGD[78]和GGS[20]等方法利用生成模型来扩展训练视点的范围。然而,这些方法主要补充稀疏图像数据或静态背景元素,无法对动态、交互式驾驶场景的复杂细节进行建模。最近,自动驾驶世界模型 [16、25、61、63、64、81] 的进展引入生成多样化、命令一致的视频视点能力,为自动驾驶的闭环模拟提供新的希望。然而,这些模型仍然局限于二维视频,缺乏准确模拟复杂驾驶场景所必需的时空连贯性。

驾驶场景表征

NeRF 和 3DGS 已成为 3D 场景表示的主要方法。 NeRF 使用多层感知器 (MLP) 网络对连续体积场景进行建模 [2, 3, 45, 46],从而能够以卓越的渲染质量进行高度详细的场景重建。最近,3DGS [32, 77] 通过在 3D 空间中定义一组各向异性高斯函数引入一种新方法,利用自适应密度控制从稀疏点云输入中实现高质量渲染。一些研究已经将 NeRF [12、18、29、43、52、58、71、73] 或 3DGS [9、11、28、40、70、78、82] 扩展到自动驾驶场景。鉴于驾驶环境的动态特性,人们在建模 4D 驾驶场景表示方面也付出巨大努力。一些方法将时间编码为附加输入,以参数化 4D 场景 [1, 13, 28, 38, 42, 48, 56],而另一些方法将场景表示为运动目标模型与静态背景模型的组合 [35, 47 ,59,66,68,73]。尽管取得这些进步,基于 NeRF 和 3DGS 的方法仍然面临与输入数据密度相关的限制。只有当传感器数据与训练数据分布紧密匹配时,这些技术才能有效地渲染场景,而这通常仅限于前向驾驶场景。

世界模型

世界模型模块,根据参与者提出的想象动作序列来预测未来可能的世界状态[36,83]。 [4, 5, 17, 19, 22– 24, 34, 44, 62, 63, 67, 69, 75, 79] 等方法,通过自由-文本动作控制的视频生成来模拟环境。处于这一演变最前沿的是 Sora [6],它利用先进的生成技术来生成遵循物理基本定律的复杂视觉序列。这种深入理解和模拟环境的能力不仅可以提高视频生成的质量,而且对现实世界的驾驶场景也有重大影响。自动驾驶世界模型 [16, 25, 61, 64, 72, 81] 采用预测方法来解释驾驶环境,从而生成逼真的驾驶场景并从视频数据中学习关键驾驶要素和策略。尽管这些模型成功地生成基于复杂驾驶动作的多样化驾驶视频数据,但它们仍然局限于二维输出,并且缺乏准确捕捉动态驾驶环境复杂性所需的时空连贯性。

3D 表征的扩散先验

从有限的观察中构建全面的 3D 场景,需要生成先验,特别是对于未见过的区域。早期研究将文本-到-图像扩散模型 [49、51、53、54] 中的知识蒸馏为 3D 表示模型。具体来说,采用分数蒸馏采样(SDS)[41,50,65]从文本提示中合成 3D 目标。此外,为了增强 3D 一致性,一些方法将多视图扩散模型 [15, 55] 和视频扩散模型 [4, 10, 60] 扩展到 3D 场景生成。为了将扩散先验扩展到复杂、动态、大规模驾驶场景以进行 3D 重建,SGD [78]、GGS [20] 和 MagicDrive3D [14] 等方法采用生成模型来拓宽训练视点的范围。然而,这些方法主要解决稀疏图像数据或静态背景元素,缺乏完全捕捉 4D 驾驶环境中固有复杂性的能力。

DriveDreamer4D,通过整合自动驾驶世界模型的先验知识来改进 4D 驾驶场景表征。


世界模型模块根据想象的动作序列预测未来可能的世界状态[36]。自动驾驶世界模型 [16, 61, 64, 81] 通常基于扩散模型,利用结构化驾驶信息或动作控制来指导未来的视频预测。在训练过程中,这些模型首先使用变分编码器 E 将视频 v 编码到低维潜空间 z = E(v)。在将噪声 ε/t 添加到潜空间后,扩散模型会学习去噪过程。

此外,为了提高生成数据的可控性,可以在反向扩散过程中引入条件特征(例如参考图像、速度、转向角度、场景布局、相机姿势和文本信息),确保生成的输出符合输入控制信号。在推理过程中,世界模型可以根据参考图像来控制输出场景的风格,同时根据其他输入动作预测未来的世界状态。

DriveDreamer4D

DriveDreamer4D 的整体流程如图所示。在上部,提出轨迹生成模块 (NTGM) 来调整驾驶行为(例如转向角度、速度)以生成新轨迹。这些新轨迹为提取 3D 框和 HDMap 等结构化信息提供新视角。随后,可控视频扩散模型从这些更新的视点合成视频,并结合与修改后轨迹相关的特定先验。在下部,引入 Cousin 数据训练策略 (CDTS) 来结合时间对齐的原始数据和生成的数据来优化 4DGS 模型,其中计算正则化损失以实施感知一致性。


新轨迹视频生成

如前所述,传统的 4DGS 方法在渲染复杂动作方面受到限制,这主要是因为训练数据以简单的驾驶场景为主。为了克服这个问题,DriveDreamer4D 利用世界模型先验来生成不同的视点数据,增强 4D 场景表征。为了实现这一目标,提出 NTGM,旨在创建新轨迹作为世界模型的输入,从而实现复杂机动数据的自动生成。NTGM 包含两个主要部分:(1)新轨迹提议,(2)轨迹安全评估。在新轨迹提议阶段,可以采用文本-到-轨迹[81]来自动生成各种复杂的轨迹。此外,轨迹可以定制设计以满足特定要求,允许根据精确需求生成定制数据。该算法 1 展示定制设计的轨迹提议(例如车道变换)和轨迹安全评估的概述。


在特定驾驶场景中,世界坐标系中的原始轨迹可以很容易地通过 T_ori^world = {p_i^world} 获得,K 表示帧数,p_i^world 表示第 i 帧 自车的位置。为了提出新的轨迹,原始轨迹 T_ori^world 被变换到第一帧的自车坐标系中。







请到「今天看啥」查看全文