专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
LeaderCareer  ·  香港前三 VS 英国G5,怎么选? ·  5 小时前  
北美留学生观察  ·  英国加速穆斯林化,中产家庭正在出逃 ·  昨天  
北美留学生观察  ·  春招正式打响!1222万应届生+百万海归,如 ... ·  昨天  
北美留学生观察  ·  重磅!哈佛大学宣布:家庭收入20万美元以下学 ... ·  2 天前  
51好读  ›  专栏  ›  智驾实验室

AI狂飙!DrivePhysica模型三大关键进步,整合多模块生成真实多视角驾驶视频,性能达行业顶尖 !

智驾实验室  · 公众号  ·  · 2025-02-24 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室


加入【 智驾实验室 】交流群, 获取更多内容和资料

自动驾驶需要在高质量化大规模多视角驾驶视频上训练出稳健的感知模型,以完成诸如三维目标检测、分割及轨迹预测等任务。虽然世界模型能够有效生成逼真的驾驶视频,但仍面临确保这些视频遵守基本物理原理(如相对和绝对运动、遮挡关系以及时空一致性)的挑战。

为解决这些问题,作者提出了DrivePhysica这一创新模型,通过三大关键进步生成符合物理原则的真实多视角驾驶视频:

(1) 坐标系统对齐模块,整合相对和绝对运动特征以增强运动解释;

(2) 实例流引导模块,通过高效的三维流提取确保精确的时间一致性;

(3)  Box 坐标引导模块,提高空间关系理解并准确解析层次化的遮挡关系。基于物理原理,作者在驾驶视频生成质量和下游感知任务方面达到了最先进的性能(Nuscenes数据集上的3.96 FID和38.06 FVD)。

作者的项目主页:https://github.com/DrivePhysica。

1. Introduction

自动驾驶领域已在工业界和学术界吸引了长时间的关注[27, 48]。为了在自主车辆中实现稳健的感知能力,模型需要高质量且大规模的多视角驾驶视频数据集进行训练,以完成诸如三维目标检测、分割和轨迹预测等任务。世界模型[16, 39]作为一种生成多样化和逼真驾驶视频的潜在解决方案应运而生。它们能够模拟复杂的场景,同时解决了 Token 真实驾驶数据的成本高和劳动密集问题。

然而,生成严格符合物理原理的真实驾驶视频——包括相对运动和绝对运动的理解、时间一致性以及空间关系 Aware ——仍然是一项重大挑战,原因在于扩散模型中存在的大量采样空间和有限的控制条件。

具体而言:

1)运动参考系统理解:模型常难以准确解释相对速度和绝对速度。

例如,在图1(a)中,如Panacea[41]等模型无法理解相对运动。实际上,停泊的黑色汽车和白色汽车相对于自主车辆应有轻微的移动。然而,黑色汽车却保持静止不动。这些在运动理解上的限制导致生成的驾驶视频不现实,从而降低了基于感知的任务中世界模型的效果。

2)时间一致性:保持随时间变化的运动目标稳定属性(如颜色和纹理)的一致性对众多驾驶世界模型来说依然是一个挑战。例如,在图1(b)中,DriveWM[40]未能维持时间一致性,导致汽车的颜色从一帧到下一帧变化不自然。

3)空间关系理解:许多世界模型[7, 41]经常错误地表示空间关系,包括遮挡层次结构(正确确定物体的深度顺序)和多视角一致性(保持跨多个相机视角的一致结构)。如图1(c)所示,Panacea[41]未能在车辆边界框内维持正确的遮挡层次结构,产生的车辆被放置得更靠近自主车辆,看起来像是道路上移动的车辆,从而产生了不正确的遮挡关系。而在图1(d)中,MagicDrive[7]也难以确保多视角的空间一致性。

为了应对这些挑战,作者提出了DrivePhysica,这是一种有效遵循关键物理原则的驾驶世界模型,包括运动参考系理解、时间一致性以及空间关系 Aware 。DrivePhysica在生成视频的质量和下游任务验证方面均达到了最先进的性能。

首先,为了帮助模型准确解读运动参考系统,作者引入了坐标系统对齐器(CSA)模块,该模块利用相机姿态参数,在自我坐标系统和绝对世界坐标系统之间对齐不同的条件。相机参数使绝对世界坐标能够转换为自我相对坐标系统,从而成功地对齐了两个坐标系统。CSA模块提供了补充视角,增强了模型对相对和绝对运动的理解。

其次,为了确保时间连贯性,作者引入了实例流引导(Instance Flow Guidance, IFG)模块,这是一个基于帧间周围实例运动向量的轻量级三维流提取器,避免了DrivingDiffusion [17] 中使用的复杂二维光学流设计。实例流作为基础,用于在帧之间跟踪和传播属性(如颜色和纹理),从而有助于生成时间上一致的视频。作者的实例流在全三维空间中操作,而不是局限于二维图像平面,这使得对物体定位的时间理解更加准确。

最后,为了帮助世界模型理解空间关系,作者提出了Box坐标引导(BCG)模块来嵌入3D边界框坐标。这种直接编码的3D定位有助于模型捕捉遮挡层次结构。作者还通过参数-free的空间视图放大注意力机制确保跨视图一致性。

DrivePhysica 为生成逼真且多视角的驾驶视频建立了稳健的、基于物理的基础,实现了视频生成质量和下游感知任务验证方面的最先进性能。

作者的贡献主要包括三个方面:

  1. 为了增强运动和空间理解,作者提出了一种坐标系统对齐器(CSA)模块,使模型能够更好地解释绝对运动与相对运动之间的关系,从而解决当前驾驶世界模型的一个关键局限性。通过在每一帧中编码每个实例的相对三维位置,模型获得了增强的空间 Aware ,有效地捕捉遮挡层次。

  2. 为了维持目标属性在时间上的稳定性,作者引入了3D实例流引导,其中包含一个轻量级的流提取器,并且在3D空间中操作而不是在2D图像平面内,作者的方法允许更精确地理解目标的空间定位。

  3. DrivePhysica 在生成视频的质量及下游感知指标方面均达到了最先进的水平(SOTA)。DrivePhysica 可通过利用Carla模拟器合成的条件,模拟长尾但关键的驾驶场景,如紧急刹车和变道。

2. Method

在本节中,作者首先定义了在驾驶视频生成过程中必须满足的物理定律概念,然后提出了DrivePhysica这一新颖框架,该框架能够生成真实且符合先前阐述的基本物理原则的多视角驾驶视频。

2.1. Important Physical Laws to Follow

在驾驶视频生成中,每一帧捕捉一个瞬间。针对驾驶场景的世界模型应当生成符合现实物理法则的帧。这涉及到对运动参考系统的理解约束、时间一致性以及空间关系 Aware ,确保生成的视频反映真实的驾驶行为和物理交互。

运动参考系统理解。模型必须准确解释世界坐标系和自动驾驶车辆自身坐标系。模型需要掌握相对运动的概念,在此概念中,世界坐标系中的静止物体在自动驾驶车辆坐标系中会显得在移动。若误解这一点,可能导致错误的解读,例如认为正在移动的自动驾驶车辆被误认为是静止时,会把一个静止的建筑误认为是在移动。如图1(a)所示,停靠的汽车相对于自动驾驶车辆应有轻微的运动,但黑色汽车在自动驾驶车辆坐标系中仍显得相对静止。

时间一致性。根据运动守恒和材料不变性的原则,目标属性如颜色和纹理应在帧间保持稳定。例如,如图1(b)所示,汽车的颜色不应在帧与帧之间不现实地发生变化。

空间关系 Aware 。精确的空间关系 Aware 包括保持物体间的适当距离,并正确解析深度线索以建立一致的遮挡层次。在视角对齐设置中,物体的相对深度决定了它们的遮挡层次,确保较近的物体能正确遮挡远处的物体。如图1(c)所示,背景中的条件框错误地出现在前景中,符合遮挡关系。此外,模型在不同相机视角之间的过渡时还必须避免引入不连续性,以确保帧与帧之间空间关系的平滑连续性。如图1(d)所示,汽车的颜色在不同视角下应保持一致。

2.2. DrivePhysica: Physical Law Acquisition

为了使世界模型能够准确理解并遵守第2.1节中概述的基本物理原理,从而促进 realistic 驾驶视频生成,作者整合了三层控制条件:场景条件(文本和相机姿态)、车辆坐标系统条件(3D 边界框坐标、3D 边界框投影和道路地图投影),以及世界坐标系统条件(实例流)。

基于OpenSora V1.1 [49],作者采用变分自编码器(VAE)进行视频编码,T5 [23] 进行文本编码,并将时空扩散Transformer(ST-DiT)作为去噪过程的基础模型。作者将输入 Reshape 为 ,并将wv视为帧宽度以提高视图间的一致性。DrivePhysica架构的总体框架如图2所示。

2.2.1 Coordinate System Aligner

为了帮助模型准确理解运动参考系统,作者通过对来自两种关键坐标系统的特征进行对齐,设计了坐标系统对齐器(CSA)模块。这两种坐标系统分别是车辆坐标系统和世界坐标系统。这两种坐标系统提供了关于运动的互补视角,使模型能够更好地理解绝对运动与相对运动之间的关系。

先前的研究通常侧重于基于车辆坐标系统集成控制条件,例如三维边界框投影和道路地图投影。然而,仅仅考虑基于车辆坐标系统的条件难以准确理解物体在世界坐标系统中的真实运动,如图1(a)所示。

为了克服这一限制,作者引入了世界坐标系条件。这种双重条件方法的需求源自于驾驶场景复杂的动态特性。车辆坐标系条件捕捉到相对于 ego 车辆的运动关系,而世界坐标系条件则捕捉到在世界坐标系中的运动形式。

然而,这两种条件基于不同的坐标系。为了准确生成真实感的运动,模型必须能够理解世界坐标系和车辆坐标系。理解这两个坐标系之间的关系对于确保场景中所有元素,无论是前景还是背景,都符合运动原则至关重要。这种对齐显著增强了生成视频的真实感。

为了实现这一目标,作者提出了坐标系统对齐模块,该模块使用相机姿态参数,包括内参和外参,将世界坐标系和车辆坐标系中的不同条件进行对齐。这些参数能够实现从世界坐标系到车辆坐标系的变换,从而成功地对齐这两个坐标系。具体而言:

车辆坐标系条件,包括3D边界框投影和道路地图投影等布局信息,通过变分自编码器(VAE) 进行编码。边界框坐标使用 进行编码(作者在第2.2.3节中介绍了Box坐标指导模块)。这三种编码 ,和 之和表示为 。这些条件捕捉了相对于 ego 车辆的空间关系,将布局信息与像素对齐,并提供了从 ego 车辆视角理解物体位置的关键线索。

通过相同的VAE 对世界坐标系条件,例如实例流(作者在第2.2.2节中引入了实例流指导模块),对 进行编码。这一条件捕捉了连续帧中周围实例之间的运动,确保在时间帧之间的一致性,并遵守物理运动定律,从而提高时间一致性。

为了统一这些双重条件嵌入,Coordinate System Aligner 模块利用摄像机姿态参数 来促进世界坐标系统条件和车辆坐标系统条件的融合。为了编码摄像机姿态参数,作者首先按列连接每个参数,得到 。由于 包含来自正弦和余弦函数的值,作者对每个三维向量应用傅里叶嵌入[20],以帮助模型有效地解读这些高频率变化。随后,作者使用多层感知器(MLP),表示为 ,来嵌入摄像机姿态,从而得到摄像机嵌入

与视频 patches 嵌入相同维度。

最后,作者利用相机姿态嵌入 ( h^c ) 来融合车辆坐标系条件嵌入 ( h^{vehicle} ) 和世界坐标系条件嵌入 ( h^{world} )。

相机姿态在对齐双条件嵌入、将它们合并成一个连贯的控制信号方面起着关键作用。统一的嵌入 随后被传入ControlNet [45],该模块生成一个综合的控制信号以指导ST-DiT去噪过程,从而使世界模型能够产生真实且控制精确的驾驶视频。

2.2.2 Instance Flow Guidance

为了确保时间一致性,作者引入了一个轻量级的实例 Stream 引导(IFG)模块,以帮助模型在时间上保持目标属性(如颜色和纹理)的一致性稳定性,这在图3中示意性地展示了这一过程。

实例流表示。作者引入了实例 Stream 条件,指的是驾驶场景中周围实例的运动矢量。作者首先捕获了时间序列中周围物体在绝对世界坐标系中的空间坐标:

其中 表示第 帧中实例 的空间位置。为了建模连续帧之间周围实例的运动,作者定义了实例 Stream 偏移量,该偏移量编码了这些帧之间的运动向量。

帧中所有 个实例的完整实例流偏移量定义为:

这为跟踪和传播帧间属性(如颜色和纹理)提供了基础,有助于生成时间上一致的视频。

将实例偏移量填充到像素位置中。直接应用帧到帧的偏移量与STDiT不兼容,因为STDiT具有视频自编码器和片段化处理过程。为了解决这一问题,作者将 转换为与视频片段潜空间对齐的轨迹图 。实例的三维边界框被投影到相机视图上以获得其二维投影区域。在该区域中的每个像素在帧 处填充对应的实例的位置偏移。







请到「今天看啥」查看全文