专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

北航 & 清华 提出 OccSora | 基于扩散 Transformer 的4D占用率生成技术 !

智驾实验室  · 公众号  ·  · 2024-06-30 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

理解3D场景的演变对于有效的自动驾驶至关重要。尽管传统方法使用个体实例的运动来建模场景发展,但世界模型作为一种生成框架,用于描述一般场景动态。然而,大多数现有方法采用自回归框架进行下一个标记的预测,这在建模长期时间演变方面存在效率低下的问题。为了解决这个问题,作者提出了一个基于扩散的4D占用生成模型OccSora,以模拟自动驾驶中3D世界的发展。

作者采用4D场景分词器来获取4D占用输入的紧凑离散空间时间表示,并实现长序列占用视频的高质量重建。然后,作者在空间时间表示上学习扩散 Transformer ,并根据轨迹提示生成4D占用。

作者在广泛使用的nuScenes数据集上进行了大量实验,该数据集带有Occ3D占用标注。OccSora能够生成具有真实3D布局和时间一致性的16秒视频,展示了其理解驾驶场景的空间和时间分布的能力。

通过轨迹感知的4D生成,OccSora有潜力作为自动驾驶决策的世界模拟器。

代码可在以下链接获取:https://github.com/wzzheng/OccSora。

1 Introduction

作为人工智能技术的一项有前景的应用,自动驾驶近年来受到了广泛的关注和研究。在自动驾驶中建立感知,预测和规划之间的关系对于全面理解该领域至关重要。

传统的自动驾驶模型[16]依赖于 ego 车辆实例的运动来建模场景发展,无法像人类理解那样深刻地理解场景感知和车辆运动控制。世界模型[12]的出现为深入理解自动驾驶场景与车辆运动之间的综合关系提供了新的可能性。基于强大的图像预训练模型,基于图像的世界模型[15; 42]可以生成具有3D边界框条件的高质量驾驶场景图像。OccWorld[53]进一步在3D占用空间中学习世界模型,这可以更好地用于自动驾驶的3D推理。然而,大多数现有方法采用自回归框架来建模3D场景的动态(例如,图像标记,边界框,占用),这阻碍了它们高效地生成长期视频序列的能力。

为了解决这个问题,作者提出了一个4D世界模型OccSora,直接使用扩散模型生成时空表示,如图1所示,受到OpenAI的2D视频生成模型Sora[1]的启发。为了准确理解和表示4D场景,作者设计了4D场景离散化来捕捉场景的动态特性,并提出了一种基于扩散的世界模型,以遵循物理定律实现可控的场景生成。具体来说,在4D占用场景标记器中,作者专注于提取和压缩真实的4D场景,以建立对世界模型环境的理解。在基于扩散的世界模型中,作者采用多维扩散技术传播准确的时空4D信息,并通过结合真实的ego车辆轨迹作为条件,实现轨迹可控的场景生成,从而实现自动驾驶场景与车辆运动控制的更深层次的理解。通过训练和测试,OccSora可以生成遵循物理逻辑的自动驾驶4D占用场景,并基于不同轨迹实现可控的场景生成。所提出的自动驾驶4D世界模型为理解自动驾驶中动态场景变化和物理世界开辟了新的可能性。

2 Related Work

3D占用预测。 3D占用预测关注将空间划分为 Voxel ,并为每个 Voxel 分配特定的语义类型。在自主驾驶感知任务中,它被认为是表示现实世界场景的关键手段,继3D目标检测[29; 28; 48]和鸟瞰图(BEV)感知[47; 52; 40; 51]之后。早期关于这项任务的研究主要集中在从激光雷达(LiDAR)对离散点进行语义分类[55; 36; 25; 56]。实际上,由于相机包含的语义信息远远超过LiDAR,并且成本较低。因此,使用图像进行深度估计或将端到端方法用于3D场景感知研究是目前的主流方法[18; 23; 44; 17]。考虑到多传感器系统的优势,一些研究探讨了用于3D占用预测的多模态融合[43; 49]。

除了利用典型传感器设备进行3D占用预测外,一些研究还关注涉及占用的其他任务。例如,OccWorld[53]提出了一种时空生成 Transformer 来预测后续场景标记和车辆标记,从而预测未来的占用和车辆轨迹。另一方面,GenOcc[39]利用生成模型来完成占用预测。DriveWorld[31]介绍了一个基于世界模型的框架,用于从2D图像和视频中学习自主驾驶,处理诸如3D目标检测、在线地图创建和占用预测等任务。尽管在3D占用预测和连续4D预测方面取得了进展,但这些研究的范围仍然有限。它们通常结合使用自回归模型和前几帧的场景信息来进行后续占用任务,因此需要先前的场景或3D边界框输入。因此,它们缺乏对场景和运动之间基本关系的真正理解,并不构成基于动作条件的世界模型。

生成模型。 由于其强大的能力,生成模型最近受到了广泛关注。通过学习数据的概率分布,生成模型可以训练出能够生成新样本的模型。从生成对抗网络(GAN)[10]的出现到最近变分自编码器(VAE)[37]等扩散模型的诞生,生成模型的任务已从最初的图像生成任务逐渐扩展到对视频[45]的深入研究。基于DIT模型的图像生成任务[34]深入研究并利用其生成能力。Sora视频生成模型[1]进一步展示了在连续场景中帧与帧之间产生高质量视频并具有真实过渡的能力。

同样,在自主驾驶领域,可控图像生成可以提供各种驾驶场景,服务于感知、规划、控制和决策。MagicDriver[8]通过学习自主驾驶车辆的视频并融入目标检测框和地图等标签来生成各种天气场景的视频。DriveDreamer[42]提出了一种完全源自真实驾驶场景的世界模型,能够深入理解结构化的交通约束,从而实现精确可控的视频生成。然而,对于自主驾驶场景,获取场景的3D占用比2D信息[50; 30; 35]更为重要。一些研究[22; 26]提出了一个适用于生成户外真实场景的三维扩散模型,该模型通过利用扩散方法,完成可扩展的无缝场景生成任务。尽管一些先前的研究已经生成了2D静态图像并通过自回归扩展到时间维度,还有其他研究实现了3D占用场景的静态生成,但是基于3D目标边界框生成的2D图像以及静态的大规模场景都难以直接应用于自主驾驶任务[41; 54]。相比之下,作者提出的OccSora建立了一个动态的4D占用世界模型,该模型能够适应车辆轨迹下的场景变化,无需任何先前的目标检测框或场景信息,代表了自主驾驶中首个生成4D占用世界模型。

3 Proposed Approach

World Model for Autonomous Driving

四维占用率能够全面捕捉三维场景的结构、语义和时间信息,并有效促进弱监督或自监督学习,这可以应用于视觉、激光雷达或多模态任务。基于这些原则,作者将世界模型 表征为四维占用率 。图2展示了OccSora的总体框架。作者构建了一个四维占用率场景标记器来压缩真实的四维占用率 ,在时间维度 和空间维度 上,捕捉四维自动驾驶场景中的关系和演变模式。这产生了压缩的高级标记 和重构的四维占用率数据 。作者设计了一个基于扩散的世界模型,使用轨迹信息 作为控制单元,通过压缩标记 的监督训练,生成高维场景表征标记 。然后,这些标记通过四维占用率场景标记器解码为一致且动态可控的

4D Occupancy Scene Tokenizer

四维占用预测的目标是在特定位置随时间确定语义类型。作者将真实的4D占用场景 离散化并编码到中间潜在空间 中,以获得4D占用场景的真实表示,如图3所示。公式如下: 。在这里, 表示编码码本, 表示设计的3D编码网络和类别嵌入。这种3D占用表示将车辆周围的3D空间划分为 Voxel ,其中每个 Voxel 位置分配一个类型标签 ,表示它是否被占用以及占用它的物体的语义。与传统的方 法不同,作者在同一场景内融合并压缩时间信息, Reshape 张量为 。这种方法允许统一学习空间和时间演变模式以及真实场景的物理关系,与之前的自回归方法相比。通过带有类别嵌入的 3D编码网络和 编码码本后,张量被转换成 表示潜在空间。这种 Reshape 确保了4D占用时间动态的全面表示。

类别嵌入和标记器。 为了准确捕捉原始参数的空间信息,作者首先对输入 进行嵌入操作。作者为 中的每个类别分配一个可学习的类别嵌入 ,以标记连续3D占用场景的类别。位置信息被嵌入为表示类别的标记。然后,这些嵌入沿着特征维度进行拼接。为了便于在特定维度上进行后续的3D编码与压缩,作者进一步将 Reshape 为

3D视频编码器。 为了有效地学习离散的潜在标记,作者对4D占用率的嵌入位置信息 进一步执行下采样以提取高维特征。设计的编码器架构包括一系列3D下采样卷积层,这些层在时间维度(T)和空间维度(H W)中执行3D下采样,将融合维度增加到 。作者最初将输入 缩小三倍以得到 ,并在前馈和注意力块层后引入了dropout层进行正则化。考虑到连续帧之间的关系,作者在下采样后引入了跨通道注意力,沿着 维度分割 ,然后在分割部分之间执行跨通道注意力。这个操作增强了模型捕获不同轴上特征之间关系的能力,随后将它们重新调整回原始形状以获得输出张量

码本和训练目标。 为了实现更紧凑的表示,作者同时学习一个包含N个代码的码本 。码本中的每个代码 编码场景的一个高级概念,例如相应位置是否被汽车占据。 表示编码后的码本。作者通过映射到最近的代码 来量化每个空间特征 中:

其中 表示L2范数。随后,作者将量化的特征 整合起来以获得最终的场景表示

3D视频解码器。 为了从学习到的场景表示







请到「今天看啥」查看全文