0. 论文信息
标题:UniScene: Unified Occupancy-centric Driving Scene Generation
作者:Bohan Li, Jiazhe Guo, Hongsi Liu, Yingshuang Zou, Yikang Ding, Xiwu Chen, Hu Zhu, Feiyang Tan, Chi Zhang, Tiancai Wang, Shuchang Zhou, Li Zhang, Xiaojuan Qi, Hao Zhao, Mu Yang, Wenjun Zeng, Xin Jin
机构:Shanghai Jiao Tong University、Ningbo Institute of Digital Twin, Eastern Institute of Technology, China、Tsinghua University、MEGVII Technology, 5Mach Drive、Fudan University、University of Hong Kong
原文链接:https://arxiv.org/abs/2412.05435
代码链接:https://github.com/Arlo0o/UniScene-Unified-Occupancy-centric-Driving-Scene-Generation
1. 导读
生成高保真、可控、带注释的训练数据对于自动驾驶至关重要。现有方法通常直接从粗略的场景布局生成单个数据表单,这不仅不能输出多样化下游任务所需的丰富数据表单,而且难以对布局到数据的直接分布进行建模。在本文中,我们介绍了UniScene,这是第一个用于在驾驶场景中生成三种关键数据形式(语义占用、视频和激光雷达)的统一框架。UniScene采用渐进式生成过程,将复杂的场景生成任务分解为两个分层步骤:(a)首先从定制的场景布局中生成语义占用,作为富含语义和几何信息的元场景表示,然后(b)根据占用情况,分别生成视频和激光雷达数据,采用基于高斯的联合渲染和先验引导的稀疏建模这两种新的传输策略。这种以占用为中心的方法减少了生成负担,特别是对于复杂的场景,同时为后续的生成阶段提供了详细的中间表示。大量实验表明,UniScene在占用、视频和激光雷达生成方面优于以前的SOTAs,这也确实有利于下游驾驶任务。
2. 效果展示
(a)Uniscene的概述。给定BEV布局,Uniscene通过以占用为中心的层次建模方法,促进多功能数据生成,包括语义占用多视图视频和激光雷达点云。(b)在不同生成任务上的性能比较。UniScene在视频、激光雷达和占用生成方面比SOTA方法有显著改进。
基于高斯的联合渲染的可视化。
UniScene的多功能生成能力。(a)语义占用、激光雷达点云和多角度视频的大规模相干生成。(b)通过简单地编辑输入的(c)通过改变输入的文本提示来可控制地生成属BEV布局来传达用户命令,从而可控制地生成几何编辑的占用、视频和激光雷达。性多样的视频。
3. 引言
生成高质量的驾驶场景是自动驾驶(AD)领域的一种有前景的方法,因为它有助于减轻现实世界数据收集和标注所需的高昂资源负担。生成模型,尤其是扩散模型的最新进展,使得生成逼真的合成数据成为可能,从而促进了下游任务的训练。现有方法通常使用从粗略几何标签(例如,鸟瞰图(BEV)和3D边界框)中派生的布局条件作为输入来指导场景生成。然后,利用生成的合成数据来改进下游任务,如BEV分割和3D目标检测。
推荐课程:
为何BEV和Occupancy撑起了自动驾驶的半边天?
然而,如表1所示,现有的驾驶场景生成模型主要侧重于生成单一格式的数据(例如,RGB视频),而没有充分挖掘跨多种格式生成数据的潜力。这限制了它们在需要多种传感器数据(即RGB视频、激光雷达)以确保真实场景充分训练的广泛下游任务中的应用。此外,先前的方法试图在仅给定粗略输入条件(例如,BEV布局或3D框)的情况下,通过单步布局到数据的建模过程来捕捉真实世界的分布。这种直接学习策略阻碍了模型捕捉真实驾驶场景中固有的复杂分布(例如,逼真的几何形状和外观)的能力,通常会导致次优性能。为了解决这一挑战,数据驱动的真实生成领域中的最新方法试图使用中间表示作为归纳偏置来建模复杂分布,从而通过分层步骤生成高质量的结果。
因此,探索自动驾驶中复杂3D生成任务的最佳中间表示对于获得高质量输出至关重要。语义占用率在自动驾驶感知任务中被广泛使用,最近因其丰富的语义和几何信息而被认为是优越的场景表示。在此基础上,体素生成方面的最新进展凸显了语义占用率的巨大潜力,其不仅可以描绘具有增强3D结构细节的驾驶环境,还可以实现更准确和多样化的场景生成。与传统2D表示(如BEV地图)相比,3D占用率提供了更丰富、更详细的场景表示。鉴于这些优势,我们认为语义占用率是分解复杂驾驶场景生成任务的理想中间表示。它同时捕捉语义和几何信息,促进了多种数据格式(例如,RGB视频和激光雷达)的生成,同时提高了生成过程的灵活性和准确性。
为此,我们提出了UniScene,这是一个统一的以占用率为中心的框架,旨在灵活生成语义占用率、视频和激光雷达数据。UniScene采用分解学习范式,并呈层次结构:它首先从BEV场景布局生成3D语义占用率,然后利用该表示来促进视频和激光雷达数据的生成。具体而言,与先前无条件占用率生成方法相比,我们使用定制的BEV布局序列作为可控输入来生成具有时空一致性的语义占用率序列。与单步布局到数据学习方法不同,我们的方法利用生成的占用率作为中间表示来指导后续生成。为了弥合表示差距并确保视频和激光雷达数据的高保真生成,我们引入了两种新的表示转换策略:1)一种基于高斯溅射(Gaussian Splatting)的几何-语义联合渲染策略,以促进具有详细多视图语义和深度图的条件视频生成;2)一种用于激光雷达数据生成的先验引导稀疏建模方案,该方案利用基于占用率的先验高效地生成激光雷达点。
4. 主要贡献
我们框架的贡献可以概括如下:
• 我们提出了UniScene,这是第一个用于驾驶场景中多功能数据生成的统一框架。它联合生成三种格式的高质量数据:语义占用率、多视图视频和激光雷达点云。
• 我们提出了一种分解条件生成范式,逐步建模复杂的驾驶场景,有效降低了生成的难度。首先生成精细的语义占用率作为中间表示,然后促进后续的视频和激光雷达数据生成。
• 为了弥合占用率与其他数据格式之间的领域差距,我们引入了两种新的表示转换策略:一种基于高斯溅射渲染,另一种利用稀疏建模方案。
• 在各种生成任务上的大量实验表明,UniScene在视频、激光雷达和占用率生成方面优于最先进的方法。此外,UniScene生成的数据在下游任务(包括占用率预测、3D检测和BEV分割)中带来了显著提升。
5. 方法
如图2所示,我们将复杂的驾驶场景生成任务分解为以占用率为中心的层次结构。具体而言,给定多帧BEV布局作为条件,UniScene首先使用占用率扩散Transformer生成相应的语义占用率序列。然后,生成的占用率作为后续视频和激光雷达生成的条件指导。对于视频生成,将占用率转换为3D高斯基元,然后渲染成2D语义和深度图,以指导视频扩散UNet。对于激光雷达生成,我们提出了一种稀疏建模方法,该方法将激光雷达稀疏UNet与基于射线的稀疏采样策略相结合,在占用率先验的指导下有效地生成激光雷达点。
6. 实验结果
7. 总结 & 未来工作
在这篇论文中,我们介绍了UniScene,这是一个统一框架,旨在生成高保真、可控和注释的自驾应用数据。通过将复杂的场景生成任务分解为两个层次,UniScene逐步生成语义占用、视频和激光雷达数据。广泛的实验表明,Uniscene在所有三种数据类型上都超越了当前的SOTAS,并提高了广泛的下游任务。
局限性与未来工作。统一整合多代任务的全面系统具有挑战性和资源密集性。探索优化系统以进行轻量化部署的方法是未来研究的有前途途径。此外,将系统扩展到相关领域,如具身智能和机器人技术,为取得进一步进展提供了宝贵的机会
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球