专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
北京生态环境  ·  预计未来三天空气质量优良 ·  2 天前  
51好读  ›  专栏  ›  学姐带你玩AI

CVPR 2024 | DrivingGaussian:逼真环视数据合成,驾驶场景重建SOTA!

学姐带你玩AI  · 公众号  ·  · 2024-04-22 18:24

正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2312.07920

项目主页:https://github.com/VDIGPKU/DrivingGaussian

图 1. DrivingGaussian 实现了周围动态自动驾驶场景的逼真渲染性能。朴素的方法要么在大范围背景中产生令人不快的伪像和模糊,要么难以重建动态对象和详细的场景几何形状。DrivingGaussian 首先引入了复合高斯泼溅来有效地表示复杂的周围驾驶场景中的静态背景和多个动态对象。DrivingGaussian 能够跨多摄像头高质量合成周围视图,并促进长期动态场景重建。

摘要:

我们推出 DrivingGaussian,这是一个针对动态自动驾驶场景的高效且有效的框架。对于具有移动物体的复杂场景,我们首先使用增量静态 3D 高斯函数顺序渐进地对整个场景的静态背景进行建模。然后,我们利用复合动态高斯图来处理多个移动对象,单独重建每个对象并恢复它们在场景中的准确位置和遮挡关系。我们进一步使用 LiDAR 先验进行高斯散射来重建具有更多细节的场景并保持全景一致性。DrivingGaussian 在动态驾驶场景重建方面优于现有方法,并能够实现具有高保真度和多摄像头一致性的逼真环视合成。

1.引言

大规模动态场景的表示和建模是 3D 场景理解的基础,有助于一系列自动驾驶任务,例如 BEV 感知、3D 检测和运动规划。驾驶场景的视图合成和可控模拟还可以生成极端情况,安全关键情况有助于以较低的成本验证和增强自动驾驶系统的安全性。

不幸的是,从稀疏的车载传感器数据重建如此复杂的 3D 场景具有挑战性,尤其是当自我车辆高速移动时。想象这样一个场景:一辆车辆出现在左前摄像头拍摄的无界场景的边缘,迅速移动到前置摄像头视野的中心,并在随后的帧中缩小为一个遥远的点。对于此类驾驶场景,自我车辆和动态物体都以相对较高的速度移动,这对场景的构建提出了重大挑战。静态背景和动态物体发生快速变化,通过有限的视角来描绘。此外,由于多摄像头设置的外部视图、最小的重叠以及来自不同方向的光线的变化,它变得更具挑战性。复杂的几何形状、多样化的光学退化和时空不一致也对这种 360 度大规模驾驶场景的建模提出了重大挑战。

神经辐射场(NeRF)最近成为一种有前途的神经重建方法,用于建模对象级或房间级场景。最近的一些研究将 NeRF 扩展到大规模、无界静态场景,而一些研究则侧重于对场景内的多个动态对象进行建模。

然而,基于 NeRF 的方法计算量大,需要密集重叠的视图和一致的照明。这些限制了他们利用外部多摄像头设置高速构建驾驶场景的能力。此外,网络容量的限制使得他们很难对具有多个对象的长期动态场景进行建模,从而导致视觉伪影和模糊。

与 NeRF 相比,3D 高斯泼溅(3DGS)用更明确的 3D 高斯表示来表示场景,并在新颖的视图合成中取得了令人印象深刻的性能。然而,由于固定高斯和受限的表示能力,原始的 3D-GS 在大规模动态驾驶场景建模方面仍然遇到重大挑战。一些努力通过在每个时间戳构建高斯函数,将 3D-GS 扩展到动态场景。不幸的是,它们专注于单个动态对象,无法处理涉及静态-动态组合区域和多个高速移动对象的复杂驾驶场景。

在本文中,我们介绍了 DrivingGaussian,这是一种代表周围动态自动驾驶场景的新颖框架。我们的关键思想是使用来自多个传感器的顺序数据对复杂的驾驶场景进行分层建模。我们采用复合高斯分布将整个场景分解为静态背景和动态对象,分别重建每个部分。具体来说,我们首先使用增量静态 3D 高斯从周围的多摄像机视图顺序构建综合场景。然后,我们采用复合动态高斯图来单独重建每个运动对象,并基于高斯图将它们动态地集成到静态背景中。在此基础上,通过高斯喷射进行全局渲染,捕捉现实世界中的遮挡关系,包括静态背景和动态对象。此外,我们在 GS 表示中加入了 LiDAR 先验,与利用随机初始化或 SfM 生成的点云相比,它能够恢复更精确的几何形状并保持更好的多视图一致性。

大量的实验表明,我们的方法在公共自动驾驶数据集上实现了最先进的性能。即使事先没有激光雷达,我们的方法仍然表现出良好的性能,证明了其在重建大规模动态场景方面的多功能性。此外,我们的框架支持动态场景构建和极端情况模拟,有助于验证自动驾驶系统的安全性和鲁棒性。

这项工作的主要贡献是:

  • 据我们所知,DrivingGaussian 是第一个基于复合高斯分布的大规模动态驾驶场景的表示和建模框架。
  • 引入了两个新颖的模块,包括增量静态3D 高斯和复合动态高斯图。前者增量地重建静态背景,而后者则使用高斯图对多个动态对象进行建模。在激光雷达先验的辅助下,该方法有助于在大规模驾驶场景中恢复完整的几何形状。
  • 综合实验表明,DrivingGaussian 在挑战自动驾驶基准方面优于以前的方法,并支持各种下游任务的极端情况模拟。

2.相关工作

用于有界场景的 NeRF。 用于新颖视图合成的神经渲染的快速进展受到了广泛关注。神经辐射场 (NeRF) 利用多层感知器 (MLP) 和可微体积渲染,可以重建 3D 场景并从一组 2D 图像和相应的相机姿态信息合成新颖的视图。然而,NeRF 仅限于有界场景,要求中心物体和相机之间的距离一致。它还难以处理通过轻微重叠和向外捕捉方法捕捉的场景。众多进步扩展了 NeRF 的功能,显着提高了训练速度、姿势优化、场景编辑和动态场景表示。尽管如此,将 NeRF 应用于大规模无界场景,例如自动驾驶场景,仍然是一个挑战。

NeRF 适用于无界场景。 对于大规模无界场景,很多工作引入了NeRF的细化版本来建模多尺度城市级静态场景。受到防止混叠的 mipmapping 方法的启发,一些工作将 NeRF 扩展到无界场景。为了实现高保真渲染,有的工作将紧凑的多分辨率地面特征平面与 NeRF 结合起来,用于大型城市场景。一些工作提出了一种近距离与远距离视图解开方法,该方法可以对无界街景进行建模,但忽略道路上的动态物体。然而,这些方法是在假设场景保持静态的情况下对场景进行建模的,并且在有效捕获动态元素方面面临挑战。

同时,之前基于 NeRF 的方法高度依赖于准确的相机位姿。在没有精确姿势的情况下,一些工作可以从动态单目视频进行合成。然而,这些方法仅限于前向单目视点,并且在处理来自周围多摄像机设置的输入时遇到挑战。对于动态城市场景,一些工作使用场景图将 NeRF 扩展到具有多个对象的动态场景。一些工作提出了用于单目动态场景的实例感知、模块化和真实的模拟器。一些工作改进了周围视图的参数化和相机姿态,同时使用激光雷达作为额外的深度监督。一些工作将场景分解为静态背景和动态物体,并借助激光雷达和2D光流构建场景。

上述基于 NeRF 的方法合成的视图质量在具有多个动态对象、变化和光照变化的场景中会恶化,因为它们依赖于光线采样。此外,LiDAR的使用仅限于提供辅助深度监督,并且其在重建中的潜在好处(例如提供几何先验)尚未被探索。

为了解决这些限制,我们利用复合高斯分布对无界动态场景进行建模,其中静态背景随着自我车辆的移动而逐渐重建,并且通过高斯图对多个动态对象进行建模并集成到整个场景中。采用激光雷达作为高斯的初始化,提供更准确的几何形状先验和全面的场景描述,而不是仅仅充当图像的深度监督。

3D 高斯泼溅。 最近的 3D 高斯分布 (3D-GS) 使用大量 3D 高斯对静态场景进行建模,在新颖的视图合成和训练速度方面取得了最佳结果。与之前的显式场景表示(例如网格、体素)相比,3D-GS 可以用更少的参数对复杂的形状进行建模。与隐式神经渲染不同,3D-GS 允许通过基于 splat 的光栅化进行快速渲染和可微分计算。

动态 3D 高斯泼溅。 最初的 3D-GS 旨在表示静态场景,一些研究人员已将其扩展到动态对象/场景。给定一组动态单目图像,先前工作引入了变形网络来模拟高斯运动。还有的工作通过 HexPlane 连接相邻的高斯,实现实时渲染。然而,这两种方法是专门为聚焦于中心物体的单目单相机场景而设计的。有的工作使用一组演化的动态高斯参数化整个场景。然而,它需要一个具有密集多视图的相机阵列作为输入。

在现实世界的自动驾驶场景中,数据采集平台的高速移动会导致广泛而复杂的背景变化,这些变化通常是通过稀疏视图(例如2-4个视图)捕获的。此外,快速移动的动态物体具有强烈的空间变化和遮挡,使情况进一步复杂化。总的来说,这些因素对现有方法提出了重大挑战。

3.方法

3.1 复合高斯泼溅

3D-GS在纯静态场景中表现良好,但在涉及大规模静态背景和多个动态对象的混合场景中具有明显的局限性。如图 2 所示,我们的目标是使用复合高斯分布来表示无界静态背景和动态对象的周围大规模驾驶场景。

图 2. 我们方法的总体流程。左:DrivingGaussian 从多传感器获取连续数据,包括多摄像头图像和 LiDAR。中:为了表示大规模动态驾驶场景,我们提出了复合高斯泼溅,它由两个部分组成。第一部分增量地重建广泛的静态背景,而第二部分使用高斯图构造多个动态对象并将它们动态地集成到场景中。右图:DrivingGaussian 在多个任务和应用场景中展示了良好的性能。

增量静态 3D 高斯。 驾驶场景的静态背景由于其大规模、持续时间长以及多摄像机变换的自我车辆运动的变化而带来挑战。当自我车辆移动时,静态背景经常经历时间上的转变和变化。由于透视原理,过早地合并远离当前时间步长的遥远街道场景可能会导致比例混乱,从而导致令人不快的伪像和模糊。为了解决这个问题,我们通过引入增量静态 3D 高斯,利用车辆运动带来的视角变化以及相邻帧之间的时间关系来增强 3D-GS,如图 3 所示。

具体来说,我们首先根据 LiDAR 先验提供的深度范围(第 3.2 节)将静态场景统一划分为 N 个 bins。这些 bin 按时间顺序排列,表示为 {bi} N ,其中每个 bin 包含来自一个或多个时间步长的多相机图像。对于第一个 bin 内的场景,我们使用 LiDAR 先验初始化高斯模型(同样适用于 SfM 点):

其中 l ∈ R 3 是 LiDAR 先验位置;µ 是 LiDAR 点的平均值;Σ ∈ R 3×3 是各向异性协方差矩阵;⊤ 是转置运算符。我们利用该箱段内的周围视图作为监督来更新高斯模型的参数,包括位置 P(x, y, z)、协方差矩阵 Σ、与视图相关的颜色 C(r, g, b) 以及不透明度 α。

对于后续的 bin,我们使用前一个 bin 的高斯作为先验位置,并根据重叠区域对齐相邻的 bin。每个 bin 的 3D 中心可以定义为:

其中 ˆP 是当前所有可见区域的高斯 G 的 3D 中心集合,(xb+1, yb+1, zb+1) 是 b + 1 区域内的高斯坐标。迭代地,我们将后续箱中的场景合并到先前构建的高斯模型中,并以多个周围帧作为监督。增量静态高斯模型Gs可定义为:

其中C表示某个视图下每个单高斯对应的颜色,α是不透明度,Γ是场景根据所有bin处的α的累积透射率。在此过程中,周围多摄像头图像之间的重叠区域被用来共同形成高斯模型的隐式对齐。

请注意,在静态高斯模型的增量构建过程中,前后摄像头对同一场景的采样可能存在差异。为了解决这个问题,我们在 3D 高斯投影期间采用加权平均来尽可能准确地重建场景的颜色:

其中~C是优化的像素颜色,ς表示差分泼溅,ω是不同视图的权重,[R, T]是用于对齐多相机视图的视图矩阵。

复合动态高斯图。 自动驾驶环境非常复杂,涉及多个动态对象和时间变化。如图 3 所示,由于自我车辆和动态物体的运动,通常从有限的视角(例如 2-4 个视角)观察物体。高速还导致动态物体发生显着的空间变化,使得使用固定高斯表示它们变得具有挑战性。

图 3. 具有增量静态 3D 高斯和动态高斯图的复合高斯分布。我们采用复合高斯泼溅将整个场景分解为静态背景和动态物体,分别重建每个部分并整合它们进行全局渲染。

为了应对这些挑战,我们引入了复合动态高斯图,能够在大规模、长期驾驶场景中构建多个动态对象。我们首先从静态背景分解动态前景对象,以使用数据集提供的边界框构建动态高斯图。动态对象通过其对象 ID 和相应的出现时间戳来标识。此外,Grounded SAM 模型用于根据边界框的范围精确地逐像素提取动态对象。

然后我们构建动态高斯图为:

其中每个节点存储一个实例对象o ∈ O,gi ∈ Gd 表示对应的动态高斯,mo ∈ M 是每个对象的变换矩阵。po(xt, yt, zt) ε P 是边界框的中心坐标,ao = (θt, phit) ε A 是边界框在时间步 t ∈ T 的方向。这里,我们分别计算高斯函数:每个动态对象。使用变换矩阵 mo,我们将目标对象 o 的坐标系变换到静态背景所在的世界坐标:

其中R−1 o 和S −1 o 是每个对象对应的旋转和平移矩阵。

在优化动态高斯图中的所有节点后,我们使用复合高斯图组合动态对象和静态背景。每个节点的高斯分布根据边界框位置和方向按时间顺序连接成静态高斯场。当多个动态物体之间存在遮挡的情况下,我们根据距相机中心的距离来调整不透明度:越近的物体具有越高的不透明度,遵循光传播的原理:

其中 αo,t 是对象 o 在时间步 t 处调整后的高斯不透明度,pt = (xt, yt, zt) 是对象高斯的中心。[Ro, So] 表示物体到世界的变换矩阵,ρ 表示摄像机视图的中心,αp0 是高斯的不透明度。

最后,包括静态背景和多个动态对象的复合高斯场可以表示为:

其中Gs是在3.1节中通过增量静态3D高斯得到的,H表示优化的动态高斯图。

3.2 具有周围景观的 LiDAR先验

原始 3D-GS 尝试通过运动结构 (SfM) 初始化高斯。然而,自动驾驶的无界城市场景包含许多多尺度的背景和前景。尽管如此,它们只能通过极其稀疏的视图来瞥见,导致几何结构的错误和不完整的恢复。

为了为高斯提供更好的初始化,我们在 3D 高斯之前引入 LiDAR,以获得更好的几何形状并保持周围视图配准中的多摄像机一致性。在每个时间步 t ∈ T,给定一组多摄像机图像从移动平台收集,多帧激光雷达扫描 Lt。我们的目标是使用激光雷达图像多模态数据最大限度地减少多相机配准误差,并获得准确的点位置和几何先验。

我们首先合并 LiDAR 扫描的多个帧以获得场景的完整点云,记为 L。我们遵循 Colmap并从每个图像中单独提取图像特征 X = x q p。接下来,我们将 LiDAR 点投影到周围图像上。对于每个LiDAR点l,我们将其坐标转换到相机坐标系,并通过投影将其与相机图像平面的2D像素进行匹配:

其中 x q p 是图像的 2D 像素,I i t 、Ri t 和 Ti t 分别是正交旋转矩阵和平移向量。K ∈ R 3×3 是已知的相机本征。值得注意的是,激光雷达的点可能会投影到多个图像的多个像素上。因此,我们选择到图像平面欧氏距离最短的点并将其保留为投影点,并分配颜色。

与之前的 3D 重建工作类似,我们将密集束调整 (DBA) 扩展到多相机设置并获得更新的 LiDAR 点。实验结果证明,在与周围多摄像机对齐之前使用 LiDAR 进行初始化有助于为高斯模型提供更精确的几何先验。

3.3 通过高斯泼溅进行全局渲染

我们采用可微分 3D 高斯喷射渲染器 ς 并将全局复合 3D 高斯投影到 2D,其中协方差矩阵 Σ 可由下式给出:

式中,J为透视投影的雅可比矩阵,E为世界到摄像机矩阵。

复合高斯场将全局 3D 高斯投影到多个 2D 平面上,并在每个时间步使用周围视图进行监督。在全局渲染过程中,下一个时间步的高斯最初对当前是不可见的,随后并入相应全局图像的监督中。

我们方法的损失函数由三部分组成。继先前工作之后,我们首先将图块结构相似度(TSSIM)引入高斯分布,它测量渲染图块与相应地面实况之间的相似度。

其中我们将屏幕分成 M 个图块,δ 是高斯的训练参数,Ψ( ˆC) 表示复合高斯分布的渲染图块,Ψ(C) 表示配对的真实图块。我们还引入了鲁棒损失来减少三维高斯分布中的异常值,它可以定义为:

其中,κ∈(0,1)是控制损失鲁棒性的形状参数,I 和 ˆI 分别表示地面实况和合成图像。

通过监督激光雷达的预期高斯位置,进一步利用激光雷达损失,获得更好的几何结构和边缘形状:

其中 P(Gcomp) 是 3D 高斯的位置,Ls 是先验的 LiDAR 点。我们通过最小化三个损失的总和来优化复合高斯。

4.实验

4.1 数据集

nuScenes数据集是自动驾驶的公共大规模数据集,包含使用多个传感器(6 个摄像头、1 个 LiDAR 等)收集的 1000 个驾驶场景。它具有 23 个对象类的注释以及精确的 3D 边界框。我们的实验使用 6 个具有挑战性的场景的关键帧,以及从 6 个摄像机收集的周围视图和相应的 LiDAR 扫描(可选)作为输入。KITTI-360数据集包含多个传感器,对应超过 320k 图像和点云。尽管数据集提供了立体相机图像,但我们仅使用单个相机来证明我们的方法在单眼场景中也表现良好。

4.2 实现细节

我们的实现主要基于3D-GS框架,并通过微调优化参数来适应大规模无界场景。我们没有使用 SfM 点或随机初始化点作为输入,而是使用 3.2 节中提到的 LiDAR 作为初始化。考虑到计算成本,我们对激光雷达点使用体素网格滤波器,在不丢失几何特征的情况下缩小尺度。考虑到对象在大规模场景中相对较小,我们对动态对象采用随机初始化,初始点设置为 3000。我们将总训练迭代次数增加到 50,000 次,将致密梯度的阈值设置为 0.001,并将不透明度间隔重置为 900。增量静态 3D 高斯的学习率与官方设置相同,而复合的学习率动态高斯图从 1.6e-3 呈指数衰减到 1.6e-6。所有实验均在8台RTX8000上进行,总共384GB内存。

4.3 结果与比较

nuScenes 上周围视图合成的比较。 我们针对最先进的方法进行基准测试,包括基于 NeRF 的方法和基于 3DGS 的方法。

如表 1 所示,我们的方法大大优于 InstantNGP,后者采用基于哈希的 NeRF 进行新颖的视图合成。Mip-NeRF和 MipNeRF360是针对无界室外场景设计的两种方法。我们的方法在所有评估指标上也显着超过了它们。

表 1. DrivingGaussian 与 nuScenes 数据集上现有最先进方法的总体性能。Ours-S 表示使用 SfM 初始化的 DrivingGaussian,Ours-L 表示使用 LiDAR 先验训练高斯模型。

Urban-NeRF首先将LiDAR引入NeRF来重建城市场景。然而,它主要仅利用激光雷达来提供深度监控。相反,我们利用激光雷达作为更准确的几何先验,并将其纳入高斯模型,事实证明对于大规模场景重建更有效。与 S-NeRF和 SUDS相比,我们提出的方法取得了更好的结果,这两种方法都将场景分解为静态背景和动态对象,并借助 LiDAR 构建场景。与我们的主要竞争对手 EmerNeRF相比,EmerNeRF使用流场对动态驾驶场景应用时空表示。我们的方法在所有指标上都优于它,消除了估计场景流的必要性。对于基于高斯的方法,我们的方法提高了基线方法 3D-GS在所有评估指标的大规模场景上的性能,并实现了最佳结果。

我们还在具有挑战性的 nuScenes 驾驶场景上与我们的主要竞争对手 EmerNeRF和 3D-GS进行定性比较。对于多摄像头的环绕视图合成,如图 1 所示,我们的方法能够生成逼真的渲染图像,并确保多摄像头之间的视图一致性。与此同时,EmerNeRF和 3D-GS在具有挑战性的区域中苦苦挣扎,显示出不良的视觉伪像,例如重影、动态对象消失、植物纹理细节丢失、车道标记和远处场景模糊。

我们进一步展示了动态时间场景的重建结果。我们的方法可以准确地对大规模场景中的动态对象进行建模,从而减轻这些动态元素的丢失、重影或模糊等问题。随着时间的推移,我们还保持构建动态对象的一致性,即使它们以相对较快的速度移动。相比之下,先前工作都未能对快速移动的动态对象进行建模,如图 4 所示。

图 4. 动态重建的定性比较。我们展示了与主要竞争对手 EmerNeRF和 3D-GS在 nuScenes 4D 驾驶场景动态重建方面的定性比较结果。DrivingGaussian 能够高速高质量地重建动态对象,同时保持时间一致性。

KITTI-360 上单视图合成的比较。 为了进一步验证我们的方法在单目驾驶场景设置上的有效性,我们使用 KITTI-360 数据集进行实验,并将其与现有的 SOTA 方法进行比较,包括基于 NeRF 的方法 NeRF、MipNeRF360、基于点的方法Point-NeRF、基于图的方法 NSG、基于流的方法 SUDS和基于网格的方法 DNMP。如表2所示,我们的方法在单目驾驶场景中表现出了最佳性能,大幅超越了现有方法。

表 2. DrivingGaussian 与 KITTI-360 数据集上现有最先进方法的总体性能。

4.4 消融实验。

高斯先验初始化。 通过对比实验分析不同先验和初始化方法对高斯模型的影响。原始的3D-GS提供了两种初始化模式:随机生成点和COLMAP计算的SfM点。我们还提供了另外两种初始化方法:从预先训练的 NeRF 模型导出的点云和使用 LiDAR 先验生成的点。

同时,为了分析点云数量的影响,我们将LiDAR下采样到600K,并应用自适应滤波(1M)来控制生成的LiDAR点的数量。我们还为随机生成的点设置了不同的最大阈值(600K 和 1M)。其中,SfM600K±20K表示COLMAP计算出的点数,NeRF-1M±20K表示预训练NeRF模型生成的总点数,LiDAR-2M±20k表示LiDAR原始点数。

如表 3 所示,随机生成的点会导致最差的结果,因为它们缺乏任何几何先验。由于点稀疏和无法容忍的结构误差,使用 SfM 点初始化也无法充分恢复场景的精确几何形状。利用预先训练的 NeRF 模型生成的点云提供了相对准确的几何先验,但仍然存在明显的异常值。对于用LiDAR先验初始化的模型,虽然下采样导致一些局部区域的几何信息丢失,但仍然保留了相对准确的结构先验,从而超越了SfM(图5)。我们还可以观察到实验结果并不随着激光雷达点数量的增加而线性变化。我们推断这是因为过于密集的点存储了冗余特征,干扰了高斯模型的优化。

表 3. 不同初始化方法对高斯模型的影响。LiDAR-600K †表示将原始LiDAR数据下采样到相应的点云量级。LiDAR-1M ‡ 表示在我们的方法中使用的 LiDAR 点中的去噪和异常值去除。

图 5. 在 KITTI-360 上使用不同初始化方法的可视化比较。与使用 SfM 点进行初始化相比,使用 LiDAR 先验可以让高斯模型恢复场景中更准确的几何结构。

每个模块的有效性。 我们分析每个提出的模块如何对最终性能做出贡献。如表4所示,复合动态高斯图模块在重建动态驾驶场景中发挥着至关重要的作用,而增量静态3D高斯模块则能够实现高质量的大规模背景重建。这两个新颖的模块显着提高了复杂驾驶场景的建模质量。关于所提出的损失函数,结果表明 LT SSIM 和 LRobust 都显着提高了渲染质量,增强了纹理细节并消除了伪影。LLiDAR 在 LiDAR 先验的辅助下,帮助高斯获得更好的几何先验。实验结果还表明,即使事先没有 LiDAR,DrivingGaussian 也能表现良好,表现出对各种初始化方法的强大鲁棒性。

表 4. 我们提出的方法中每个模块的效果。IS3G 是增量静态 3D 高斯模块的缩写,CDGG 是复合动态高斯图模块的缩写。

4.5. 极端情况模拟

我们展示了我们在现实驾驶场景中模拟极端情况的方法的有效性。如图 6 所示,我们可以将任意动态对象插入到重建的高斯场中。模拟场景保持时间相干性,并在多个传感器之间表现出良好的传感器间一致性。我们的方法可以实现自动驾驶场景的可控模拟和编辑,促进安全自动驾驶系统的研究。

图 6. 极端情况模拟示例。使用 DrivingGaussian 模拟极端情况:一名男子在路上行走,突然摔倒,前方有一辆汽车驶近。

5.结论

我们介绍 DrivingGaussian,这是一种基于所提出的复合高斯分布来表示大规模动态自动驾驶场景的新颖框架。DrivingGaussian 使用增量静态 3D 高斯逐步对静态背景进行建模,并使用复合动态高斯图捕获多个移动对象。我们进一步利用 LiDAR 先验来实现精确的几何结构和多视图一致性。DrivingGaussian 在两个自动驾驶数据集上实现了最先进的性能,实现了高质量的周围视图合成和动态场景重建。

关注“学姐带你玩AI”公众号,回复“3D高斯

领取3D高斯创新方案paper+code

往期精彩阅读

👉kaggle比赛baseline合集

👉经典论文推荐合集

👉人工智能必读书籍

👉本专科硕博学习经验

评论区留言参与讨论嗷