专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
51好读  ›  专栏  ›  3D视觉工坊

清华开源GaussianWorld:搭建高斯世界模型,精准预测3D语义Occupancy!

3D视觉工坊  · 公众号  ·  · 2024-12-18 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

作者:Sicheng Zuo, Wenzhao Zheng, Yuanhui Huang, Jie Zhou, Jiwen Lu

机构:清华大学

原文链接:https://arxiv.org/abs/2412.10373

代码链接:https://github.com/zuosc19/GaussianWorld

1. 导读

3D占用率预测对于自动驾驶非常重要,因为它可以全面感知周围环境。为了合并顺序输入,大多数现有方法融合来自先前帧的表示来推断当前的3D占用。然而,他们未能考虑驾驶场景的连续性,并忽略了3D场景的演变所提供的强先验(例如,只有动态对象移动)。在本文中,我们提出了一个基于世界模型的框架来开发感知的场景演化。我们将3D占用率预测重新表述为基于当前传感器输入的4D占用率预测问题。我们将场景演化分解为三个因素:1)静态场景的自我运动对齐;2)动态对象的局部运动;以及3)完成新观察的场景。然后,我们采用高斯世界模型(Gaussian world)来明确地利用这些先验,并考虑当前的RGB观察来推断3D高斯空间中的场景演变。我们在广泛使用的nuScenes数据集上评估了我们的框架的有效性。我们的GaussianWorld在mIoU中将单帧对应的性能提高了2%以上,而没有引入额外的计算。

2. 引言

以视觉为中心的3D占据预测因其在自动驾驶中的关键应用而近期备受关注。该任务旨在基于视觉输入来估计3D环境中每个体素(voxel)的占据状态和语义标签。3D占据提供了对场景的更为精细的语义和结构描述,这对于开发安全且稳健的自动驾驶系统至关重要。

对于3D占据预测而言,利用时序输入非常重要,因为它为理解场景演变提供了充分的历史背景。大多数现有方法遵循感知、转换和融合的传统流程。给定序列输入,感知模块独立地获取每帧的场景表示,如鸟瞰图(BEV)特征或代价体积(cost volume)特征。然后,转换模块基于自车轨迹对齐多帧特征,而融合模块融合对齐后的表示以推断当前的3D占据。然而,这些方法未能考虑驾驶场景演变所固有的连续性和简洁性。相邻帧中的驾驶场景表示应该是密切相关的,因为场景演变通常仅源自自车和其他动态物体的移动。直接融合多帧表示忽略了3D场景演变所提供的这一强先验,即静态物体的连贯性和动态物体的运动,这使得模型难以理解驾驶场景的发展。此外,这种设计增加了时序建模的复杂性和计算量,降低了其效率和有效性。

在本文中,我们探索了一种基于世界模型的范式,即GaussianWorld,以利用场景演变进行感知。我们采用显式的3D高斯分布作为场景表示,而不是传统的隐式BEV/体素表示,这能够实现对象运动的显式且连续建模。为了便于感知,我们将3D占据预测重新定义为基于当前传感器输入的4D占据预测问题。给定历史3D高斯分布和当前视觉输入,GaussianWorld旨在预测场景如何演变并预测当前的占据情况。为此,我们将场景演变分解为三个因素:1)静态场景的自车运动对齐;2)动态物体的局部运动;3)新观测区域的补全。为了在3D高斯空间中建模这些因素,我们首先根据自车轨迹将历史3D高斯分布对齐到当前帧。我们还用随机高斯分布补全新观测区域,从而便于对这些新区域的感知。我们提出了一个统一的细化层,以同时建模历史高斯分布的进展和新补全高斯分布的感知。最后,我们利用所有细化后的高斯分布来预测场景演变并确定当前的占据情况。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

为了证明GaussianWorld的有效性,我们在广泛使用的nuScenes数据集上进行了大量实验。我们的GaussianWorld能够有效预测场景演变,并在不引入额外计算的情况下,将单帧占据预测的平均交并比(mIoU)提高了2%以上。

3. 效果展示

虽然单帧3D占用预测方法表现出强大的性能,但时间信息的结合可以进一步改善结果。然而,大多数现有方法融合过去的场景表示来推断当前的3D占用,这忽略了驾驶场景的连续性并引入了额外的计算。不同的是,我们提出了一个基于世界模型的框架,用于流式3D占用预测,并使用当前相机观察作为输入,显式地模拟场景演变。我们的框架提高了现有方法的性能,而没有额外的计算开销。

不同时间建模方法结果的可视化。每张图片下的数字表示每一帧的自我轨迹。

4. 方法

GaussianWorld用于流式3D语义占据预测的框架。随着自车从上一帧移动到当前帧,我们首先根据自车轨迹将历史高斯分布对齐到当前时间,并用随机高斯分布补全新观测区域。然后,我们利用由自编码、交叉注意力和统一细化模块组成的多个高斯世界层,同时预测历史高斯分布的演变和补全高斯分布的属性。细化后的高斯分布能够建模场景演变并生成当前的占据情况。

场景演化的三个分解因素图解。我们将场景演化分解为三个关键因素:静态场景的自我运动对齐、动态对象的局部运动和新观察区域的完成。

建议的统一细化块的图示。我们使用感知模式来更新新完成的高斯模型的所有属性。我们使用运动模式来预测历史高斯的演化,其中在演化层Evol中仅更新动态高斯的位置,而在细化层Refine中更新历史高斯的所有属性。

5. 实验结果

以视觉为中心的3D语义占据预测。在表1中,我们针对nuScenes验证集上的以视觉为中心的3D语义占据预测任务,与当前其他最先进的方法进行了全面比较,占据标签来自SurroundOcc。对于GaussianWorld的第一个训练阶段,我们在单帧设置下复制了GaussianFormer,记为GaussianFormer-B。仅使用25600个高斯分布,它就实现了与当前最先进方法相当的性能。鉴于该基准测试中缺乏时间建模方法,我们为进行公平比较,引入了GaussianFormer的时间融合变体,记为GaussianFormer-T。经过第二阶段的训练,我们的GaussianWorld远超所有单帧模型以及基于时间融合的GaussianFormer。与单帧模型GaussianFormer-B相比,其语义平均交并比(mIoU)提高了2.4%,几何IoU提高了2.7%。此外,GaussianWorld的性能也优于时间融合模型GaussianFormer-T,mIoU提高了1.7%,IoU提高了2.0%。这些结果凸显了我们在感知方面基于世界模型的框架相较于传统时间融合方法的优越性。

不同时间建模方法的比较。我们基于GaussianFormer提供了不同时间建模方法的性能和效率比较。我们探索了两种实现GaussianFormer-T的方法,分别在3D高斯空间和透视视图空间中进行时间融合。对于前者,我们独立地为每帧提取3D高斯表示,并利用4D稀疏卷积来促进跨帧3D高斯之间的时间交互。对于后者,我们独立地为每帧提取多尺度图像特征,并采用可变形注意力机制来实现当前帧3D高斯与不同帧图像特征之间的交互。如表2所示,我们的GaussianWorld在显著降低延迟和内存消耗的同时,远超其他所有时间建模方法。值得注意的是,与单帧模型相比,我们的GaussianWorld在几乎相同的推理延迟和内存消耗下显著提升了性能。这归功于我们统一且简洁的模型架构,能够处理单帧输入和流式输入,而不会引入额外的计算。

场景演变分解因素的消融实验。我们的GaussianWorld明确地对基于世界模型的感知中的场景演变三个分解因素进行建模。为了评估这些因素的影响,我们进行了消融实验以验证其有效性,如表3所示。当不建模自我运动时,我们的模型直接从上一帧的3D高斯表示进行预测,而不基于自我轨迹进行全局仿射变换。这导致mIoU下降了3.0%,凸显了自我运动补偿的必要性。忽略动态物体的运动会损害我们模型表示动态场景的能力,从而导致性能略有下降。若不对新观察到的区域进行场景补全,我们的模型将仅依赖初始的3D高斯表示来描绘场景序列。随着自我车辆的移动,所有高斯分布最终都会落在感知范围之外,导致训练崩溃。

6. 总结

我们利用场景演变进行3D语义占据预测的框架。我们将3D占据预测重新定义为基于当前传感器输入的4D占据预测问题。我们将场景演变分解为三个因素,并利用3D高斯分布的显式性来有效且高效地对其进行建模。然后,我们采用高斯世界模型(GaussianWorld)来显式地利用3D高斯空间中的场景演变,并以流式方式促进3D语义占据预测。与现有方法相比,我们的模型展示了最先进的性能,且没有引入额外的计算开销。将我们的模型应用于其他感知任务是一个有趣的未来研究方向。

局限性。由于动态和静态元素之间的分离不准确,我们的模型无法实现静态场景的完全跨帧一致性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文