专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

北大&清华开源！S3Gaussian：首个无需标注的自动驾驶动态Gaussian！

计算机视觉工坊 · 公众号 · · 2024-06-18 11:11

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

一句话总结： S3Gaussian使用3D Gaussians来对自动驾驶的动态场景进行建模，而无需其他监督（例如，3D边界框） 。

近年来，自动驾驶技术取得了显著进展，并在其流程的每个阶段都开发了各种技术，包括感知、预测和规划。随着端到端自动驾驶的出现，它直接从传感器输入输出控制信号，自动驾驶系统的开环评估不再有效，因此迫切需要改进。作为一种有希望的解决方案，现实世界中的闭环评估需要传感器输入来控制视图，这推动了高质量场景重建方法的发展。

尽管在小规模场景的光照现实重建方面已经做出了许多努力，但驾驶场景的大规模和高动态特性给3D场景的有效建模带来了新的挑战。为了适应这些挑战，大多数现有工作采用跟踪的3D边界框来分解静态和动态元素。然而，昂贵的3D轨迹标注限制了它们在野外数据的3D建模应用。EmerNerf通过同时学习场景流并使用它来连接4D NeRF场中的对应点，进行多帧重建，从而实现了无需显式边界框即可区分静态和动态对象。然而，由于渴望低延迟和明确的表示，3D驾驶场景建模正在从基于NeRF的重建转向3D高斯溅射。尽管EmerNerf展示了有前景的结果，但它只能用于基于NeRF的场景建模，这需要很长时间进行训练和渲染。如何在没有明确3D监督的情况下实现城市场景的3D高斯溅射仍不清楚。

为了解决上述问题，我们提出了一种名为S3Gaussian的自监督街道高斯方法，该方法为动态街道场景提供了一种鲁棒的解决方案，且无需3D监督。具体来说，为了处理驾驶场景中固有的复杂时空变形，S3Gaussian以一种自监督的方式引入了用于场景分解的前沿时空场。该时空场结合了多分辨率Hexplane结构编码器和紧凑的多头高斯解码器。Hexplane编码器旨在将4D输入网格分解为多分辨率、可学习的特征平面，从而有效地从动态街道场景中聚合时空信息。在优化过程中，多分辨率Hexplane结构编码器有效地分离了整个场景，为每个场景实现了规范表示。与动态相关的特征存储在时空平面中，而与静态相关的特征则保留在仅空间的平面中。利用密集编码的特征，多头高斯解码器从规范表示中计算出变形偏移量。然后，将这些变形添加到原始3D高斯属性（包括位置和球面谐波）中，允许根据时间序列动态改变场景表示。

下面一起来阅读一下这项工作~

1. 论文信息

标题：S3Gaussian: Self-Supervised Street Gaussians for Autonomous Driving

作者：Nan Huang, Xiaobao Wei, Wenzhao Zheng, Pengju An, Ming Lu, Wei Zhan, Masayoshi Tomizuka, Kurt Keutzer, Shanghang Zhang

机构：UC伯克利、北京大学、清华大学

原文链接：https://arxiv.org/abs/2405.20323

代码链接：https://github.com/nnanhuang/S3Gaussian/

官方主页：https://wzzheng.net/S3Gaussian/

2. 摘要

街道场景的光照真实3D重建是开发自动驾驶现实世界模拟器的一项关键技术。尽管神经辐射场（NeRF）在驾驶场景中具有有效性，但3D高斯映射（3DGS）由于速度更快且表示方式更明确而成为一个有前景的方向。然而，大多数现有的街道3DGS方法需要跟踪的3D车辆边界框来分解静态和动态元素以实现有效重建，这限制了它们在野外场景中的应用。为了促进无需昂贵标注的高效3D场景重建，我们提出了一种自监督街道高斯（S3Gaussian）方法，从4D一致性中分解动态和静态元素。我们使用3D高斯表示每个场景以保留明确性，并进一步与时空场网络结合，以紧凑地建模4D动态。我们在具有挑战性的Waymo-Open数据集上进行了大量实验，以评估我们方法的有效性。我们的S3Gaussian展示了分解静态和动态场景的能力，并在不使用3D标注的情况下取得了最佳性能。代码可访问：https://github.com/nnanhuang/S3Gaussian/。

3. 效果展示

在Waymo-NOTR数据集上的定性比较。在左侧，我们展示了新视角合成的结果；在右侧，展示了动态场景重建的结果。通过提出的自监督场景分解的时空网络，我们的S3Gaussian方法以高保真度和锐利细节产生了最佳的渲染质量。

尽管EmerNerf展示了有前景的结果，但它只能用于基于NeRF的场景建模，这需要很长时间进行训练和渲染。如何在没有明确3D监督的情况下实现城市场景的3D高斯溅射仍然不清楚。

4. 主要贡献

• 我们提出了S3Gaussian，这是第一个无需额外手动标注数据即可分解街道场景中动态和静态3D高斯体的自监督方法。

• 为了模拟驾驶场景中复杂的变化，我们引入了一个高效的空间-时间分解网络，以自动捕获3D高斯体的变形。

• 我们在具有挑战性的数据集（包括NOTR和Waymo）上进行了全面的实验。结果表明，S3Gaussian在场景重建和新视图合成任务上均达到了最先进的渲染质量。

5. 基本原理是啥？

我们的目标是从移动车辆捕获的一系列图像中学习街道动态环境的时空表示。然而，由于观测视图的数量有限以及为动态和静态对象获取真实标签注释的高成本，我们旨在以完全自监督的方式学习静态和动态组件的场景分解，避免使用包括动态对象的边界框、场景分解的分割掩码和运动感知的光流等额外注释的监督。

为实现这些目标，我们提出了一种新的场景表示方法，名为S3Gaussian。首先，我们将3D高斯函数提升到4D，以更好地表示动态和复杂的场景。然后，我们引入了一种新颖的空间-时间场网络来整合高维空间-时间信息，并将其解码以转换4D高斯函数。最后，我们描述了整个优化过程，消除了额外的注释。

对于自监督街道场景分解，我们提出了一种基于多分辨率六平面的编码器将4D网格编码为特征平面，并提出了一个多头高斯解码器将其解码为变形的4D高斯。我们以自监督的方式在没有额外注释的情况下优化了整个模型，并实现了卓越的场景分解能力和渲染质量。

6. 实验结果

Waymo-NOTR 数据集上的结果表明，我们的方法在场景重建和新颖视图合成方面始终优于其他方法，如表 1 所示。对于 static32 数据集，我们利用 PSNR、SSIM 和 LPIPS作为指标来评估渲染质量。对于 dynamic32 数据集，我们额外包括了专注于动态对象的 PSNR* 和 SSIM* 指标。具体来说，我们将动态对象的 3D 边界框投影到 2D 图像平面上，并仅在投影框内计算像素损失。我们的指标优于其他现有方法，表明我们在动态对象建模方面的性能更优越。此外，尽管静态场景表示不是我们的主要关注点，但我们的方法在这方面也表现异常出色。因此，我们的方法更加灵活和通用。表 2 展示了 StreetGaussian收集的数据集上的结果。StreetGaussian 是一种基于高斯分布的动态对象表示的最新方法。我们的方法与 StreetGaussian 性能相近，但区别在于 StreetGaussian 使用额外的边界框来建模动态对象，而我们的方法不需要任何明确的监督。如图 4 所示，与使用明确监督的 StreetGaussian [60] 相比，我们的方法在远程动态对象的自监督重建方面表现出色。此外，我们的方法对场景细节的变化（如交通信号灯的变化）更加敏感。此外，StreetGaussian 在天空中出现了噪声，导致渲染质量下降。

7. 总结 & 未来工作

在本文中，我们提出了S3Gaussian，这是首个用于在复杂驾驶场景中区分动态和静态元素的自监督街道高斯方法。S3Gaussian采用时空场网络来实现场景的自动分解，该网络由一个多分辨率六边形平面结构编码器和一个多头高斯解码器组成。给定全局空间中的4D网格，所提出的六边形平面编码器将特征聚合到动态或静态平面上。然后，我们将这些特征解码为变形的4D高斯分布。整个流程在没有任何额外标注的情况下进行了优化。在包括NOTR和Waymo在内的挑战性数据集上进行的实验表明，S3Gaussian展现出了卓越的场景分解能力，并在不同任务中获得了最先进的渲染质量。我们实现了丰富的定量结果，以阐明S3Gaussian中每个组件的有效性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉工坊官网： www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、