专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

ECCV'24开源 | 无惧遮挡、动态、光照变化！最鲁棒的3DGS！

计算机视觉工坊 · 公众号 · · 2024-07-17 11:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

一句话总结： WildGaussians通过外观和动态变化来增强3DGS在野外场景中的表现 ！

从一组图像中重建逼真的三维表示在各个领域都有着重要的应用，包括生成沉浸式虚拟现实体验、为在线平台、游戏和电影创建三维内容，以及为机器人技术模拟三维环境。主要目标是从一组具有已知相机姿态的输入图像中，实现多视角一致的三维场景表示，从而能够从新的视角进行逼真的渲染。

最近，神经辐射场（Neural Radiance Fields，NeRFs）通过学习一个辐射场来解决这一挑战，该辐射场结合了密度场和依赖于观察方向的颜色场。这些场通过体渲染进行渲染。尽管能够产生高度逼真的渲染效果，但NeRFs需要对每个像素的辐射场进行大量样本评估，以准确逼近体积分。而高斯溅射（Gaussian Splatting，3DGS）则作为一种更快的替代方案应运而生。3DGS明确地将场景表示为一组三维高斯分布，从而能够通过光栅化以与NeRFs相当的渲染质量实现实时渲染。

仅从训练视角学习场景表示会在几何形状和依赖于视角的效果之间引入歧义。NeRFs和3DGS都被设计为学习一致的几何形状，同时模拟非朗伯效应，通过表示中的隐式偏差来解决歧义。这在具有一致照明和最小遮挡的受控环境中效果良好，但在不同条件和更大遮挡水平下通常会失败。然而，在实际应用中，图像的捕获无法控制环境。

为了解决这些问题，我们提出通过可训练的外观嵌入来增强高斯分布，并使用一个小型多层感知机（MLP）来整合图像和外观嵌入，以预测基础颜色的仿射变换。这个MLP仅在训练阶段或捕获新图像外观时需要。在此阶段之后，可以将外观“烘焙”回标准3DGS公式中，从而在保持3DGS表示的可编辑性和灵活性的同时，确保快速渲染。为了稳健地处理遮挡问题，我们引入了一个基于DINO特征损失的不确定性预测器，即使在外观变化的情况下，也能在训练过程中有效地消除遮挡物。

下面一起来阅读一下这项工作~

1. 论文信息

标题：WildGaussians: 3D Gaussian Splatting in the Wild

作者：Jonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler

机构：ETH Zurich

原文链接：https://arxiv.org/abs/2407.08447

代码链接：https://github.com/jkulhanek/wild-gaussians/

官方主页：https://wild-gaussians.github.io/

2. 摘要

尽管由于神经辐射场（NeRFs）的光照真实性，其在3D场景重建领域占据主导地位，但最近兴起的3D高斯溅射（3DGS）技术却以实时渲染速度提供了相似的质量。然而，这两种方法主要擅长于控制良好的3D场景，而对于野外数据（其特征是遮挡、动态物体和变化的光照）而言，它们仍面临挑战。虽然NeRFs可以通过每图像嵌入向量轻松适应这些条件，但3DGS却因其显式表示和缺乏共享参数而陷入困境。为此，我们提出了WildGaussians这一新方法，以利用3DGS处理遮挡和外观变化。通过利用鲁棒的DINO特征和在3DGS中集成外观建模模块，我们的方法取得了最先进的成果。我们证明，WildGaussians在保持3DGS实时渲染速度的同时，在处理野外数据方面超越了3DGS和NeRF基线，且这一切都在一个简单的架构框架内实现。

3. 效果展示

WildGaussians将3DGS扩展到具有外观和照明变化的场景（左）。它联合优化了基于DINO的不确定性预测器来处理遮挡（右）。

为了能够对具有不同外观的图像（在一天中的不同时间捕获的图像）进行训练，我们使用外观建模模块扩展了3DGS，该模块实现了与3DGS相同的推理速度。在这些可视化中，我们在不同的训练图像嵌入之间进行插值，以演示每种方法如何处理外观变化。请注意，我们报告了在NVIDIA 4090上以全高清分辨率（1920x1080）计算的FPS。

4. 主要贡献

我们的贡献可以总结为：

（1）外观建模：通过为每个高斯分布添加一个可训练的嵌入向量，并与色调映射MLP相结合，扩展了3DGS。这使得渲染图像能够根据特定输入图像的嵌入进行条件化。此扩展保留了渲染速度，并与3DGS保持兼容。

（2）不确定性优化：引入了一种对外观变化具有鲁棒性的不确定性优化方案，该方案不会破坏自适应密度控制中使用的梯度统计信息。该方案利用训练图像和预测图像之间DINOv2特征的余弦相似度来创建不确定性掩码，从而在训练过程中有效地消除遮挡物的影响。源代码、模型检查点和视频对比可在以下网址获取：https://wild-gaussians.github.io/

5. 基本原理是啥？

我们的方法名为 WildGaussians，如图 2 所示。为了让基于 3DGS（三维几何和语义）的方法能够处理不受控制的场景捕捉，我们提出了两个关键组件：

（1）外观建模使我们的方法能够处理观察到的像素颜色不仅取决于观察角度，还取决于如捕捉时间和天气等条件的情况。遵循基于 NeRF（神经辐射场）的方法，从不同条件下捕获的图像中重建场景，我们对每一张训练图像进行外观嵌入训练，以建模这些条件。此外，我们对每个高斯分布进行外观嵌入训练，以建模局部效应，例如场景中由灯产生的部分主动照明。这两种嵌入都用于转换存储在高斯分布中的颜色，以匹配给定场景外观的预期颜色。为此，我们通过多层感知机（MLP）在颜色空间中预测一个仿射映射。

（2）不确定性建模允许我们的方法在训练阶段通过确定哪些训练图像区域应该被忽略来处理遮挡物。为此，我们从训练图像中提取 DINO v2 特征，并将它们作为输入传递给一个可训练的仿射变换，该变换预测每个像素的不确定性，编码图像的哪些部分可能对应于静态区域，哪些部分显示遮挡物。通过比较从训练图像和渲染图像中提取的 DINO 特征之间的余弦相似度来优化不确定性预测器。

6. 实验结果

如表1和图4所示，我们的方法显著优于两种基线方法，尤其是在中（15-20%）到高（30%）遮挡场景下。与NeRF On-the-go相比，我们的方法在渲染速度上快了400倍，而且更能有效地去除遮挡物。此外，我们能够更好地表示远处较少见的背景区域（图4中的第一行和第三行）。有趣的是，由于3DGS具有以初始点云形式存在的几何先验，因此它对低遮挡率场景具有相当的鲁棒性。然而，对于高遮挡场景，3DGS在去除遮挡方面存在困难。这证明了我们的不确定性建模策略的有效性。

表2和图5展示了在具有挑战性的Photo Tourism数据集上的结果。对于NeRF On-the-go数据集，我们的方法在所有基于NeRF的基线方法上都有显著的改进，同时实现了实时渲染（类似于3DGS）。与3DGS相比，我们能够巧妙地处理外观变化，如日夜转换，同时不牺牲精细的细节。这显示了我们的外观建模的有效性。与基于NeRF的基线方法K-Planes相比，我们的方法在细节上更为丰富，例如在特莱维喷泉的流水和文字上可见一斑。最后，与3DGS相比，我们的方法在NeRF On-the-go数据集上具有可比的渲染速度，但在Photo Tourism数据集上则快得多。这是因为3DGS试图增加不必要的高斯分布来解释由于外观变化引起的高梯度。

7. 总结 & 限制性

我们的 WildGaussians 模型将高斯溅射（Gaussian Splatting）扩展到不受控制的野外环境设置中，这些环境中的图像是在不同时间或季节拍摄的，通常存在不同比例的遮挡物。成功的关键在于我们为 3DGS（三维几何和语义）量身定制的新型外观和不确定性建模，这确保了高质量的实时渲染。我们相信我们的方法是在利用嘈杂的、众包的数据源实现鲁棒且多功能的逼真重建方面迈出的一步。

局限性。虽然我们的方法能够实现具有实时渲染功能的外观建模，但目前还不能捕捉物体上的高光。此外，尽管不确定性建模比均方误差（MSE）或结构相似性指数（SSIM）更鲁棒，但在一些具有挑战性的场景中仍然表现不佳。处理这一问题的一种方法是引入额外的先验知识，如预训练的扩散模型。我们将其留作未来的工作。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉工坊官网： www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划 、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等 。

ECCV'24开源 | 无惧遮挡、动态、光照变化！最鲁棒的3DGS！

正文

0. 这篇文章干了啥？

1. 论文信息

2. 摘要

3. 效果展示

4. 主要贡献

5. 基本原理是啥？

6. 实验结果

7. 总结 & 限制性

3D视觉工坊交流群

3D视觉工坊知识星球

3D视觉相关硬件

请到「今天看啥」查看全文

ECCV'24开源 | 无惧遮挡、动态、光照变化！最鲁棒的3DGS！

正文

0. 这篇文章干了啥？

1. 论文信息

2. 摘要

3. 效果展示

4. 主要贡献

(adsbygoogle = window.adsbygoogle || []).push({}); 5. 基本原理是啥？

6. 实验结果

7. 总结 & 限制性

3D视觉工坊交流群

3D视觉工坊知识星球

3D视觉相关硬件

请到「今天看啥」查看全文

5. 基本原理是啥？