专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

3天400 star！ETH开源DepthSplat：连接3DGS和深度估计！

3DCV · 公众号 · · 2024-10-26 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：DepthSplat: Connecting Gaussian Splatting and Depth

作者：Haofei Xu, Songyou Peng, Fangjinhua Wang, Hermann Blum, Daniel Barath, Andreas Geiger, Marc Pollefeys

机构：ETH Zurich、University of Tübingen, Tübingen AI Center、Microsoft

原文链接：https://arxiv.org/abs/2410.13862

代码链接：https://github.com/cvg/depthsplat

1. 导读

高斯分布和单/多视图深度估计通常被孤立地研究。在本文中，我们提出深度谱来连接高斯谱和深度估计，并研究它们之间的相互作用。更具体地说，我们首先通过利用预训练的单目深度特征贡献了一个鲁棒的多视图深度模型，从而产生高质量的前馈3D高斯分布重建。我们还表明，高斯splatting可以作为无监督的预训练目标，用于从大规模无标记数据集学习强大的深度模型。我们通过广泛的消融和跨任务转移实验验证了高斯分布和深度估计之间的协同作用。我们的DepthSplat在ScanNet、RealEstate10K和DL3DV数据集上实现了深度估计和新颖视图合成方面的一流性能，证明了连接这两项任务的互利性。

2. 引言

新视角合成和深度预测是计算机视觉中的两项基础任务，它们是推动增强现实、机器人技术和自动驾驶等众多应用发展的核心动力。近年来，这两个领域都取得了显著进展。

在新视角合成方面，三维高斯溅射（3DGS）因其出色的实时性能和较高的视觉保真度而成为一项流行技术。最近，前馈3DGS模型取得了进展，减少了繁琐的逐场景优化需求，同时实现了少量视角下的三维重建。最新的稀疏视角方法MVSplat依赖于基于特征匹配的多视角深度估计来定位三维高斯位置，这使其面临与其他多视角深度方法类似的局限性（如遮挡、无纹理区域和反射表面）。推荐课程：单目深度估计方法：算法梳理与代码实现。

另一方面，单目深度估计取得了重大进展，最近的模型能够在各种野外数据上实现稳健预测。然而，这些深度值通常在视图间缺乏一致性，限制了它们在下游任务中的性能。此外，最新的多视角和单目深度模型均使用真实深度监督进行训练，这妨碍了利用大型未标注数据集进行更稳健的深度预测。

将3DGS与单/多视角深度估计相结合，为解决每种技术的各自局限性并同时增强其优势提供了一个引人注目的解决方案。为此，我们提出了DepthSplat，它利用稀疏视角前馈3DGS和稳健的单/多视角深度估计的互补性，以提高这两项任务的性能。

具体来说，我们首先通过将预训练的单目深度特征整合到多视角特征匹配分支中，贡献了一个稳健的多视角深度模型。这不仅保持了多视角深度模型的一致性，还在难以匹配的情况下（如遮挡、无纹理区域和反射表面）产生了更稳健的结果。然后，将预测的多视角深度图反投影到三维空间作为高斯中心，并使用额外的轻量级网络预测其他剩余的高斯参数。将它们组合在一起，通过溅射操作实现新视角合成。

我们在大规模数据集TartanAir、ScanNet和RealEstate10K上进行了深度估计和高斯溅射任务的广泛实验，以及最近在DL3DV（数据集上的实验，该数据集以复杂的现实世界场景为特点，因此更具挑战性。在各种评估设置下，我们的DepthSplat均取得了最优结果。在这两项任务上的强劲表现证明了将高斯溅射与深度估计相结合带来的互惠互利。

3. 效果展示

得益于我们改进的多视角深度模型，使用高斯溅射的新视角合成质量也得到了显著提升（见图1左侧）。此外，我们的高斯溅射模块是完全可微分的，这仅需要光度监督来优化所有模型组件。这提供了一种新的无监督方式，可以在大规模未标注数据集上预训练深度预测模型，而无需真实的几何信息。预训练的深度模型可以针对特定的深度任务进行进一步微调，并且相比从头开始训练取得了更优的结果（见图1右侧，其中无监督预训练带来了性能提升）。

单目功能极大地改善了无纹理区域(例如，第一个示例中的墙壁)和反射表面(例如，第二个示例中的冰箱)等具有挑战性的情况。

3DGS的单目特征对RealEstate10K的影响。在没有单目特征的情况下，该模型难以预测无法找到对应关系的像素的可靠深度(例如，用读取的矩形高亮显示的躺椅)，这随后由于不正确的几何形状而导致渲染图像中的不对准。

4. 方法

给定N张输入图像{Ii}Ni=1（Ii ∈ RH×W×3，其中H和W是图像尺寸）及其对应的投影矩阵{Pi}Ni=1（Pi ∈ R3×4，由内参和外参矩阵计算得出），我们的目标是预测每张图像的密集逐像素深度Di ∈ RH×W和逐像素高斯参数{(μj, αj, Σj, cj)}H×W×Nj=1，其中μj、αj、Σj和cj分别是三维高斯的位置、不透明度、协方差和颜色信息。如图2所示，我们方法的核心是增强了单目深度特征的多视角深度模型，我们通过相机参数将深度反投影到三维空间以获得每个高斯的位置μj，而其他高斯参数则由额外的轻量级头部预测。

更具体地说，我们的深度模型包含两个分支：一个分支使用代价体积对特征匹配信息进行建模，另一个分支从预训练的单目深度网络中提取单目特征。代价体积和单目特征被拼接在一起，用于后续的深度回归，通过二维U-Net和softmax层实现。对于深度任务，我们使用真实深度监督来训练我们的深度模型。我们用于新视角合成的完整模型使用光度渲染损失进行训练，该损失也可以作为深度模型的无监督预训练阶段。

5. 实验结果

6. 总结 & 未来工作

在本文中，我们介绍了DepthSplat，这是一种将高斯溅射（splatting）与深度相结合的新方法，旨在ScanNet、RealEstate10K和DL3DV数据集上的深度和视图合成任务上实现最优结果。我们还展示了，通过高斯溅射渲染损失，我们的模型能够实现无监督的预训练深度，从而提供了一种利用大规模未标注多视图图像数据集来训练更多具有多视图一致性和鲁棒性的深度模型的方法。我们当前的模型需要输入相机姿态信息以及多视图图像，移除这一要求将是未来令人兴奋的研究方向。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球