专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

多校联合！设备-边缘-云”框架！CoSurfGS：基于LMC和MAS的高效大规模表面重建！

3D视觉工坊 · 公众号 · · 2024-12-26 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种“设备-边缘-云”框架，旨在通过分布式方法实现大规模场景的表面重建。文章的核心创新在于引入了局部模型压缩（LMC）和模型聚合方案（MAS）来优化重建过程。LMC模块通过消除局部模型间的冗余高斯点，减少内存占用，而MAS模块则通过优化全局合并模型，提升渲染质量和效率。通过在UrbanScene3D、MegaNeRF和BlendedMVS数据集上的大量实验，证明该方法不仅在表面重建精度、时间效率和内存成本方面达到最佳表现，还能够提供与现有最先进方法相当的渲染质量。此外，文章还通过测试不同的模型压缩策略，展示了如何在降低内存消耗的同时，保持高质量的重建效果。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：CoSurfGS:Collaborative 3D Surface Gaussian Splatting with Distributed Learning for Large Scene Reconstruction

作者：Yuanyuan Gao, Yalun Dai

作者机构：Brain and Artificial Intelligence Lab, Northwestern Polytechnical University等

论文链接：https://arxiv.org/pdf/2412.17612

2. 摘要

3D高斯溅射（3DGS）在场景重建中展示了出色的表现。然而，大多数现有的基于高斯溅射（GS）的表面重建方法集中于3D物体或有限场景。将这些方法直接应用于大规模场景重建时，会面临高内存消耗、过长的计算时间以及几何细节缺失等挑战，这使得其在实际应用中难以实施。为了解决这些问题，我们提出了一种基于分布式学习的多代理协同快速3DGS表面重建框架，用于大规模表面重建。具体来说，我们开发了局部模型压缩（LMC）和模型聚合方案（MAS），以在减少GPU内存消耗的同时实现大场景的高质量表面表示。我们在Urban3d、MegaNeRF和BlendedMVS上的大量实验表明，我们提出的方法能够实现快速且可扩展的高保真表面重建和逼真渲染。我们的项目页面可访问 https://gyy456.github.io/CoSurfGS。

3. 效果展示

本方法与其他曲面重建方法的三维网格对比。Scene-01、Scene-02、Scene-03、Scene-04的结果从上到下表示。区分区域被“□”放大。

我们的方法和其他方法在图像和深度渲染上的定性结果，它显示了瓦砾和建筑物的结果，其他大型场景的可视化可以在Supp. 9.1中看到。

4. 主要贡献

我们提出了一种基于分布式学习的协同大规模表面重建方法，实现了训练时间的大幅缩短。
我们提出了局部模型压缩（LMC）和模型聚合方案（MAS），用于实现低GPU内存消耗的高质量全局场景表面表示。
综合实验表明，我们的方法在表面重建方面达到了最先进的性能，超越了所有现有方法。同时，在小说视图合成方面也取得了竞争力的结果。此外，与所有现有方法相比，我们的CoSurfGS显著减少了训练时间和内存消耗

5. 基本原理是啥？

分布式表面重建 ：

该框架将大规模的表面重建任务分配到不同层级的设备上，包括设备端（Device）、边缘计算（Edge）和云端（Cloud）。通过在不同的计算层级之间分配任务，可以有效地提高重建效率和降低计算压力。

局部模型压缩（LMC） ：

在设备和边缘计算层面，提出了局部模型压缩（Local Model Compression, LMC）模块。LMC模块的作用是通过去除局部模型之间冗余的高斯点，减少模型的内存占用，并提升计算效率。压缩后的模型能够保持较好的表面重建精度，同时减少存储需求。

模型聚合与优化（MAS） ：

通过模型聚合和优化（Model Aggregation Scheme, MAS）模块，系统能够有效地合并来自多个设备的局部模型，并优化最终的全局模型。MAS模块帮助减少边界区域的模糊现象，从而提升合并模型的精度。

分布式计算架构 ：

该框架通过设备端和边缘计算端分担计算负载，利用云端进行全局模型的合成与优化。每个设备负责较小的计算区域，减少了计算压力，并能更快地收敛。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

低资源消耗 ：

与传统的重建方法相比，本文提出的方法不仅能够提供更高的表面重建精度，还能显著降低训练时间和内存消耗。这使得大规模场景的表面重建在实际应用中更加可行。

6. 实验结果

主要结果

表面重建（Surface Reconstruction）

定量结果 ：

在使用 BlendedMVS 数据集的实验中，本文提出的方法相比现有的重建方法，表现出显著的性能提升。在 F-score 度量上，本文方法比现有方法提高了**+0.05**。

定性结果 ：

本文方法通过与其他方法的比较，展示了在几何细节捕捉方面的优势，尤其是在**"Rubble" 场景中，我们的方法能够准确建模电报杆的细节。图3中的可视化结果表明，本文方法不仅能够完整地表示整个场景，还能够精确地捕捉几何表示的细节。此外，我们在补充材料 Supp. 9.2**中提供了渲染法线图的可视化结果，进一步证明了方法的有效性。

新视图合成（Novel View Synthesis, NVS）

定量结果 ：

在 Tab. 2 和 Fig. 4 中，本文方法在大规模NVS和大规模表面重建（带网格）任务中的渲染质量上表现出了领先的成果。与现有的表面重建方法相比，本文方法在 SSIM 、 PSNR 和 LPIPS 三个指标上分别提高了**+0.1 、 +3.0 和 +0.4** 。
这种显著的改进得益于本文提出的分布式方法，每个设备负责较小的区域，从而促进了更好的收敛。而其他的表面重建方法通常在整个场景上进行训练，导致对大规模场景的表示不足，精度和渲染质量较差。此外，现有方法还常因内存不足（OOM）而无法完成训练。

定性结果 ：

图4展示了现有表面重建方法在渲染结果中细节的缺乏，造成了模糊的外观。

训练资源消耗（Training Resources Consumption）

对比结果 ：

与其他大规模重建方法相比，本文方法在 训练时间 和 内存消耗 上表现出了显著的优势。在 Tab. 3 中，本文方法显示了最低的时间和内存成本，使得大规模场景的表面重建在实际应用中更加可行。

消融研究（Ablation Study）

模型聚合方案（MAS）

结果：

在 Tab. 4 中，加入 MAS 步骤后，本文方法的性能显著提升。相比没有MAS的模型，PSNR提升了**+7.0 ，SSIM提升了 +0.3 ，LPIPS提升了 +0.3**。MAS的加入还使得模型变得更加轻量。
图5展示了没有MAS时边界区域出现大量漂浮点的现象，表明MAS模块能够有效减轻边界区域的模糊现象。

局部模型压缩（LMC）

结果：

在 Tab. 5 中，使用 LMC 后，模型的内存需求减少了一半，并且在NVS上的性能得到了提升。图6显示了没有使用LMC时，聚合模型的几何表示不准确，导致渲染图像中出现模糊区域，以及法线和深度图中的伪影。通过去除边界区域的冗余高斯点，LMC方法能够提供更加一致的法线和更平滑的深度表示。

压缩百分比（Compression Percentage）

实验设置 ：

在进行设备训练时，本文测试了三种不同的压缩百分比（40%、60%、80%）对模型性能的影响，尤其是在 Rubble 场景中。
在保持较高渲染质量的同时，通过80%的压缩率，内存使用量减少到了40%压缩率的一半，且性能降幅较小。 Tab. 6 中的数据表明，80%的压缩率仍能保持较好的渲染效果。

7. 总结 & 未来工作

在本文中，我们提出了一种“设备-边缘-云”框架，以实现分布式表面重建。在设备-边缘和边缘-设备聚合过程中，所提出的LMC模块可以消除局部模型之间的冗余高斯点，而MAS模块则有助于优化合并后的全局模型。在UrbanScene3D、MegaNeRF和BlendedMVS数据集上的大量实验表明，我们的方法在表面重建精度、时间、内存成本方面均取得了最佳结果，并且在渲染质量上与当前的最先进方法相当。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

多校联合！设备-边缘-云”框架！CoSurfGS： 基于LMC和MAS的高效大规模表面重建！

正文