专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

PSNR竟能到30？CrossView-GS：大规模场景重建新SOTA！

3DCV · 公众号 · · 2025-01-07 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：CrossView-GS: Cross-view Gaussian Splatting For Large-scale Scene Reconstruction

作者：Chenhao Zhang, Yuanping Cao, Lei Zhang

机构：Beijing Institute of Technology

原文链接：https://arxiv.org/abs/2501.01695

1. 导读

3D Gaussian Splatting (3DGS)已成为场景表示和重建的一种重要方法，它利用密集分布的高斯图元来实现高分辨率图像的实时渲染。虽然现有的3DGS方法在具有较小视图变化的场景中表现良好，但是在交叉视图场景中较大的视图变化对这些方法提出了优化挑战。为了解决这些问题，我们提出了一种新的基于双分支融合的大规模场景重建的跨视图高斯拼接方法。我们的方法从空中和地面视图作为两个独立的分支独立地重建模型，以建立高斯分布的基线，在初始化和加密期间为跨视图重建提供可靠的先验。具体而言，引入梯度感知正则化策略来减轻由显著的视图差异引起的平滑问题。此外，利用独特的高斯补充策略将双分支的互补信息纳入交叉视图模型。在基准数据集上的大量实验表明，与最先进的方法相比，我们的方法在新视图合成方面取得了更好的性能。

2. 效果展示

左图:与Scaffold-GS相比，我们的方法在横向视NYC场景上实现了更好的渲染质量。右:该图显示，SOTA方法在优化交叉视图场景时遇到困难导致与基干两个单独视图的单独重建相比性能下降。我们的方法克服了大视图变化的挑战，并在PSNR等定量评估方面超越了SOTA方法。

交叉视图重建引起的梯度平滑问题。第一行显示了使用交叉视图或单视图重建时不同视图在致密化过程中的最大梯度变化。第二行和第三行代表Scaffold-GS的结果，最后一行表示我们的CrossView-GS使用交叉视图数据的结果

3. 引言

三维高斯泼溅（3DGS）通过密集分布的高斯基元来表示三维场景，从而能够实时渲染高分辨率和高质量的图像。它已逐渐成为场景表示的一种流行方法。近年来，随着传感器的迅速发展和无人设备的普及，使用无人机和手机以低成本捕获具有跨视图数据的大规模场景已成为可能。从空中和地面视角收集的跨视图数据提供了一种全面的方法，其中空中视角提供广泛覆盖，而地面视角则关注细节，从而能够实现对复杂场景的全面重建。这项技术在虚拟现实、智慧城市和地理信息系统等领域具有重要的应用价值等。

然而，基于3DGS的现有重建方法通常假设输入图像来自覆盖场景周围的视图集合，这些视图具有相对稳定的视角变化，并通过在固定步骤内随机选择的视图中计算平均梯度来实现自适应加密控制（ADC）。实际上，视角的显著差异可能会导致ADC出现问题。在基于跨视图图像进行重建时，某一视角中的显著梯度可能会因其他具有大变化的视角而被过度平滑，这会影响梯度显著区域的加密效果。这最终会导致重建结果不完整，甚至可能劣于使用单个视图所获得的重建结果。一些方法使用基于空中视角的3DGS进行迭代外推，生成低空视图以近似地面视图，从而实现跨视图配准和重建。但是，该方法需要为每个场景手动预先指定一系列中间高度的相机姿态，并且依赖于基于感知正则化函数的新视图合成具有高度鲁棒性的假设，这大大增加了重建的难度。此外，如何有效利用跨视图数据中的互补信息进行重建的问题仍有待充分探索。

基于跨视图数据的经典方法通常采用类似孪生的架构。这种设计分别从空中和地面视角提取信息以建立两个分支，并在分支之间融合信息以完成跨视图场景中的下游任务。这种方法有效地解决了空中和地面视角之间存在显著差异所带来的挑战，同时充分利用了它们固有的独特信息。受此方法启发，我们采用分别重建的双分支模型，为空中和地面视角建立高斯分布的基线。这些分布提供了可靠的先验信息，在初始化和加密过程中指导跨视图重建的优化，解决了跨视图数据中视角变化显著所带来的优化挑战，并实现了大规模场景的全面重建。推荐课程：为什么说colmap仍然是三维重建的核心？

本文的主要贡献是提出了一种基于跨视图的大规模场景重建方法，该方法通过双分支融合实现。我们首先基于空中和地面视角构建双分支作为先验，为跨视图重建提供初始化所需的点云。然后，在重建过程中应用基于双分支模型生成的伪标签的梯度感知正则化。随后，我们通过独特的高斯补充方法进一步整合互补信息。我们在MatrixCity、UC-GS和ISPRS等基准数据集的代表性场景上广泛验证了我们的贡献。实验结果表明，我们提出的方法有效解决了3DGS在跨视图重建中的优化挑战，并在新视图合成方面优于以往的工作。

4. 方法

如图2所示，我们的方法旨在从无人机和地面设备捕获的一系列跨视图图像中重建大规模场景。

具体来说，我们首先独立训练使用空中和地面视角的双分支模型，以促进跨视图重建，并从空中模型中提取结构化点云，作为跨视图重建的初始分布。然后，应用基于双分支模型生成的伪标签的梯度感知正则化来优化重建过程。最后，通过评估双分支模型的重叠区域，将独特的高斯基元纳入跨视图重建中，并通过微调完成最终重建。

5. 实验结果

6. 总结 & 未来工作

我们基于跨视图数据提出了CrossView-GS方法，用于大规模场景重建。我们构建了双分支模型作为先验，通过分别重建航拍视图和地面视图，有效地指导了跨视图三维地面场景（3DGS）的优化，并实现了大规模场景的高质量重建。实验证据表明，我们的方法优于当前最先进的方法。在未来的工作中，我们计划引入分治策略，以利用跨视图数据实现超大规模场景的重建。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括