专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
上下五千年故事  ·  李时珍草本足浴包:睡前泡泡脚,轻松赶走老湿寒 ... ·  3 天前  
历史与秩序  ·  云南旧影1938年,丽江古城保山腾冲 ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

清华 & 哈佛开源!Momentum-GS:高质量大场景重建

3D视觉工坊  · 公众号  ·  · 2024-12-10 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction

作者:Jixuan Fan, Wanhua Li, Yifei Han, Yansong Tang

机构:Tsinghua Shenzhen International Graduate School, Tsinghua University、Harvard University

原文链接:https://arxiv.org/abs/2412.04887

代码链接:https://jixuan-fan.github.io/Momentum-GS_Page/

1. 导读

3D高斯Splatting在大规模场景重建中取得了显著的成功,但由于高训练内存消耗和存储开销,挑战仍然存在。集成隐式和显式特征的混合表示提供了一种减轻这些限制的方法。然而,当应用于并行的逐块训练时,出现了两个关键问题,因为当独立训练每个块时,由于数据多样性降低,重建精度恶化,并且并行训练将划分的块的数量限制为GPU的可用数量。为了解决这些问题,我们提出了Momentum-GS,这是一种新的方法,它利用基于动量的自蒸馏来提高块之间的一致性和准确性,同时将块的数量与物理GPU数量相分离。我们的方法维护一个用动量更新的教师高斯解码器,确保训练期间的稳定参考。这位老师以自我升华的方式为每个街区提供整体指导,促进重建中的空间一致性。为了进一步确保块之间的一致性,我们引入了块加权,根据重建精度动态调整每个块的权重。在大规模场景上的大量实验表明,我们的方法始终优于现有技术,与CityGaussian相比,在LPIPS方面实现了12.8%的改善,并且具有更少的分割块,建立了一种新的技术状态

2. 引言

大规模三维场景重建对于众多应用领域至关重要,包括自动驾驶、虚拟现实、环境监测以及航空测绘。从图像集合中准确重建大型复杂场景的能力,对于创建逼真的、可导航的三维模型,以及支持高质量的可视化、分析和模拟至关重要。

三维高斯溅射(3D-GS)因其高重建质量和快速渲染速度而近期备受关注,性能优于基于NeRF的方法。在此基础上,近期的方法进一步提升了其在大规模场景中的性能。为了更高效地处理大型环境,这些方法通常采用分而治之的策略,将大型场景划分为多个独立块,以便在这些块之间实现多GPU训练。这种方法有助于实现复杂、庞大重建任务的可扩展训练。然而,显式表示数百万个高斯函数会产生巨大的内存和存储需求,从而限制了3D-GS在广泛场景中的可扩展性。此外,由于大型场景捕获中不可避免的因素,如光照变化、自动曝光调整或相机姿态的不准确性,单独训练每个块通常会忽略块间的关系,导致块边界处的不一致。这个问题会导致可见过渡,在使用CityGaussian等方法时,会出现错误渲染的突变光照变化。解决这些问题已成为推动三维场景重建领域发展的核心焦点。 推荐课程: 基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

混合表示通过结合隐式和显式特征,已成为解决内存和存储限制的一种有前景的方法。为了管理大型场景的复杂性,这些表示将密集体素网格或基于锚点的结构与稀疏三维高斯场相结合。这些方法通常使用多层感知器(MLP)作为高斯解码器,能够生成实现高重建精度同时确保高效推理的神经高斯函数。解码后的高斯函数会根据不同的视角、距离和场景细节动态调整。例如,在Scaffold-GS中,在推理期间,神经高斯函数的预测仅限于可见视锥体内的锚点,并通过学习到的选择过程根据不透明度过滤掉不重要的高斯函数。这种方法使得渲染速度与原始3D-GS相当。此外,神经高斯函数会在视锥体内实时动态生成,允许每个锚点自适应地为不同的视角和距离预测高斯函数。这种自适应机制增强了新颖视图合成的鲁棒性,能够在各种视角下提供高质量渲染,同时保持可接受的计算开销。

然而,在并行化的大规模三维场景重建中应用混合表示面临两个主要挑战。首先,独立训练每个块会限制每个块内高斯解码器的数据多样性,降低重建质量,并产生由于独立高斯解码器而无法合并的单独模型。相比之下使用共享高斯解码器的并行训练允许合并训练后的模型,但会限制可扩展性,因为块的数量受到可用GPU数量的限制。这些限制凸显了需要一种在块间一致性和可扩展性之间取得平衡的方法。

为了克服这些限制,我们提出了Momentum-GS,这是一种新方法,它将混合表示的优点与针对大规模场景重建独特需求定制的策略相结合。我们的方法将块的数量与GPU限制解耦,从而允许重建任务的灵活扩展。这是通过周期性地从n个块中采样k个块并将它们分布在k个GPU上来实现的。为了增强块之间的一致性,我们引入了场景动量自蒸馏,其中使用动量更新的教师高斯解码器为每个块提供一致的全局指导。该框架鼓励跨块的协作学习,确保每个块都能从整个场景的更广泛上下文中受益。此外,我们还引入了重建引导的块加权,这是一种动态机制,根据重建质量调整每个块的权重。这种自适应加权使共享解码器能够优先处理表现不佳的块,增强全局一致性,并防止收敛到局部最小值。

为了全面评估所提出方法的有效性,我们在五个具有挑战性的大规模场景(包括建筑物、废墟、住宅、科幻艺术和城市矩阵)上进行了大量实验。我们的Momentum-GS取得了显著改进,相比CityGaussian,在LPIPS上实现了12.8%的提升,同时使用的分块数量要少得多。

3. 效果展示

碎石堆重建结果的比较数据集。Momentum-GS重建了更精细的细节,例如在放大视图中车辆的清晰结构。此外,我们的方法在块之间产生更平滑的过渡,展示了更好的连贯性,并避免了其他基于高斯的方法中观察到的明显的照明差异。

4. 主要贡献

我们的贡献包括:

我们引入了场景动量自蒸馏,以提高高斯解码器的性能,并将分块数量与GPU数量解耦,从而实现可扩展的并行训练。

我们的方法采用了重建引导的块加权,根据重建质量动态调整块的权重,以确保重点改进表现较弱的块,从而提高整体一致性。

我们的方法Momentum-GS的重建质量优于最先进的方法,凸显了混合表示在大规模场景重建中的强大潜力。

5. 方法

图2.使用混合表示以分治方式重构大规模场景的三种方法的比较。两个块的示例:(a)每个块独立训练导致由于独立的Gaussian解码器而无法合并的模型,使渲染复杂化;(b)使用共享Gaussian解码器的并行训练,允许合并输出,但受到GPU可用性的限制;(c)我们的方法使用Momentum Gaussian解码器为每个块提供全局指导,并提高块之间的连贯性。

我们的方法首先将场景划分为多个块(左),周期性地对块的子集(例如,4个块)进行采样,并将它们分配给可用的GPU进行并行处理。动量高斯解码器为每个块提供稳定的全局指导,确保块之间的一致性。为了将在线高斯与动量高斯解码器对准,应用了一致性损失。在splatting期间,预测图像与地面真实图像进行比较,并且所得到的重建损失用于更新共享的在线高斯解码器。此外,重建引导的块加权动态调整每个块的重点,优先考虑表现不佳的块,以增强整体场景的一致性。

6. 实验结果

定量结果。在表1中,我们报告了四个大规模场景中的PSNR、SSIM和LPIPS指标。我们的Momentum-GS在所有场景中在SSIM和LPIPS方面表现最佳,在感知质量方面显著优于其他方法。这些结果表明,Momentum-Gs有效地平衡了精细细节的保留和高渲染质量。值得注意的是,基于NeRF的方法在Sci-Art数据集上实现了更高的PSNR。我们发现Sci-Art数据集存在明显的模糊,这可能是由于离焦拍摄条件造成的。基于NeRF的方法倾向于产生更平滑、通常略微模糊的重建,这可能更接近于Sci-Art数据的固有特性,从而导致人为提高的PSNR分数。然而,在考虑SSIM和LPIPS时,基于高斯的方法,包括我们的Momentum-GS,优于基于NeRF的方法,这表明在保留不同场景的结构和感知细节方面具有优越的能力。

可视化结果。在图4中,我们提供了在不同场景下的重建结果的视觉比较。与其他方法相比,我们的Momentum-Gs展示了优越的细节保真度,并产生了更锐利、更逼真的图像。而其他方法在复杂区域中往往会出现明显的模糊或结构损失,而我们的方法在所有场景中都能实现清晰且定义良好的渲染。这些结果突显了Momentum-GS在捕捉精细细节和保持视觉清晰度方面的有效性。

7. 总结

在本文中,我们介绍了Momentum-GS,这是一种新颖的基于动量的自蒸馏框架,能够显著提升大规模场景重建中的三维高斯溅射(3D Gaussian Splatting)效果。Momentum-GS的核心是一个动量更新的教师高斯解码器,它作为一个稳定的全局参考,用于指导并行训练块,有效促进重建场景中空间的一致性和连贯性。我们进一步引入了一种重建引导块加权机制,该机制根据重建质量动态调整每个块的权重,从而进一步提升整体一致性。我们的方法利用混合表示,将隐式和显式特征相结合,实现了灵活的缩放,使块的数量不再受GPU限制的束缚。实验结果表明,混合表示和基于动量的自蒸馏在稳健的大规模三维场景重建方面展现出了强大的能力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文