专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
科技美学  ·  真我GT7 ... ·  21 小时前  
科技美学  ·  真我GT7 ... ·  21 小时前  
51好读  ›  专栏  ›  3D视觉工坊

港大重磅开源PanoSLAM:首次在统一SLAM框架内集成几何重建、3D语义分割、3D实例分割!

3D视觉工坊  · 公众号  ·  · 2025-01-05 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM

作者:Runnan Chen, Zhaoqing Wang, Jiepeng Wang, Yuexin Ma, Mingming Gong, Wenping Wang, Tongliang Liu

机构:The University of Sydney、The University of Hong Kong、ShanghaiTech University、The University of Melbourne、Texas A&M University

原文链接:https://arxiv.org/abs/2501.00352

代码链接:https://github.com/runnanchen/PanoSLAM

1. 导读

从序列视频数据中理解3D场景中的几何、语义和实例信息对于机器人和增强现实中的应用是至关重要的。然而,现有的同步定位与地图创建(SLAM)方法通常关注几何或语义重建。在本文中,我们介绍了PanoSLAM,它是第一个将几何重建、3D语义分割和3D实例分割集成在一个统一框架内的SLAM系统。我们的方法建立在3D高斯分布的基础上,通过几个关键组件进行修改,以实现从任意视点对深度、颜色、语义和实例信息的有效渲染。为了从连续的RGB-D视频实现全景3D场景重建,我们提出了一个在线时空提升(STL)模块,该模块将2D全景预测从视觉模型转换为3D高斯表示。该STL模块通过细化跨多视图输入的伪标签,创建增强分割准确性的连贯3D表示,解决了标签噪声和2D预测不一致的挑战。我们的实验表明,PanoSLAM在映射和跟踪精度上都优于最近的语义SLAM方法。首次直接从RGB-D视频实现了开放世界环境的全景3D重建。

2. 效果展示

我们展示了PanoSLAM,一个基于三维高斯扫描的SLAM系统能够从未标记的RGB-D视频中重建三维几何、语义和姿态。

3. 引言

语义同时定位与地图构建(SLAM)结合了场景重建和相机位姿估计与语义场景理解,相比传统SLAM提供了对环境更全面的解读。通过生成三维语义地图,语义SLAM促进了自动驾驶、机器人导航和数字城市规划等多个领域的应用。这些语义地图有助于高级决策和环境交互,使语义SLAM成为智能系统的核心技术。

然而,现有的语义SLAM方法在全面捕捉三维场景的全景特性方面存在局限,全景特性包括实例级和语义级细节这一重要方面。此外,这些方法通常依赖于密集标记的场景来进行语义映射,这一要求在开放世界环境中尤其不切实际,因为场景多样性使得手动标记变得不切实际,而且耗时费力、成本高昂。这一挑战凸显了一个根本问题: 如何在不需要手动语义标注的情况下,从序列视频数据中重建全景三维场景?

我们的方法受到近期视觉基础模型(如CLIP和SAM)突破的启发,这些模型在不同环境中展示了非凡的零样本感知能力。这些基础模型为将二维视觉知识转移到三维表示(包括点云、神经场和三维高斯)开辟了新的可能性,从而实现了无需标签的三维场景理解。然而,这些模型在SLAM中的应用受到大量离线优化需求的阻碍,这与SLAM的在线需求相冲突。

高斯溅射(Gaussian Splatting)的最新进展通过利用三维高斯表示在场景重建方面取得了令人瞩目的成果,这种方法通过基于溅射的方法实现了高质量且高效的渲染。一些SLAM系统采用了三维高斯溅射来实现逼真的场景映射。然而,将视觉基础模型集成到SLAM系统中以实现开放世界三维场景理解仍是一个未探索的领域,这导致了在全景SLAM重建方法上存在空白。

在本工作中,我们通过引入PanoSLAM来解决这一空白,PanoSLAM是一个新颖的SLAM框架,能够从未标记的RGB-D视频输入中实现全景三维场景重建。我们的方法基于高斯溅射技术,并通过针对全景渲染的关键修改进行了增强,包括语义高斯初始化、密集化和全景分割公式。我们方法的一个主要挑战是处理标签噪声,因为我们依赖于视觉模型提供的二维全景预测的伪标签。这些伪标签容易受到噪声的影响,例如不同视图中的掩码预测和类别标签不一致,这会在优化过程中产生冲突并降低语义地图的质量。为了应对这一挑战,我们引入了一个时空提升(STL)模块,该模块通过将伪标签投影到三维空间中,利用多视图一致性来提高三维标签的可靠性,从而精炼噪声伪标签。我们的STL模块集成了多视图二维全景预测,以创建连贯的三维表示,解决了标签噪声问题,并促进了高质量的全景场景重建。 推荐课程: 室内、室外激光SLAM关键算法、代码和实战剖析(cartographer+LOAM+ LIO-SAM)

我们在Replica和ScanNet++等基准数据集上对PanoSLAM进行了评估,我们的方法在映射和跟踪准确性方面显著优于最近的语义SLAM方法。值得注意的是,PanoSLAM是第一个实现无需手动标签的全景三维场景重建的方法。我们的工作将高效的高斯溅射与视觉基础模型相结合,扩展了在多样化开放世界环境中进行全景三维重建的可能性。

4. 主要贡献

我们的贡献如下:

• 我们介绍了首个在SLAM框架内基于高斯溅射的全景三维场景重建方法。

• 我们提出了一种创新的时空提升模块,用于在多个视图之间实现一致的二维到三维知识蒸馏,解决了全景重建中噪声标签的挑战。

• 我们的实验结果表明,PanoSLAM实现了最先进的性能,开创了无需标签的全景三维场景重建先河。

5. 方法

当前的语义SLAM方法在捕捉实例级和语义细节(统称为全景信息)方面存在不足。在本节中,我们介绍了一种新方法,称为PanoSLAM,旨在从未标记的RGB-D视频中高效重建三维全景语义地图。PanoSLAM通过将二维视觉模型的知识转移到在线SLAM系统中来实现这一目标。具体而言,我们通过对基于高斯溅射的SLAM进行有针对性的修改,增强了基于高斯的SLAM框架渲染全景信息的能力。此外,我们还开发了一种新颖的时空提升模块来有效处理噪声标签。

6. 实验结果

当前的语义SLAM方法在捕捉实例级和语义细节(统称为泛视信息)方面存在不足。在本节中,我们介绍了一种新方法,称为PanoSLAM,旨在高效重建三维场景。我们与最先进的方法在分割(表1)、跟踪(表2)、渲染(表5)和重建(表6)结果等多个维度上进行了全面的定量比较。此外,我们在图3中展示了定性结果。

语义分割。语义分割结果如表1和表3所示。作为首个无需标签的语义SLAM,我们将我们的方法与基线SEEM的预测进行了比较。我们的方法在Replica和ScanNet++数据集上均表现出更好的性能,凸显了其在无需标签的泛视和语义分割方面的有效性。

跟踪。如表2所示,我们的方法相比其他语义SLAM方法在跟踪准确性方面表现更优。这一改进在很大程度上归功于时空提升技术,该技术确保了语义信息在时间和不同视点间的一致性,有效减少了跟踪过程中的累积漂移。

渲染。表5展示了Replica数据集输入视图上的渲染质量。与其他密集语义SLAM方法相比,我们的方法在峰值信噪比(PSNR)、结构相似性(SSIM)和感知图像补丁相似性(LPIPS)指标上均取得了最高性能,表明了其卓越的视觉保真度。

重建。如表6所示,我们的方法在重建准确性方面优于其他语义SLAM方法,证明了其在三维映射过程中的卓越有效性和效率。

定性结果。图3展示了PanoSLAM的定性评估结果,突出了其在渲染外观、语义和深度方面的性能。值得注意的是,PanoSLAM在没有任何手动标签的情况下实现了令人印象深刻的泛视和语义分割结果,凸显了其在无需标签环境中的鲁棒性。

运行时间分析。表4提供了运行时间分析,显示与SplaTAM相比,由于增加了泛视处理,我们的方法在跟踪(19.9毫秒对比15.2毫秒)和映射(46.0毫秒对比27.0毫秒)方面的每次迭代时间略高。然而,每帧时间仍然高效,STL模块的开销极小(0.979毫秒),证实了我们的方法总体上具有高效性。

7. 总结 & 未来工作

我们介绍了PanoSLAM,这是首个能够从未标注RGB-D视频中重建泛视三维场景的高斯基SLAM方法。为了有效地将二维视觉基础模型中的知识提炼到三维高斯溅射SLAM框架中,我们提出了一种新颖的时空提升模块。实验结果表明,我们的方法显著优于最先进的方法。此外,我们首次成功地在无任何手动标签的情况下恢复了三维开放世界场景中的泛视信息。

局限性与未来工作。目前,我们的方法依赖于二维视觉基础模型生成伪标签来指导语义重建。然而,这些标签可能存在噪声,特别是在具有精细复杂细节的区域,如大型复杂房间中的花叶。尽管我们的时空提升模块提供了一定改进,但在这些区域实现精确语义重建仍然具有挑战性。在未来的工作中,我们旨在探索将多视图信息集成到二维视觉基础模型中的方法,以生成更准确、更详细的语义标签,最终提升语义场景重建的质量。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文