专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

你好，SLAM！帧率高达3000 FPS的极快语义GS SLAM来袭！定位、建图全SOTA！

3DCV · 公众号 · · 2024-10-05 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting

作者：Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, Hamid Rezatofighi

机构：Monash University、Mohamed bin Zayed University of Artificial Intelligence

原文链接：https://arxiv.org/abs/2409.12518

1. 摘要

我们提出了Hi-SLAM，一种语义3D高斯Splatting SLAM方法，其特征在于一种新颖的分层分类表示，该方法能够在3D世界中实现精确的全局3D语义映射、放大能力和显式语义标签预测。语义SLAM系统中的参数使用随着环境复杂性的增加而显著增加，使得场景理解特别具有挑战性并且成本高。为了解决这个问题，我们引入了一种新的分层表示法，它利用大型语言模型(LLM)的能力，以紧凑的形式将语义信息编码到3D高斯分布图中。我们进一步介绍了一种新的语义损失，旨在通过层间和跨层优化来优化层次语义信息。此外，我们增强了整个SLAM系统，从而提高了跟踪和映射性能。我们的Hi-SLAM在映射和跟踪精度方面都优于现有的密集SLAM方法，同时实现了2倍的运算速度。此外，它在小型合成场景中呈现语义分割方面表现出有竞争力的性能，同时显著降低了存储和训练时间要求。有语义信息的渲染FPS赫然达到2000，没有语义信息的达到3000。最值得注意的是，它展示了处理超过500个语义类的复杂现实世界场景的能力，突出了其宝贵的扩展能力。

2. 引言

视觉同时定位与地图构建（SLAM）是自我运动估计和场景感知的关键技术，广泛应用于无人机、自动驾驶汽车的多种机器人任务中，以及增强现实（AR）和虚拟现实（VR）等应用中。语义信息提供了关于环境的高级知识，对于全面理解场景至关重要，并且是智能机器人执行复杂任务的基础。图像分割和地图表示方面的最新进展显著提升了语义视觉SLAM的性能。

近期，3D高斯溅射因其快速的渲染和优化能力，已成为一种流行的3D世界表示方法，这得益于3D基元的高度并行光栅化。具体而言，3D高斯溅射使用高斯分布有效建模了几何参数的连续分布。这一能力不仅提升了性能，还促进了高效的优化，这对于SLAM任务尤为有利。SLAM问题涉及复杂的优化空间，同时涵盖相机位姿和全局地图优化。3D高斯溅射的采用推动了多个SLAM系统的发展，在未知环境的几何理解方面表现出色。

然而，这些方法缺乏语义信息，限制了它们全面理解全局环境的能力，进而限制了它们在视觉导航、规划和自动驾驶等下游任务中的潜力。因此，在保留3D高斯溅射有利概率表示的同时，为其增加语义功能是非常可取的。一种直接的方法是为3D点增加离散语义标签，并用分类离散分布（即扁平Softmax嵌入表示）参数化其分布。然而，3D高斯溅射本身就是一种存储密集型的表示方法，为实现逼真的渲染，需要大量具有多个参数的3D基元。添加语义分布参数会显著增加存储需求和处理时间，且随语义类别的数量线性增长，这对于复杂场景的理解尤为不切实际。近期的工作采用非分布式方法来处理这种复杂性。工作直接学习语义地图的3通道RGB可视化，而非真正的语义信息理解。另一项工作使用扁平语义表示，并结合预训练基础模型的监督，但它只能生成3D语义特征图，而非明确的3D语义标签图。

与扁平表示不同，语义信息自然地组织成类别的层次结构，如图1所示。这种层次关系可以有效地表示为树结构，从而用相对较少的节点高效地编码大量信息，即紧凑编码。例如，深度为10的二叉树可以覆盖210个类别，仅需20个代码（即2×10，通过每级的二维Softmax编码）即可表示1024个类别。

基于这一概念，我们提出了Hi-SLAM，这是一种利用层次分类表示语义信息的语义高斯溅射SLAM。具体而言，在考虑语义和几何属性的同时，借助大型语言模型（LLM）建立了一个设计良好的树，显著减少了内存使用和训练时间，在保留物理意义的同时有效压缩了数据。此外，我们为所提出的表示引入了一种层次损失，结合了层级间和跨层级的优化。这一策略促进了从粗到细的场景理解，与实际应用（特别是涉及从远到近视角的观察）高度契合。此外，我们还增强并优化了高斯SLAM，以提升性能和运行速度。

3. 效果展示

4. 主要贡献

本文的主要贡献包括：

1）我们提出了一种新颖的层次表示，该表示在大型语言模型（LLM）的协助下，综合考虑了几何和语义方面来编码语义信息。这种树形编码有效地压缩了语义信息，同时保留了其物理层次结构。

2）我们为语义层次表示引入了一种新颖的优化损失，结合了层级间和跨层级的优化，确保了层次编码所有层级的全面细化。推荐课程：彻底剖析激光-视觉-IMU-GPS融合SLAM算法：理论推导、代码讲解和实战。

3）我们通过融入语义信息并充分利用高斯溅射的渲染能力，更新了多个模块以增强SLAM系统。我们在合成数据集和真实数据集上进行了实验。结果表明，我们的SLAM系统在定位和地图构建性能方面优于现有方法，同时实现了更快的速度。在小型合成场景中，我们的方法在渲染语义分割方面达到了竞争性的性能。在复杂的真实场景中，我们的方法首次展示了有价值的扩展能力，成功处理了500多个语义类别，这是向复杂环境语义理解迈出的重要一步。

5. 方法

左图：Hi-SLAM流程概览。全局3D高斯地图以第一帧图像为初始值进行初始化。然后，随着新帧的处理，系统在跟踪和建图步骤之间交替进行。右上图：语义信息的层次化表示。树生成过程使用基于循环的批判操作，包括局部线性模型（LLM）和验证器，以从叶节点到根节点创建树编码。此树用于为每个高斯基本元素建立层次编码。此外，为了进行层次语义优化，提出了一种新的损失函数，该函数结合了层级间损失LInter和跨层级损失LCross。右下图：层次语义渲染示例。

6. 实验结果

7. 总结 & 未来工作

我们提出了一种新的语义3D高斯溅射SLAM方法——Hi-SLAM，该方法采用层次类别表示，能够生成具有可扩展能力和明确语义标签预测能力的全局3D语义地图。具体而言，我们提出了一种新的层次表示方法，以紧凑的形式编码语义信息，并在局部线性模型（LLMs）的辅助下，进一步将其形成为3D高斯溅射。此外，我们还提出了一种新的语义损失函数，用于层次语义信息的优化，包括层级间优化和跨层级优化。此外，我们还对整个SLAM系统进行了优化。实验表明，Hi-SLAM在跟踪和建图性能上均优于现有的密集SLAM方法，且速度更快，同时能显著降低存储和训练要求。该方法展现出卓越的渲染性能，在不包含/包含语义信息的情况下，分别可达到2000/3000帧每秒（FPS）。最值得一提的是，Hi-SLAM展示了其管理包含500多个语义类别的复杂现实世界场景的能力，突显了其在大型应用中的强大可扩展性和有效性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球