0. 论文信息
标题:Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting
作者:Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, Hamid Rezatofighi
机构:Monash University、Mohamed bin Zayed University of Artificial Intelligence
原文链接:https://arxiv.org/abs/2409.12518
1. 摘要
我们提出了Hi-SLAM,一种语义3D高斯Splatting SLAM方法,其特征在于一种新颖的分层分类表示,该方法能够在3D世界中实现精确的全局3D语义映射、放大能力和显式语义标签预测。语义SLAM系统中的参数使用随着环境复杂性的增加而显著增加,使得场景理解特别具有挑战性并且成本高。为了解决这个问题,我们引入了一种新的分层表示法,它利用大型语言模型(LLM)的能力,以紧凑的形式将语义信息编码到3D高斯分布图中。我们进一步介绍了一种新的语义损失,旨在通过层间和跨层优化来优化层次语义信息。此外,我们增强了整个SLAM系统,从而提高了跟踪和映射性能。我们的Hi-SLAM在映射和跟踪精度方面都优于现有的密集SLAM方法,同时实现了2倍的运算速度。此外,它在小型合成场景中呈现语义分割方面表现出有竞争力的性能,同时显著降低了存储和训练时间要求。有语义信息的渲染FPS赫然达到2000,没有语义信息的达到3000。最值得注意的是,它展示了处理超过500个语义类的复杂现实世界场景的能力,突出了其宝贵的扩展能力。
2. 引言
视觉同时定位与地图构建(SLAM)是自我运动估计和场景感知的关键技术,广泛应用于无人机、自动驾驶汽车的多种机器人任务中,以及增强现实(AR)和虚拟现实(VR)等应用中。语义信息提供了关于环境的高级知识,对于全面理解场景至关重要,并且是智能机器人执行复杂任务的基础。图像分割和地图表示方面的最新进展显著提升了语义视觉SLAM的性能。
近期,3D高斯溅射因其快速的渲染和优化能力,已成为一种流行的3D世界表示方法,这得益于3D基元的高度并行光栅化。具体而言,3D高斯溅射使用高斯分布有效建模了几何参数的连续分布。这一能力不仅提升了性能,还促进了高效的优化,这对于SLAM任务尤为有利。SLAM问题涉及复杂的优化空间,同时涵盖相机位姿和全局地图优化。3D高斯溅射的采用推动了多个SLAM系统的发展,在未知环境的几何理解方面表现出色。
然而,这些方法缺乏语义信息,限制了它们全面理解全局环境的能力,进而限制了它们在视觉导航、规划和自动驾驶等下游任务中的潜力。因此,在保留3D高斯溅射有利概率表示的同时,为其增加语义功能是非常可取的。一种直接的方法是为3D点增加离散语义标签,并用分类离散分布(即扁平Softmax嵌入表示)参数化其分布。然而,3D高斯溅射本身就是一种存储密集型的表示方法,为实现逼真的渲染,需要大量具有多个参数的3D基元。添加语义分布参数会显著增加存储需求和处理时间,且随语义类别的数量线性增长,这对于复杂场景的理解尤为不切实际。近期的工作采用非分布式方法来处理这种复杂性。工作直接学习语义地图的3通道RGB可视化,而非真正的语义信息理解。另一项工作使用扁平语义表示,并结合预训练基础模型的监督,但它只能生成3D语义特征图,而非明确的3D语义标签图。
与扁平表示不同,语义信息自然地组织成类别的层次结构,如图1所示。这种层次关系可以有效地表示为树结构,从而用相对较少的节点高效地编码大量信息,即紧凑编码。例如,深度为10的二叉树可以覆盖210个类别,仅需20个代码(即2×10,通过每级的二维Softmax编码)即可表示1024个类别。
基于这一概念,我们提出了Hi-SLAM,这是一种利用层次分类表示语义信息的语义高斯溅射SLAM。具体而言,在考虑语义和几何属性的同时,借助大型语言模型(LLM)建立了一个设计良好的树,显著减少了内存使用和训练时间,在保留物理意义的同时有效压缩了数据。此外,我们为所提出的表示引入了一种层次损失,结合了层级间和跨层级的优化。这一策略促进了从粗到细的场景理解,与实际应用(特别是涉及从远到近视角的观察)高度契合。此外,我们还增强并优化了高斯SLAM,以提升性能和运行速度。
3. 效果展示
与扁平表示不同,语义信息自然地组织成类别的层次结构,如图1所示。这种层次关系可以有效地表示为树结构,从而用相对较少的节点高效地编码大量信息,即紧凑编码。例如,深度为10的二叉树可以覆盖210个类别,仅需20个代码(即2×10,通过每级的二维Softmax编码)即可表示1024个类别。
4. 主要贡献
本文的主要贡献包括:
1)我们提出了一种新颖的层次表示,该表示在大型语言模型(LLM)的协助下,综合考虑了几何和语义方面来编码语义信息。这种树形编码有效地压缩了语义信息,同时保留了其物理层次结构。
2)我们为语义层次表示引入了一种新颖的优化损失,结合了层级间和跨层级的优化,确保了层次编码所有层级的全面细化。
推荐课程:
彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战
。
3)我们通过融入语义信息并充分利用高斯溅射的渲染能力,更新了多个模块以增强SLAM系统。我们在合成数据集和真实数据集上进行了实验。结果表明,我们的SLAM系统在定位和地图构建性能方面优于现有方法,同时实现了更快的速度。在小型合成场景中,我们的方法在渲染语义分割方面达到了竞争性的性能。在复杂的真实场景中,我们的方法首次展示了有价值的扩展能力,成功处理了500多个语义类别,这是向复杂环境语义理解迈出的重要一步。
5. 方法
左图:Hi-SLAM流程概览。全局3D高斯地图以第一帧图像为初始值进行初始化。然后,随着新帧的处理,系统在跟踪和建图步骤之间交替进行。右上图:语义信息的层次化表示。树生成过程使用基于循环的批判操作,包括局部线性模型(LLM)和验证器,以从叶节点到根节点创建树编码。此树用于为每个高斯基本元素建立层次编码。此外,为了进行层次语义优化,提出了一种新的损失函数,该函数结合了层级间损失LInter和跨层级损失LCross。右下图:层次语义渲染示例。
6. 实验结果
7. 总结 & 未来工作
我们提出了一种新的语义3D高斯溅射SLAM方法——Hi-SLAM,该方法采用层次类别表示,能够生成具有可扩展能力和明确语义标签预测能力的全局3D语义地图。具体而言,我们提出了一种新的层次表示方法,以紧凑的形式编码语义信息,并在局部线性模型(LLMs)的辅助下,进一步将其形成为3D高斯溅射。此外,我们还提出了一种新的语义损失函数,用于层次语义信息的优化,包括层级间优化和跨层级优化。此外,我们还对整个SLAM系统进行了优化。实验表明,Hi-SLAM在跟踪和建图性能上均优于现有的密集SLAM方法,且速度更快,同时能显著降低存储和训练要求。该方法展现出卓越的渲染性能,在不包含/包含语义信息的情况下,分别可达到2000/3000帧每秒(FPS)。最值得一提的是,Hi-SLAM展示了其管理包含500多个语义类别的复杂现实世界场景的能力,突显了其在大型应用中的强大可扩展性和有效性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球