专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
杭州本地宝  ·  手慢无!杭州3月普通话测试即将开始报名! ·  昨天  
余杭时报  ·  不合格!涉及多款沐浴液、洗发水! ·  3 天前  
余杭发布  ·  余杭这个村,生孩子就发钱! ·  3 天前  
51好读  ›  专栏  ›  3DCV

你好,SLAM!帧率高达3000 FPS的极快语义GS SLAM来袭!定位、建图全SOTA!

3DCV  · 公众号  ·  · 2024-10-05 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting

作者:Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, Hamid Rezatofighi

机构:Monash University、Mohamed bin Zayed University of Artificial Intelligence

原文链接:https://arxiv.org/abs/2409.12518

1. 摘要

我们提出了Hi-SLAM,一种语义3D高斯Splatting SLAM方法,其特征在于一种新颖的分层分类表示,该方法能够在3D世界中实现精确的全局3D语义映射、放大能力和显式语义标签预测。语义SLAM系统中的参数使用随着环境复杂性的增加而显著增加,使得场景理解特别具有挑战性并且成本高。为了解决这个问题,我们引入了一种新的分层表示法,它利用大型语言模型(LLM)的能力,以紧凑的形式将语义信息编码到3D高斯分布图中。我们进一步介绍了一种新的语义损失,旨在通过层间和跨层优化来优化层次语义信息。此外,我们增强了整个SLAM系统,从而提高了跟踪和映射性能。我们的Hi-SLAM在映射和跟踪精度方面都优于现有的密集SLAM方法,同时实现了2倍的运算速度。此外,它在小型合成场景中呈现语义分割方面表现出有竞争力的性能,同时显著降低了存储和训练时间要求。有语义信息的渲染FPS赫然达到2000,没有语义信息的达到3000。最值得注意的是,它展示了处理超过500个语义类的复杂现实世界场景的能力,突出了其宝贵的扩展能力。

2. 引言

视觉同时定位与地图构建(SLAM)是自我运动估计和场景感知的关键技术,广泛应用于无人机、自动驾驶汽车的多种机器人任务中,以及增强现实(AR)和虚拟现实(VR)等应用中。语义信息提供了关于环境的高级知识,对于全面理解场景至关重要,并且是智能机器人执行复杂任务的基础。图像分割和地图表示方面的最新进展显著提升了语义视觉SLAM的性能。

近期,3D高斯溅射因其快速的渲染和优化能力,已成为一种流行的3D世界表示方法,这得益于3D基元的高度并行光栅化。具体而言,3D高斯溅射使用高斯分布有效建模了几何参数的连续分布。这一能力不仅提升了性能,还促进了高效的优化,这对于SLAM任务尤为有利。SLAM问题涉及复杂的优化空间,同时涵盖相机位姿和全局地图优化。3D高斯溅射的采用推动了多个SLAM系统的发展,在未知环境的几何理解方面表现出色。

然而,这些方法缺乏语义信息,限制了它们全面理解全局环境的能力,进而限制了它们在视觉导航、规划和自动驾驶等下游任务中的潜力。因此,在保留3D高斯溅射有利概率表示的同时,为其增加语义功能是非常可取的。一种直接的方法是为3D点增加离散语义标签,并用分类离散分布(即扁平Softmax嵌入表示)参数化其分布。然而,3D高斯溅射本身就是一种存储密集型的表示方法,为实现逼真的渲染,需要大量具有多个参数的3D基元。添加语义分布参数会显著增加存储需求和处理时间,且随语义类别的数量线性增长,这对于复杂场景的理解尤为不切实际。近期的工作采用非分布式方法来处理这种复杂性。工作直接学习语义地图的3通道RGB可视化,而非真正的语义信息理解。另一项工作使用扁平语义表示,并结合预训练基础模型的监督,但它只能生成3D语义特征图,而非明确的3D语义标签图。

与扁平表示不同,语义信息自然地组织成类别的层次结构,如图1所示。这种层次关系可以有效地表示为树结构,从而用相对较少的节点高效地编码大量信息,即紧凑编码。例如,深度为10的二叉树可以覆盖210个类别,仅需20个代码(即2×10,通过每级的二维Softmax编码)即可表示1024个类别。

基于这一概念,我们提出了Hi-SLAM,这是一种利用层次分类表示语义信息的语义高斯溅射SLAM。具体而言,在考虑语义和几何属性的同时,借助大型语言模型(LLM)建立了一个设计良好的树,显著减少了内存使用和训练时间,在保留物理意义的同时有效压缩了数据。此外,我们为所提出的表示引入了一种层次损失,结合了层级间和跨层级的优化。这一策略促进了从粗到细的场景理解,与实际应用(特别是涉及从远到近视角的观察)高度契合。此外,我们还增强并优化了高斯SLAM,以提升性能和运行速度。

3. 效果展示

与扁平表示不同,语义信息自然地组织成类别的层次结构,如图1所示。这种层次关系可以有效地表示为树结构,从而用相对较少的节点高效地编码大量信息,即紧凑编码。例如,深度为10的二叉树可以覆盖210个类别,仅需20个代码(即2×10,通过每级的二维Softmax编码)即可表示1024个类别。

4. 主要贡献

本文的主要贡献包括:

1)我们提出了一种新颖的层次表示,该表示在大型语言模型(LLM)的协助下,综合考虑了几何和语义方面来编码语义信息。这种树形编码有效地压缩了语义信息,同时保留了其物理层次结构。

2)我们为语义层次表示引入了一种新颖的优化损失,结合了层级间和跨层级的优化,确保了层次编码所有层级的全面细化。 推荐课程: 彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战

3)我们通过融入语义信息并充分利用高斯溅射的渲染能力,更新了多个模块以增强SLAM系统。我们在合成数据集和真实数据集上进行了实验。结果表明,我们的SLAM系统在定位和地图构建性能方面优于现有方法,同时实现了更快的速度。在小型合成场景中,我们的方法在渲染语义分割方面达到了竞争性的性能。在复杂的真实场景中,我们的方法首次展示了有价值的扩展能力,成功处理了500多个语义类别,这是向复杂环境语义理解迈出的重要一步。

5. 方法

左图:Hi-SLAM流程概览。全局3D高斯地图以第一帧图像为初始值进行初始化。然后,随着新帧的处理,系统在跟踪和建图步骤之间交替进行。右上图:语义信息的层次化表示。树生成过程使用基于循环的批判操作,包括局部线性模型(LLM)和验证器,以从叶节点到根节点创建树编码。此树用于为每个高斯基本元素建立层次编码。此外,为了进行层次语义优化,提出了一种新的损失函数,该函数结合了层级间损失LInter和跨层级损失LCross。右下图:层次语义渲染示例。

6. 实验结果

7. 总结 & 未来工作

我们提出了一种新的语义3D高斯溅射SLAM方法——Hi-SLAM,该方法采用层次类别表示,能够生成具有可扩展能力和明确语义标签预测能力的全局3D语义地图。具体而言,我们提出了一种新的层次表示方法,以紧凑的形式编码语义信息,并在局部线性模型(LLMs)的辅助下,进一步将其形成为3D高斯溅射。此外,我们还提出了一种新的语义损失函数,用于层次语义信息的优化,包括层级间优化和跨层级优化。此外,我们还对整个SLAM系统进行了优化。实验表明,Hi-SLAM在跟踪和建图性能上均优于现有的密集SLAM方法,且速度更快,同时能显著降低存储和训练要求。该方法展现出卓越的渲染性能,在不包含/包含语义信息的情况下,分别可达到2000/3000帧每秒(FPS)。最值得一提的是,Hi-SLAM展示了其管理包含500多个语义类别的复杂现实世界场景的能力,突显了其在大型应用中的强大可扩展性和有效性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文