专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
51好读  ›  专栏  ›  3DCV

中国科大最新成果!基于3DGS的新型地图表示,实例图像目标导航的新突破

3DCV  · 公众号  ·  · 2024-03-22 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

点击加入「3DCV」技术交流群

作者:小柠檬 | 来源:3DCV
添加微信:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

标题 :GaussNav: Gaussian Splatting for Visual Navigation
链接 :https://arxiv.org/abs/2403.11625

1、导读

本文提出了一种称为GaussNav的模块化方法。在实例图像目标导航(IIN)任务中,智能体需要定位目标图像中描绘的特定物体实例,在视角变化的情况下识别目标并拒绝可能的干扰物。现有的基于地图的导航方法主要采用俯视图(BEV)地图的表示形式,然而这种表示形式缺乏对场景中详细纹理的表示。为了解决上述问题,本文提出了一个基于3DGS的新地图表示方法。该方法使智能体不仅能记住场景的几何信息和语义信息,而且还能保留物体的纹理特征。实验结果表明,该方法在Habitat-Matterport 3D数据集上的成功率和SPL分别达到了0.725和0.578,取得了显著的性能提升。

图1:多对象RANSAC的平面聚类结果

2、创新点

基于高斯溅射(Gaussian Splatting)的语义高斯图(Semantic Gaussian)表示 :构建了一种新的映射表示,用于实例图像目标导航。这种表示不仅保留了场景的3D几何信息,还保留了每个高斯的语义标签和纹理细节。

利用语义分割算法 :为每个高斯分配语义标签,并将具有相同语义标签和3D位置的高斯进行聚类,从而将场景中的对象实例分割为不同的语义类别实例。

目标定位 :通过渲染目标对象的描述图像,并与目标图像进行匹配,有效定位目标对象。在确定预测目标对象的位置后,将语义高斯转换为栅格地图,并使用路径规划算法。

高效导航 :通过直接从目标图像映射到目标位置,避免了额外的探索,从而高效地完成实例图像目标导航任务。

改进的性能 :在Habitat-Matterport 3D数据集上,该方法将成功率和SPL分别从0.252提高到0.578,显著优于之前的最优方法。

分析误差模式 :对模型进行了误差分析,为进一步改进指明了方向。

总体而言,该方法通过创新的语义高斯图表示和高效的图像到位置映射,有效解决了实例图像目标导航任务,并取得了明显的性能提升。

3、GaussNav

GaussNav框架的三个主要组成部分:

Sub-gaussians Division :在首次探索未知环境时,通过基于边界探索的方式收集整个环境的观察,并将这些观察划分为不同的子集,为后续的语义高斯构建做准备。

Sub-gaussians Division

Semantic Gaussian Construction :利用收集到的观察数据,构建语义高斯表示。这包括初始化和优化高斯,并对高斯进行语义标注,以建立包含几何信息、语义信息和纹理细节的场景表示。

Gaussian Navigation :利用语义高斯进行目标分类,并渲染目标实例的描述图像,与目标图像进行匹配以定位目标实例。随后将语义高斯转换为栅格地图,并进行路径规划。

Semantic Gaussian Construction、Gaussian Navigation

这三个方法构成了GaussNav框架,实现了从实例图像到目标位置的直接映射,从而高效完成实例图像目标导航任务。

4、实验结果

主要包括以下几个方面:

实验设置 :使用Habitat-Matterport 3D数据集,其中包含训练、验证和测试场景,并采用Instance ImageGoal Navigation任务设置。

与最新方法的比较 :比较了GaussNav与多种基准模型和最新方法的性能,结果显示GaussNav在成功率和路径长度加权成功率方面取得了显著提升。

消融实验 :分析了GaussNav中各个模块的作用,包括分类器、匹配模块等,证明这些模块对性能的重要性。

效率分析 :说明了利用语义高斯进行实例分类和匹配可以显著减少搜索空间,提高效率。

误差分析 :识别了模型中的两个主要误差源,并提出了改进思路。

高斯构建结果 :展示了语义高斯构建方法在验证集上的渲染质量,并分析了不同场景的渲染效果。

表1:我们提出的GaussNav的性能与HM3D数据集上的基线和之前最先进的方法相比

表2:消融实验 该表显示了我们提出的模型GaussNav与消融和地面真实目标位置以及HM3D 数据集上的匹配的比较。

表3:对象实例的数量

图4:我们的语义高斯构建结果在HM3D验证数据集上的渲染质量
图5:使用Habitat模拟器从HM3D场景数据集渲染的观察结果

5、结论

作者提出了名为Gaussian Splatting for Visual Navigation (GaussNav)的模块化视觉导航方法。该方法提出了一种新的地图表示形式,即语义高斯,能够保留场景的3D几何形状、每个高斯的语义标签以及场景的复杂纹理细节。通过这种新颖的地图表示形式,作者可以直接预测目标图像中目标对象的位置,从而将实例图像目标导航任务转化为更易处理的点目标导航任务。该方法在Habitat-Matterport 3D数据集上取得了state-of-the-art的性能,显著提高了SPL从0.252到0.578。此外,作者分析了模型的误差模式,并量化了改进的潜力。

本文仅做学术分享,如有侵权,请联系删文。

在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《 基于NeRF/Gaussian三维重建的全新SLAM算法

主讲人介绍

课程大纲







请到「今天看啥」查看全文