专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

中国科大最新成果！基于3DGS的新型地图表示，实例图像目标导航的新突破

3DCV · 公众号 · · 2024-03-22 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

点击加入「3DCV」技术交流群

作者：小柠檬 | 来源：3DCV
添加微信：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

标题：GaussNav: Gaussian Splatting for Visual Navigation
链接：https://arxiv.org/abs/2403.11625

1、导读

本文提出了一种称为GaussNav的模块化方法。在实例图像目标导航（IIN）任务中，智能体需要定位目标图像中描绘的特定物体实例，在视角变化的情况下识别目标并拒绝可能的干扰物。现有的基于地图的导航方法主要采用俯视图（BEV）地图的表示形式，然而这种表示形式缺乏对场景中详细纹理的表示。为了解决上述问题，本文提出了一个基于3DGS的新地图表示方法。该方法使智能体不仅能记住场景的几何信息和语义信息，而且还能保留物体的纹理特征。实验结果表明，该方法在Habitat-Matterport 3D数据集上的成功率和SPL分别达到了0.725和0.578，取得了显著的性能提升。

2、创新点

基于高斯溅射(Gaussian Splatting)的语义高斯图(Semantic Gaussian)表示 ：构建了一种新的映射表示，用于实例图像目标导航。这种表示不仅保留了场景的3D几何信息，还保留了每个高斯的语义标签和纹理细节。

利用语义分割算法 ：为每个高斯分配语义标签，并将具有相同语义标签和3D位置的高斯进行聚类，从而将场景中的对象实例分割为不同的语义类别实例。

目标定位 ：通过渲染目标对象的描述图像，并与目标图像进行匹配，有效定位目标对象。在确定预测目标对象的位置后，将语义高斯转换为栅格地图，并使用路径规划算法。

高效导航 ：通过直接从目标图像映射到目标位置，避免了额外的探索，从而高效地完成实例图像目标导航任务。

改进的性能 ：在Habitat-Matterport 3D数据集上，该方法将成功率和SPL分别从0.252提高到0.578，显著优于之前的最优方法。

分析误差模式 ：对模型进行了误差分析，为进一步改进指明了方向。

总体而言，该方法通过创新的语义高斯图表示和高效的图像到位置映射，有效解决了实例图像目标导航任务，并取得了明显的性能提升。

3、GaussNav

GaussNav框架的三个主要组成部分：

Sub-gaussians Division ：在首次探索未知环境时，通过基于边界探索的方式收集整个环境的观察，并将这些观察划分为不同的子集，为后续的语义高斯构建做准备。

Semantic Gaussian Construction ：利用收集到的观察数据，构建语义高斯表示。这包括初始化和优化高斯，并对高斯进行语义标注，以建立包含几何信息、语义信息和纹理细节的场景表示。

Gaussian Navigation ：利用语义高斯进行目标分类，并渲染目标实例的描述图像，与目标图像进行匹配以定位目标实例。随后将语义高斯转换为栅格地图，并进行路径规划。

Semantic Gaussian Construction、Gaussian Navigation

这三个方法构成了GaussNav框架，实现了从实例图像到目标位置的直接映射，从而高效完成实例图像目标导航任务。

4、实验结果

主要包括以下几个方面：

实验设置 ：使用Habitat-Matterport 3D数据集，其中包含训练、验证和测试场景，并采用Instance ImageGoal Navigation任务设置。

与最新方法的比较 ：比较了GaussNav与多种基准模型和最新方法的性能，结果显示GaussNav在成功率和路径长度加权成功率方面取得了显著提升。

消融实验 ：分析了GaussNav中各个模块的作用，包括分类器、匹配模块等，证明这些模块对性能的重要性。

效率分析 ：说明了利用语义高斯进行实例分类和匹配可以显著减少搜索空间，提高效率。

误差分析 ：识别了模型中的两个主要误差源，并提出了改进思路。

高斯构建结果 ：展示了语义高斯构建方法在验证集上的渲染质量，并分析了不同场景的渲染效果。

表1：我们提出的GaussNav的性能与HM3D数据集上的基线和之前最先进的方法相比

表2：消融实验该表显示了我们提出的模型GaussNav与消融和地面真实目标位置以及HM3D 数据集上的匹配的比较。

表3：对象实例的数量

5、结论

作者提出了名为Gaussian Splatting for Visual Navigation (GaussNav)的模块化视觉导航方法。该方法提出了一种新的地图表示形式，即语义高斯，能够保留场景的3D几何形状、每个高斯的语义标签以及场景的复杂纹理细节。通过这种新颖的地图表示形式，作者可以直接预测目标图像中目标对象的位置，从而将实例图像目标导航任务转化为更易处理的点目标导航任务。该方法在Habitat-Matterport 3D数据集上取得了state-of-the-art的性能，显著提高了SPL从0.252到0.578。此外，作者分析了模型的误差模式，并量化了改进的潜力。

本文仅做学术分享，如有侵权，请联系删文。

在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《 基于NeRF/Gaussian三维重建的全新SLAM算法 》

主讲人介绍