作者:小柠檬 | 来源:3DCV
添加微信:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
标题
:GaussNav: Gaussian Splatting for Visual Navigation
链接
:https://arxiv.org/abs/2403.11625
1、导读
本文提出了一种称为GaussNav的模块化方法。在实例图像目标导航(IIN)任务中,智能体需要定位目标图像中描绘的特定物体实例,在视角变化的情况下识别目标并拒绝可能的干扰物。现有的基于地图的导航方法主要采用俯视图(BEV)地图的表示形式,然而这种表示形式缺乏对场景中详细纹理的表示。为了解决上述问题,本文提出了一个基于3DGS的新地图表示方法。该方法使智能体不仅能记住场景的几何信息和语义信息,而且还能保留物体的纹理特征。实验结果表明,该方法在Habitat-Matterport 3D数据集上的成功率和SPL分别达到了0.725和0.578,取得了显著的性能提升。
图1:多对象RANSAC的平面聚类结果
2、创新点
基于高斯溅射(Gaussian Splatting)的语义高斯图(Semantic Gaussian)表示
:构建了一种新的映射表示,用于实例图像目标导航。这种表示不仅保留了场景的3D几何信息,还保留了每个高斯的语义标签和纹理细节。
利用语义分割算法
:为每个高斯分配语义标签,并将具有相同语义标签和3D位置的高斯进行聚类,从而将场景中的对象实例分割为不同的语义类别实例。
目标定位
:通过渲染目标对象的描述图像,并与目标图像进行匹配,有效定位目标对象。在确定预测目标对象的位置后,将语义高斯转换为栅格地图,并使用路径规划算法。
高效导航
:通过直接从目标图像映射到目标位置,避免了额外的探索,从而高效地完成实例图像目标导航任务。
改进的性能
:在Habitat-Matterport 3D数据集上,该方法将成功率和SPL分别从0.252提高到0.578,显著优于之前的最优方法。
分析误差模式
:对模型进行了误差分析,为进一步改进指明了方向。
总体而言,该方法通过创新的语义高斯图表示和高效的图像到位置映射,有效解决了实例图像目标导航任务,并取得了明显的性能提升。
3、GaussNav
GaussNav框架的三个主要组成部分:
Sub-gaussians Division
:在首次探索未知环境时,通过基于边界探索的方式收集整个环境的观察,并将这些观察划分为不同的子集,为后续的语义高斯构建做准备。
Sub-gaussians Division
Semantic Gaussian Construction
:利用收集到的观察数据,构建语义高斯表示。这包括初始化和优化高斯,并对高斯进行语义标注,以建立包含几何信息、语义信息和纹理细节的场景表示。
Gaussian Navigation
:利用语义高斯进行目标分类,并渲染目标实例的描述图像,与目标图像进行匹配以定位目标实例。随后将语义高斯转换为栅格地图,并进行路径规划。
Semantic Gaussian Construction、Gaussian Navigation
这三个方法构成了GaussNav框架,实现了从实例图像到目标位置的直接映射,从而高效完成实例图像目标导航任务。
4、实验结果
主要包括以下几个方面:
实验设置
:使用Habitat-Matterport 3D数据集,其中包含训练、验证和测试场景,并采用Instance ImageGoal Navigation任务设置。
与最新方法的比较
:比较了GaussNav与多种基准模型和最新方法的性能,结果显示GaussNav在成功率和路径长度加权成功率方面取得了显著提升。
消融实验
:分析了GaussNav中各个模块的作用,包括分类器、匹配模块等,证明这些模块对性能的重要性。
效率分析
:说明了利用语义高斯进行实例分类和匹配可以显著减少搜索空间,提高效率。
误差分析
:识别了模型中的两个主要误差源,并提出了改进思路。
高斯构建结果
:展示了语义高斯构建方法在验证集上的渲染质量,并分析了不同场景的渲染效果。
表1:我们提出的GaussNav的性能与HM3D数据集上的基线和之前最先进的方法相比
表2:消融实验 该表显示了我们提出的模型GaussNav与消融和地面真实目标位置以及HM3D 数据集上的匹配的比较。
表3:对象实例的数量
图4:我们的语义高斯构建结果在HM3D验证数据集上的渲染质量
图5:使用Habitat模拟器从HM3D场景数据集渲染的观察结果
5、结论
作者提出了名为Gaussian Splatting for Visual Navigation (GaussNav)的模块化视觉导航方法。该方法提出了一种新的地图表示形式,即语义高斯,能够保留场景的3D几何形状、每个高斯的语义标签以及场景的复杂纹理细节。通过这种新颖的地图表示形式,作者可以直接预测目标图像中目标对象的位置,从而将实例图像目标导航任务转化为更易处理的点目标导航任务。该方法在Habitat-Matterport 3D数据集上取得了state-of-the-art的性能,显著提高了SPL从0.252到0.578。此外,作者分析了模型的误差模式,并量化了改进的潜力。
本文仅做学术分享,如有侵权,请联系删文。
在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《
基于NeRF/Gaussian三维重建的全新SLAM算法
》
主讲人介绍
课程大纲