论文作者:Peng Jiang等人 | 编辑:3DCV
添加微信:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群
0. 这篇文章干了啥?
一句话总结:
这篇文章提出了3DGS-ReLoc,实现了3D GS地图中的视觉重定位。
这篇文章采用3DGS作为主要的地图表示,利用激光雷达启动3DGS表示的训练,从而实现了大规模、几何精确的地图生成。这种与激光雷达的初始训练显著提高了系统创建详细和精确环境模型的能力,对于自动驾驶车辆中的先进感知系统至关重要。此外,为了解决高GPU内存消耗挑战,作者将3DGS地图分割为2D体素,并利用KD树进行高效的空间查询的策略。
下面一起来阅读一下这项工作~
1. 论文信息
标题:3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization
作者:Peng Jiang, Gaurav Pandey, Srikanth Saripalli
机构:Texas A&M University
原文链接:https://arxiv.org/abs/2403.11367
2. 摘要
本文提出了一种新颖的系统,用于使用3D GS进行3D建图和视觉重定位。我们提出的方法利用激光雷达和摄像机数据创建环境的准确和视觉上可信的表示。通过利用激光雷达数据来启动3D GS地图的训练,我们的系统构建了既详细又几何精确的地图。为了减轻过多的GPU内存使用并促进快速的空间查询,我们采用了2D体素地图和KD树的组合。这种准备使我们的方法非常适合视觉定位任务,能够通过归一化互相关(NCC)在高斯打点地图的渲染图像和查询图像之间高效识别对应关系。此外,我们使用基于特征匹配和透视n点(PnP)技术来优化查询图像的摄像机姿态。通过对KITTI360数据集进行广泛评估,我们展示了我们系统的有效性、适应性和精度。
3. 具体原理是啥?
3D GS的地图表示和视觉重定位
:该过程始于创建来自 LiDAR 扫描、图像和姿态的着色点云地图。该地图作为3DGS地图的初始化,在子地图上逐步训练。3DGS 地图存储为 2D 像素地图,使用 KD 树实现快速空间查询。对于重定位,选择一个接近查询图像粗略姿势的子地图来渲染一系列图像和深度。然后,对查询图像进行暴力搜索以找到最接近的渲染图像和深度。随后,使用基于特征的匹配和PnP方法迭代地优化查询图像的姿势,实现在全局地图中的精确定位。
6. 实验结果
A. 初始重定位
在重定位的初始阶段,采用归一化互相关(NCC)度量来评估图像对之间的相似性。
在图2(a-d)中,作者研究了偏航角存在误差的情况。图2(b)显示了用于重定位的查询图像。尽管查询图像中出现了两名新的自行车骑手,但NCC度量成功地识别出了正确的匹配(由黄色点表示),表明了对场景组成变化和轻微方向错误的鲁棒性。
此外,在图2(e-h)中,作者探讨了x位置误差对定位过程的影响。值得注意的是,即使在误差范围达到10米的情况下,NCC度量也保持了其有效性,准确地定位了正确的位置。这种情况揭示了x位置误差与NCC度量性能之间明显的负相关关系,突显了该度量在面对重大位置差异时引导正确定位的能力。
这些示例突出了NCC度量在初始重定位过程中处理方向(偏航)和位置(x)误差的有效性。利用NCC度量增强了方法在承受场景变化和起始位置不准确性方面的能力,为在复杂环境中的准确定位奠定了坚实的基础。需要注意的是,这里呈现的密切匹配示例受益于在搜索过程中使用非常细小的网格尺寸。然而,在实际应用中,作者选择了更粗的网格尺寸来加快初始化阶段。为
为了更全面地评估方法的有效性,作者对所有查询图像进行了初始重定位分析。向每个查询图像的地面真实姿态的(x,y,yaw)引入了噪声。噪声在x和y平移方向上在(-10,10)米范围内均匀采样,在偏航旋转方向上在(-90°,90°)范围内均匀采样。使用2米和10°的网格大小进行了暴力搜索,搜索空间为(-15,15)米和(-360°,360°)。使用随机搜索探索了搜索空间的初始20%,并应用了早停止标准。该标准基于归一化互相关(NCC)是否降低到设定的阈值以及是否能够成功地通过第二阶段方法获得足够的匹配点。这次评估的结果在表I中详细说明,并在图3中进行了说明。如表I所示,两个序列均表现出很高的成功率,Seq 0的成功率达到了98.2%(223次尝试中的219次),Seq 1的成功率达到了98.7%(308次尝试中的304次)。在排除不成功的匹配后,计算了(x,y,yaw)中的误差的平均值和标准差。主要集中在(-5,5)米范围内的平移误差分布如图3所示。尽管最初存在着重大的平移误差,但是精确度调整阶段显著提高了定位精度。
B. 重定位精化
在精化过程之后,观察到结果有了显著的改善。例如,在Seq 0中,初始定位误差从X轴的3.513米降低到了0.185米,从Y轴的2.381米降低到了0.117米,从偏航的14.007°降低到了0.535°。同样,在Seq 1中,误差从X轴的3.212米降低到了0.098米,从Y轴的3.148米降低到了0.114米,从偏航的12.001°降低到了0.247°。除了减少误差之外,我们方法的一致性也从减小的标准差值中得以体现,展示了我们方法的可靠性和精度。
C. 实时重定位
对于实时重定位评估,作者随机初始化了第一个查询图像的姿态,该图像对应于每个序列中的第一帧。然后,为实时重定位流式传输了后续图像。如表II所述,利用绝对姿态误差(APE)和相对姿态误差(RPE)来评估系统在实时重定位任务上的性能。该表提供了两个序列中这两个指标的全面统计数据,包括均方根误差(RMSE)、平均值、中值、标准差(Std)、最小值、最大值和平方误差之和(SSE)。
对于APE,RMSE约为0.1,平均误差接近0.09,中位数为0.08,表明具有高精度和低变异性(标准差为0.047)。SSE值突显了随时间精确的姿态估计。
RPE显示了序列0和1的一致指标,RMSE为0.083,平均误差和中位数分别为0.070和0.060,显示出稳定的相对姿态准确性。标准差很小(序列0为0.046,序列1为0.045),序列0的误差范围为0.008至0.252,序列1的误差范围为0.008至0.292,SSE值分别为1.543(序列0)和2.140(序列1),表明了相对姿态估计的稳健性。
滚转-俯仰-偏航和XYZ轨迹的视觉分析显示与地面真值的密切对齐(参见图5-6),但俯仰和Z轴估计具有更多的噪声。噪声可能来自于从地面特征提取的关键点的不准确性,这些特征在三维高斯图中描述不够精确。为了提高准确性并减少噪声,采用更复杂的轨迹估计技术,如基于滤波器的方法,可能会提供更平滑和更准确的结果。
7. 限制性
A. 在视觉质量、内存和几何保真度之间取得平衡
为了最小化地图的占用空间,作者选择不使用谱调和(SH)来编码光照和视角相关信息。虽然这种方法在减少内存使用方面很有效,但这个决定也有其权衡之处,特别是在户外环境中,动态光照起着重要作用。例如,如图7所示,光照方向的改变可能导致地面颜色的变化,从而在渲染的图像中产生伪影。尽管这个挑战在不同的Seq 0中尤为明显,因为光照条件不同,但在实验中,Seq 0和Seq 1之间的定位精度保持一致。这种稳健性主要归因于标准化互相关(NCC)度量的鲁棒性,以及Superpoint和LightGlue的特征检测和匹配能力。这一观察结果促使重新评估在地图中编码光照信息对于重新定位任务的必要性。研究结果表明,将动态光照和阴影纳入地图可能并不是实现准确定位所必需的。此外,一个理想的地图可能会受益于消除光照和阴影效果,以便更多地关注环境的几何和结构方面,进一步简化定位过程而不降低准确性。这一发现提示了未来研究的一个潜在方向,即探索在地图表示和定位的背景下,在视觉保真度、内存效率和几何准确性之间取得平衡的可能性。
B. 迈向完全可微分的定位管道
3D GS表示的可微性是一个有趣的特性,它可能提供了创建一个完全可微的管道来执行对3D GS子地图进行定位的可能性。这种能力可能能够绕过传统的检测-描述-匹配方法,省去了训练用于特征检测和提取的单独模型的需要。此外,完全可微分的管道可以促进与其他可微方法的集成,用于导航和规划系统。作者最初评估了几种指标,以在3DGS地图上进行直接定位。这些指标包括梯度相关(GC)、标准化互相关(NCC)和互信息(MI)。然而,初步实验表明,这些指标对初始姿态估计特别敏感,并且在梯度下降优化过程中容易陷入局部最小值。这些挑战表明需要探索替代的优化技术或策略来解决这些问题。
8. 总结
这篇文章探讨了通过新颖的3D GS应用集成LiDAR和相机数据,解决自动驾驶和机器人导航快速发展领域中对高级地图表示方法的迫切需求。通过利用LiDAR深度感知和相机提供的详细图像的优势,演示了创建详细且几何精确的环境表示的稳健方法,这对于自主系统的安全和高效导航至关重要。该方法以LiDAR数据作为开始,启动3D GS表示的训练,有助于构建全面的地图,同时解决了内存使用高和底层几何不准确性等常见挑战。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《
基于NeRF/Gaussian三维重建的全新SLAM算法
》
主讲人介绍
课程大纲