0. 论文信息
标题:An Efficient Scene Coordinate Encoding and Relocalization Method
作者:Kuan Xu, Zeyu Jiang, Haozhi Cao, Shenghai Yuan, Chen Wang, Lihua Xie
机构:Nanyang Technological University、University at Buffalo
原文链接:https://arxiv.org/abs/2412.06488
代码链接:https://github.com/sair-lab/SeqACE
1. 导读
场景坐标回归(SCR)是一种视觉定位技术,其利用深度神经网络(DNN)来直接回归用于相机姿态估计的2D-3D对应关系。然而,当前的SCR方法在处理重复纹理和无意义区域时经常面临挑战,因为它们依赖于隐式三角剖分。本文提出了一种有效的场景坐标编码和重定位方法。与现有的SCR方法相比,我们为场景编码和显著关键点检测设计了统一的架构,使我们的系统能够专注于编码信息区域,从而显著提高效率。此外,我们引入了一种在地图编码和重定位过程中利用顺序信息的机制,这种机制增强了隐式三角剖分,特别是在重复的纹理环境中。在室内和室外数据集上进行的综合实验表明,所提出的系统优于其他最先进的(SOTA) SCR方法。我们的单帧重定位模式将我们基线的召回率提高了6.4%,并将运行速度从56Hz提高到90Hz。此外,我们的基于序列的模式在保持原有效率的同时,召回率提高了11%。
2. 引言
视觉重定位对于诸如移动机器人和增强现实等许多应用至关重要,它在成本和准确性之间提供了实用的平衡。其核心任务是利用现有地图估计相机姿态,这大致可分为两类:显式地图和隐式地图。显式地图由3D点云结合2D特征的视觉描述符构成,而隐式地图则使用神经网络对场景进行编码。基于特征匹配(FM)的方法利用结构从运动(SFM)或同时定位与地图构建(SLAM)等技术构建显式地图。在重定位过程中,这些方法依赖于图像检索和特征匹配,以建立查询图像中的像素与地图中3D点之间的2D-3D对应关系。然而,由于需要存储视觉特征和3D模型,这种方法往往会受到地图规模庞大的困扰。此外,由于需要在查询图像和多个候选图像之间进行特征匹配,该过程在计算上可能效率不高。
相比之下,场景坐标回归(SCR)方法将地图信息编码到神经网络中。它们直接将世界坐标系中的3D坐标回归到对应的图像像素,从而无需显式地进行2D-3D对应搜索。与基于FM的方法相比,SCR方法能够实现更快的重定位,且地图规模更小。最近,ACE提出了一种泛化卷积神经网络(CNN)来提取用于场景编码的特征图。在此基础上,它利用一个紧凑的4MB大小的多层感知器(MLP)头作为地图,能够在五分钟内完成新场景编码,且无需3D模型或深度信息。这种方法达到了最先进的准确性和效率。
尽管具有这些优势,SCR方法仍面临几个显著限制。首先,图像中存在许多无纹理和非信息区域,这显著增加了地图编码误差。其次,现有的仅RGB的SCR方法严重依赖于隐式三角测量,即神经网络必须在不同图像中一致地识别和映射到相同的区域以准确获取3D点。这种依赖导致在具有重复纹理的环境中性能急剧下降。第三,在重定位过程中,由于特定区域的可靠性未知,所有像素到3D的匹配都被用于姿态估计,这大大降低了效率。已有一些努力来解决这些挑战。FocusTune通过关注信息丰富的区域来减轻编码误差,但需要场景的3D模型,这限制了其实用性。对于第二个问题,GLACE引入了全局图像描述符来更好地区分图像中的相似区域,但这种方法的代价是降低了映射和定位效率。
在本文中,我们提出了一种新的SCR系统,旨在解决这些挑战。为了解决第一个和第三个问题,我们引入了一个统一且场景无关的CNN主干网络,该网络同时编码场景并识别显著区域,将映射和重定位工作仅集中在这些信息丰富的区域上。对于第二个挑战,我们明确地将不同图像中的显著区域相关联,利用序列信息来增强隐式三角测量和重定位。
3. 效果展示
在本文中,我们提出了一个有效的SCR系统,该系统利用深度神经网络进行映射和重定位。我们的系统提供准确有效的重定位,同时保持快速制图和紧凑的地图尺寸,实现最先进的性能。
取样策略比较。ACE随机采样图像补丁。FocusTune在3D模型的投影点周围执行均匀采样。我们使用关键点检测来选择可重复的图像补片。
4. 主要贡献
本文的主要贡献如下:
• 我们引入了一个统一且场景无关的CNN主干网络,用于场景编码和显著区域检测,这减轻了由非信息区域引起的准确性下降。
• 我们提出了一种新方法,利用序列信息来加强SCR系统中的隐式三角测量,提高了映射准确性,特别是在具有重复纹理的环境中。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
• 我们设计了两种重定位模式:一种高效的一次性重定位的单帧模式,以及利用时间信息增强重定位性能的序列模式。
• 广泛的实验结果表明,我们的方法在效率和有效性方面均取得了显著改进。我们提供源代码,网址为https://github.com/sair-lab/SeqACE。
5. 方法
所提系统的整体结构如图2所示。它包含两个主要组件:场景无关模块和场景特定模块。场景无关模块为图像块生成特征向量和显著性分数,而场景特定模块则设计为具有多个1D卷积层的MLP头,将这些特征向量映射到3D场景点。
在我们的基于序列的重定位中,预测的3D场景点被用来约束后续帧的姿态估计,并且用新的观察来更新。
6. 实验结果
7-Scenes数据集:7-Scenes数据集由使用分辨率为640×480的Kinect RGB-D相机在七个室内场景中捕获的RGB-D图像组成。我们使用RGB帧及其真实姿态来训练fH。我们的方法与几种当前最优的基于稀疏特征表示的即时定位与地图构建(Simultaneous Localization and Mapping,SLAM)系统和基于特征匹配(Feature Matching)的方法进行了对比评估。评估的关键指标包括建图时间、地图大小、重定位速度和召回率。召回率定义为姿态误差小于(1厘米,1度)的测试帧的百分比。结果总结在表I中。我们的单模式重定位实现了显著的高效性,运行频率为90Hz,比ACE快1.6倍,同时召回率也提高了6.4%。序列模式进一步实现了高效性下的当前最优精度。相比之下,ACE的两种变体FocusTune和GLACE存在明显缺陷:FocusTune依赖于3D模型,仅实现了适度的精度提升(+3.9%),而GLACE则牺牲了建图和重定位效率。相比之下,我们的系统在保持ACE的快速建图时间、紧凑的地图大小和重定位速度的同时,实现了显著的召回率提升(+11%)。
所提出的方法显著提高了具有重复纹理环境的系统性能。在“楼梯”序列中,图像是在具有大量重复图案的楼梯上捕获的,这对精确重定位构成了重大挑战。在此场景下,我们的单模式和序列模式方法分别将ACE的召回率提高了7.2%和13.6%。这突显了基于序列的建图和重定位方法的有效性,分别使召回率提高了8.9%和4.8%。图5展示了在此具有挑战性的场景下,不同系统的场景图像和从0到1厘米的累积误差分布。
12-Scenes数据集:12-Scenes数据集是在12个场景中使用iPad彩色相机收集的,提供分辨率为1296×968的RGB序列。与先前的方法一样,我们在重定位期间将图像大小调整为642×480。我们将我们的系统与几种当前最优的SLAM方法进行了评估,结果总结在表II中。与基线方法(ACE)相比,我们的方法将重定位召回率提高了8.6%,并将重定位速度提高了7Hz。尽管GLACE在该数据集上实现了略高的精度,但其代价显著:需要2.5倍的建图时间、3倍的地图存储内存,并且重定位速度仅为我们方法的一半。在图6中,我们比较了在两个场景中不同算法的重定位轨迹误差和召回率。
Cambridge Landmarks数据集:该数据集包含使用Google LG Nexus 5智能手机在剑桥老城拍摄的五个场景。捕获的视频被下采样为低帧率图像序列,导致连续帧之间存在较大的运动间隙。这些间隙使得通过光流进行特征跟踪变得具有挑战性,因此我们仅在此数据集上评估了我们的单模式重定位。表III中的结果将我们的系统与ACE进行了比较,以突出在映射过程中融入序列信息的优势。评估指标包括中位姿态误差和召回率,后者定义为姿态误差小于(10厘米,10度)的测试帧的百分比。我们的方法将姿态误差减少了3厘米,并将召回率提高了1.4%,证明了利用序列信息的有效性。
7. 总结 & 未来工作
在本文中,我们提出了一种高效且准确的SLAM系统。我们的方法引入了一个统一的、与场景无关的模块,用于场景编码和显著关键点检测,使系统能够优先编码信息丰富的区域。为了加强隐式三角测量,我们将多个图像中的关键点相关联,以有效利用序列信息。我们还设计了两种重定位模式:单模式,以高效率执行一次性重定位;序列模式,通过融入时间信息来提升重定位性能。实验结果表明,我们的方法显著提高了系统性能,实现了卓越的精度和效率。然而,与其他SLAM系统一样,我们使用卷积神经网络(Convolutional Neural Network,CNN)作为主干网络,这限制了场景点预测仅依赖于单个图像块的信息。在未来的工作中,我们计划探索其他架构,如ViT,以增强SLAM系统。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球