专栏名称: 深蓝AI
专注于人工智能在线教育
目录
相关文章推荐
51好读  ›  专栏  ›  深蓝AI

几何vs 目标?哪种SLAM方法更主流?

深蓝AI  · 公众号  ·  · 2023-11-30 09:00

正文

论文标题:Higher or Lower: Challenges in Object based SL
论文链接:https://arxiv.org/pdf/2310.13256.pdf
论文作者:Zhihe Zhang*, Hao Wei, Hongtao Nie
编译作者:auto——driver
审核:Los

导读:

这篇文章对几何特征和目标特征进行深入比较,分析了SLAM框架中当前主流的目标特征应用方法,并且总结了在SLAM框架中应用目标特征所面临的挑战。本文旨在为研究者探索目标特征在SLAM中的潜力提供帮助和指导。



近年来,随着自动驾驶和无人机的快速发展,同时定位和建图作为计算机视觉中的一项基本任务,对性能提出了更高的要求。传统的SLAM算法高度依赖于基本的几何特征,例如点和线,这些特征容易受到环境的影响。相反,更高级别的目标特征提供了更丰富的信息,这些信息对提高框架的整体性能是至关重要的。然而,目标特征的有效利用需要仔细考虑各种挑战,包括复杂度和处理速度。考虑到高级别目标特征和低级别几何特征的优势和劣势,在SLAM框架内做出明智的选择变得非常重要。考虑到这些因素,本文对几何特征和目标特征之间进行深入比较,分析了SLAM框架中当前主流的目标特征应用方法,并且全面概述了基于目标的SLAM所面临的主要挑战。



同时定位和建图是计算机视觉中的一项基本任务,自开创之初一直受到研究者的高度重视。SLAM被定义为基于观测量来估计传感器的位姿同时构建未知环境的地图。很多视觉SLAM算法选择使用几何特征(例如点和线)进行位姿估计。这些方法通常称为基于特征的方法。


当前基于特征的框架大多数遵循一个模式:提取-匹配-优化。在前端提取并且关联不同类型的特征,而在后端局部和全局优化由此产生的约束关系。传统的几何特征由于其简单且高效,已经成为各种框架中必不可少的组成部分。

然而,它们在严重扰动(例如光照和遮挡)的场景下往往很脆弱。将目标作为一类特征加入到算法中的概念由来已久。不幸的是,其实现受到精度和提取速度方面局限性的阻碍。尽管如此,深度学习和算力方面的改进已经大大提高了深度学习模型的性能。这为使用模型实时提取特征开启了可能性。因此,近年来涌现了着重于目标slam的研究,其利用了目标特征的潜力。


目标特征是基于目标检测的,它可以描述场景中目标的分布,包括它们的类别和空间占用,如图1所示:


图1|展示了图像中的目标特征。通过深度学习模型,可以使用边界框表示目标信息。重建的目标全部依赖于目标检测的结果


与几何特征相比,目标特征作为一种高级别类别,具有以下优势:


1)更丰富的信息:目标特征比几何特征包含远远更多的信息,例如语义、形状和位置,这些都可以作为优化过程中的约束;


2)更稳定的观测:目标在场景中可以更鲁棒地被观测,从而在帧之间建立更多的观测关系;


3)与人类更相似:目标级别的感知和行为规划更符合人类的认知模式。


很明显,目标特征在更高维度的空间中操作,从而提供了更丰富的环境信息和更稳定的约束,这些都是建图和位姿估计的关键因素。然而,将目标作为一种单独的特征也对参数化和数据关联等任务提出了更高的要求。


我们注意到,尽管对基于几何特征的SLAM算法已经进行了充足研究,但是对基于目标的SLAM研究仍然有限。因此,我们的目标是通过向该领域感兴趣的研究者提供有价值的见解来填补这一空缺。在本文中,我们将分析目标特征的特性,并且介绍它们在SLAM中应用所面临的挑战。通过这种方式,我们旨在为研究者探索目标特征在SLAM中的潜力提供帮助和指导。



特征可以被理解为表现出稳定性和独特性的不同元素。作为特征,它们需要满足两个主要标准:可重复性,即它们可以在不同的图像中重复出现;独特性,即不同的特征应该有不同表征,而相似的特征表现出相似的表征。对于提取特征,我们可以通过丢弃不太重要的部分并且着重于特征元素来有效地简化输入。此外,对于建立图像中特征之间的联系,我们可以建立特征之间的匹配关系,并且估计传感器的轨迹。下面我们将主要介绍传统的几何特征和高级别的目标特征。


3.1 几何特征


SLAM中的传统几何特征主要着重于从基本几何元素中提取信息。 这些特征分为三种主要类型:点特征、线特征和平面特征。


对于这三种类型的几何特征,学术界已经进行了大量研究。点特征作为最基本的几何元素,是图像中最丰富且最容易提取的特征。这意味着点特征可以快速提供帧间的约束信息。ORB、SIFT、SURF和FAST等经典特征点被广泛使用。基于特征点与其周围一定范围内点之间的可区分性来识别特征点。与其相邻点相比,这些点的特性(例如强度、纹理或者深度)应该明显不同。


线特征建立在点特征基础上,增加了延伸的特性。线段的提取相对更复杂,从早期的Canny和Hough变换等方法发展到更广泛使用的LSD、EDLINE和ELSED等方法。先提取方法在速度和精度方面具有显著改进。然而,基本的基于梯度的提取策略保持不变。通过比较像素梯度,确定相邻元素是否属于同一线段。线特征由于其细长的性质,在具有挑战性的条件下(例如光照变化或者相机抖动)更容易产生不连续性。此外,线段的三维重建也是一个具有挑战性的问题。利用单目相机的算法,可以采用将线段重投影到成像平面进行三角化等方法。对于直接提供深度信息的RGB-D相机,可以采用通过3D点拟合进行直接深度恢复等方法。然而,与用于点特征的直接三角化方法相比,线特征的深度恢复更具挑战性。


当特征级别上升到平面特征时,特征的提取、表示和利用的方法变得更复杂。与构建描述子的点特征和线特征不同,平面特征的数量明显更少,可以使用法向量和距离进行简单识别。在应用层面,与通过点和线特征匹配来建立观测约束不同,曼哈顿世界假设是平面特征的一个主流应用,它通过提取平面法向量并且将其与线段方向向量结合来计算场景的曼哈顿坐标系。最后,基于坐标系和线段之间的平行和垂直关系建立约束。


3.2 目标特征


随着特征的级别不断上升到目标级别,其同时也超越了几何施加的限制。目标特征实际上由两部分信息组成:目标的空间占用和类别。因此,目标特征代表了几何特征和语义特征的结合,更好地符合人类对环境的感知。


在目标检测的过程中,通常通过训练好的YOLO和Mask-RCNN等深度学习模型直接提取目标的语义信息。因此,这里重点讨论目标的几何表示方法。当描述目标时,主要以三方面为目标:全面性(描述所有类别的目标)、完整性(描述目标的整体)和详细性(描述目标的精细特征)。


早期的目标描述使用预先建立的目标模型进行目标表示。然而,由于搜索的时间成本以及模型数据库构建的复杂性,目标表示的准确性和丰富性受到严重限制。为了更好地利用场景中存在的目标,需要使用几何表示方法来摆脱目标数据库的限制,并且基于观测结果来实时构建目标。一种方法是使用标准几何模型来表示目标。目前有些研究使用椭球体来描述目标。与立方体相比,椭球体提供了九个自由度,包括位置(中心坐标)、方向(横滚、俯仰和偏航)和形状(三个方向的半轴)。

尽管在初始化过程中需要更多约束,如图2所示:


图2|展示了立方体和椭球体投影的差异


虽然立方体的投影可以根据视角表现出明显的变化,但是椭球体的投影始终维持圆锥形。这种特性被证明在计算重投影误差和目标关联方面是有利的。


在构建标准几何目标的过程中,尽管我们实现了所有类别目标的完整构建,但是我们丢失了目标的细节信息。这导致在后续的数据关联模块中更加依赖标准几何目标的性质。为了解决这个问题,一些研究者尝试更精确的目标描述方法:基于观测结果直接构建整个不规则目标,使用MaskRCNN进行场景分割,并且对分割目标进行在线重建。然而,对于分割任务,仅有部分目标可见,使得它难以实现完整的目标描述。因此,这种目标描述方法主要用于建图目的。


3.3 高级特征引发的问题


从点特征到目标特征的过程实际上是特征层次的连续提升。在这个过程中,嵌入特征的信息逐渐增多,而特征的语义意义变得更具表达性。此外,由于高维特征在场景中占据更大空间,因此它们往往会维持更稳定的观测关系。这些是高级特征的优势。然而,特征提取和描述的难度也增加了。


我们认定难度的增加主要是由于特征的扩展引起的不确定性的提升,如图3所示:


图3|特征的不确定性。随着级别的提高,特征提取的方向也在增长,这导致目标不确定性的增加


点特征作为图像的基本元素,不具有内在的扩展倾向。然而,当点特征演变为线特征时,由于这些线特征沿着它们各自的方向扩展,特征提取过程自然会增加不确定性。随着特征层次向平面特征发展,在两个方向上产生不确定性,从而增加了平面特征的不可预测性。最后,目标特征作为最高级的特征,仅基于其形状展现出三个方向上的不确定性。



SLAM的评估基于两方面:轨迹精度和构建的地图。相应地,特征也起着双重作用:在位姿估计中连接相邻帧,以及作为地图中的基本元素。与传统几何特征的有限应用相比,目标特征提供的更丰富的信息进一步扩展了其应用的可能性。下面,我们将主要着重分析目标特征是如何在SLAM框架中应用的。


4.1 基于目标的全局优化


从轨迹精度的角度看,低级几何特征(例如点特征和线特征)在SLAM中被广泛使用。在特征提取和匹配之后,通过最小化几何误差将几何特征用于位姿估计中。重建的几何特征在全局优化和回环检测中起着重要作用。然而,当涉及到高级目标特征时,目标本身的提取和表示会产生显著的计算成本。因此,像点特征和线特征一样将目标特征直接用于前端位姿估计过程将变得具有挑战性。


尽管如此,目标作为稳定的特征,提供了场景中更稳定的观测。在后端优化中,耗时要求不太严格,目标特征具有更广泛的应用空间。例如,一些研究者将九自由度的目标边界框与相机位姿和地图元素一起优化。通过考虑目标、位姿和地图点之间的关系,在BA优化中引入额外的测量误差项;另一些研究者将目标观测以椭球体的形式作为因子图的一部分,并且将观测的椭球体与建模的椭球体之间的偏差作为几何误差项;还有一些研究者将点和目标建模为固定半径的球体并且联合优化位姿。


表1比较了目标特征SLAM方法和几何特征SLAM方法之间的轨迹精度:


▲表1|展示了在TUM序列上的平均定位误差


事实上,在位姿估计中引入目标特征没有产生预期的改进。这主要归因于与目标特征相关联的固有复杂性。从传感器数据中提取有意义的目标特征并且以有助于有效位姿估计的方式准确参数化它们是一项具有挑战性的任务。此外,目标特征的有限数量和低可靠性进一步阻碍了精确且鲁棒位姿估计的实现。因此,目标特征在位姿估计中的预期优势尚未完全实现。


4.2 基于目标的回环检测


回环检测是SLAM中的关键部分,通常通过重新观测路标来消除位姿估计过程中的累积误差。传统的视觉SLAM方法利用几何特征并且构建词袋模型进行回环检测或者重定位。然而,在光照条件或者视角发生显著变化的情况下,由于局部特征的可观测性受限,导致传统方法的有效性显著降低。因此,利用目标特征可以提供场景中更稳定的观测,对回环检测是很有前景的。


最常用的方法是通过突出目标之间的关系来描述场景。这涉及到将场景中的目标转换为拓扑图,图中点表示目标,边表示目标之间的关系。通过对目标之间的关系进行排序,可以有效地实现对场景的更高级描述。


这些描述方法的一个局限性是,当同一目标类别的多个实例出现在场景中时,仅依赖拓扑图中节点的语义特征可能会由于显著性低而导致有效性下降。因此,目前一些研究旨在丰富拓扑图中节点和边的内容。






请到「今天看啥」查看全文