物检测和全局定位在机器人领域起着至关重要的作用,应用领域遍及从自动驾驶汽车到为语义场景理解的多层3D场景图。
本文提出了一种新颖的多模态和轻量级方案BOX3D,通过融合RGB相机和3D LiDAR的信息实现对感兴趣物体的定位。BOX3D架构由三层组成,从传感器输入的连续局部感知开始,逐步上升到覆盖异常和每个物体观测的一致性的全局感知。
更具体地说,第一层处理了摄像和激光雷达数据的低级融合,用于初始3D边界框提取。第二层将每个激光雷达扫描的3D边界框转换为世界坐标系,并应用空间配对和合并机制来保持目标的独特性。
最后,BOX3D整合了第三层,该层在全局地图上迭代地监督结果的一致性,使用全球地图中所有点的点-体块比较来识别属于物体的所有点。
所提出的创新架构的基准测试结果在多个公开展示的实时状态大型数据集上进行了实验,该数据集是针对城市环境的。
I Introduction
随着技术的发展,对准确、高效感知和理解三维场景的需求日益增加。三维目标检测在自主系统中的重要性突出,通过增强机器人感知和互动三维世界的形式,起到了关键作用。三维目标检测使得对视觉数据的分析更为复杂,同时允许系统在三维空间中识别和定位目标,从而提供更细腻和符合上下文的感知。像一个三维空间一样理解和感知环境,是机器人能够与周围环境无间交互,无论是在户外环境还是室内环境中的基本要求。
本文的贡献如下:首先,作者提出了BOX3D一个新颖的框架,用于基于相机的激光雷达快速目标检测和定位,允许在点云数据中逐步检测物体。
这是通过其三层架构来实现的,第一层通过在RGB数据中生成二维边界框,然后将其投影到点云数据中,生成三维边界框,提高计算效率。作者使用了最先进的YOLOV8模型进行目标检测和分割,生成图像坐标中的二维边界框和分割 Mask 。然后,将二维边界框投影到激光点云中,使用分割 Mask ,和相机的内参和外参一起。之后,使用欧几里得聚类来过滤背景点,得到一组经 confidence 高于指定阈值确认的物体三维边界框。当计算出一组三维边界框后,经过第二层处理,即把当前激光扫描的三维边界框转换到世界坐标,并和之前扫描的边界框配对,基于重叠程度进行配对。如果重叠百分比超过定义阈值,便将它们合并成一个新的精确三维边界框。最后,作者使用聚类优化步骤来对世界点云中的点进行分割,对应着被检测到的物体。作者方法的整体概述见图1。
II Related Work
在本节中,作者总结了基于点云(PCL)的3D检测方法和基于图像的3D检测方法的最新研究状况,它们的主要优缺点,以及它们与所提出的融合方法之间的比较。
所提出的分类法将这些算法分为两大类:基于PCL的方法,指的是直接在点云(PCL)数据上进行检测的算法,以及基于图像的方法,即在摄像机提供的图像上进行检测,然后借助深度传感器(例如激光雷达或深度相机)将其外推到3D坐标。
PCL-based Methods
Voxel 化为基础的三维目标检测方法,例如[6]中的gridify将奇异的点云体化为规则的 Voxel ,然后使用稀疏3D卷积来提取高维特征。尽管这种方法有效,但基于 Voxel 的方法在效率和准确性之间面临权衡。选择较小的 Voxel 可以提高精确度,但会带来更高的计算成本。另一方面,选择较大的 Voxel 则会牺牲 Voxel 内可能存在的局部详细信息。
其他作者则选择了基于点的3D目标检测方法,这些方法直接使用原始点来学习3D表示。利用点集的学习方法可以减轻 Voxel 化引起的信息损失,并充分利用点云的固有稀疏性,将计算限制在有效数据点上。然而,基于点的学习运算需要满足交换不变性和输入大小的自适应性,这给方法带来挑战。为了实现这一目标,模型必须学习简单的对称函数,这严重限制了其表示能力。
此外,还有一些基于点 Voxel 的算法,它们天生利用点获取的精细3D形状和结构信息,以及由 Voxel 带来的计算效率。然而,点 Voxel 特征的融合通常依赖于 Voxel 到点和点到 Voxel 的转换机制,这会导致非可忽视的时间成本。
Image-based Methods
最后,作者可以找到基于图像的方法,例如在[14]的情况下,采用融合激光雷达和相机的互补信息的目标检测和识别方法。同样,[15, 16]提出了一种低复杂度的多模态融合框架,该框架在非最大抑制(NMS)之前处理任何2D和任何3D检测器的组合输出。其他作者[17]提出了一种软关联机制来处理由卷积背部网络和基于 Transformer 解码器的目标检测Head组成的不良图像条件。
此外,[18]提出了两种改进传统方法的方法,一种是使激光雷达点与图像像素之间实现精确几何对齐,另一种是利用交叉注意力在融合过程中动态捕获图像和激光雷达特征之间的相关性。另一方面,[19]提出了一种新颖的训练策略,为有效的激光雷达和相机融合提供辅助特征级监督,显著提高了检测性能。与上述工作相比,作者的框架并不依赖多个网络进行融合过程,而是利用不同的技术将2D边界框映射到3D坐标,并逐步在全局地图上优化生成的3D边界框。
III 方法论
提出的框架如图2中的功能块图进行概述。该框架由三个层次组成。第一个层次在图像坐标中生成边界框和分割 Mask ,并将其转换为激光雷达坐标以生成3D边界框,同时计算时间低;第二个层次评估当前检测的3D边界框与之前检测的之间的重叠程度,当重叠程度超过阈值时,相应的3D边界框融合以生成一个新优化的3D边界框,最后,第三个层次评估对应于每个检测到的目标的世界点云的点以及目标在世界坐标中的位置。本节剩余部分详细解释提出的框架的所有子组件。
Coordinate Frames and Transformations
固定世界框架
定义了机器人平台的作业空间,激光雷达框架
位于激光传感器上,而图像框架
则附着在摄像机传感器上。利用同义转换矩阵对点
在
上的投影进行如下处理:
其中,
表示点云上任意一点的三维坐标,
和
分别是摄像机和激光传感器之间的旋转矩阵和 Translation 向量,
和
分别是具有原点
和
的摄像机的焦距,