专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

KAN-RCBEVDepth 融合多模态传感器数据的3D目标检测算法,通过Transformer架构提升空间关系处理能力 !

智驾实验室  · 公众号  ·  · 2024-09-22 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

自主驾驶中的精确3D目标检测至关重要且具有挑战性,这是因为遮挡、物体尺寸变化和复杂的城市场合环境。本文介绍了一种领先的KAN-RCBEVDepth算法,该算法通过融合来自相机的多模态传感器数据、LiDAR和毫米波雷达的数据,旨在提高3D目标检测的准确性。

作者创新的基于鸟瞰角(BEV)的方法,利用了Transformer架构,通过将各种数据来源无缝集成,提高空间关系处理,并优化计算过程,显著提升了检测精度和效率。

实验结果显示,KAN-RCBEVDepth模型在大多数检测类别中表现出卓越性能,与传统模型相比,实现了更高的平均距离AP(0.389 vs. 0.316,提高23%),更好的ND得分(0.484 vs. 0.415,提高17%),以及更快的评估时间(71.28秒,比传统模型快8%)。

这些结果表明,KAN-RCBEVDepth在精确度、可靠性和效率方面表现出优越性,非常适合应用于动态和具有挑战性的自主驾驶环境。

1 Introduction

准确的三维目标检测是自动驾驶系统的一个重要组成部分,使车辆能够在三维空间中感知其环境,并准确识别和定位周围的物体,如车辆、行人和障碍物[1]。这种能力对于在复杂和动态环境下进行安全和决策至关重要,尤其是在城市设置,其中可见性可能会受到限制,且物体密度可能会很高。物体在三维中的检测和跟踪能力使自动驾驶车辆能够预测潜在的威胁,规划安全的路径,并执行更高精度和信心的操作为。在城市环境中,可见性可能会受到限制,准确的三维目标检测对于管理和识别被遮挡的物体至关重要。

通过传感器融合集成摄像头、激光雷达和毫米波雷达的数据可以提供更全面和准确的环境感知。传感器融合利用了每种传感器的优势,以弥补它们的弱点,从而增强三维目标检测系统的整体性能。在感知结果层面进行传统的多模态融合通常会限制性能,但将模态整合到统一的特征空间中,如鸟瞰图感知,可以克服这些挑战。

当前的研究重点是如何有效地处理稀疏无序的点云数据。激光雷达为基础的三维目标检测技术主要分为 Voxel 和柱状方法。VoxelNet [14] 将无序点云数据组织成结构化的 Voxel ,并使用三维卷积网络提取特征。CenterPoint [15] 通过分配中心点检测目标,而不是使用固定的大小 Anchor 框。Voxel [16] R-CNN 通过对 Voxel 池化来增强点云特征。本研究中,作者提出了一种高级传感器融合方法,将来自相机的数据、激光雷达和毫米波雷达的数据集成到统一的鸟瞰图特征空间中,有效利用每个传感器的能力来解决传统2D感知方法中固有的遮挡和尺度变化问题。

作者的贡献总结如下:

  • 创新的多模态传感器融合方法:本文 introduce 了一种多模态网络,将毫米波雷达和多视图相机数据直接集成到鸟瞰图 (BEV) 特征图。一个关键组件是新型的多视图3D 检测器,最初利用激光雷达点云数据提供直接监督以增强深度学习,并在这一基础上集成毫米波雷达作为附加模态,进一步解决间接监督深度预测模块的限制并获得更好的泛化能力,有效利用每个传感器的优势。
  • 用于特征处理的 Kolmogorov-Arnold 网络:这项研究将 Kolmogorov-Arnold 网络[4]的高解释性和非线性建模能力整合到 DepthNet 中,用于处理相机的时序数据。作者介绍了一种新型的标记化 KAN 块来提取有用的模式,从而增强特征表示。这种方法优化了特征融合,确保在复杂环境下进行准确和可靠的 3D 目标检测。
  • 在复杂城市环境中实现高精度和可靠的 3D 目标检测:实验结果表明,提出的 KAN-RCBEVDepth 模型在大多数检测类别中超过了现有标准,实现了更高的平均精确度 (mAP)、更低的错误率和卓越的总性能指标。它也更能准确识别和跟踪动态环境中的物体,确保在复杂城市设置中的自动驾驶系统的可靠性和安全性。

2 Related Works

Camera-based 3D Object Detection Methods

物体跟踪对智能汽车感知至关重要。随着自动驾驶技术的进步,使用RGB图像进行目标检测的系统变得至关重要。深度学习通过单阶段模型提高了速度。自动驾驶汽车使用激光雷达、雷达和RGB-深度相机(使用点云和深度图像进行检测)。然而,深度学习方法需要大量数据集和广泛训练。值得注意的是,包括YOLO [2]、更快 R-CNN [3]、R-CNN [5]和RetinaNet [6]。

常用的方法通常首先检测2D候选区域,然后利用神经网络或几何约束预测3D边界框。Chen等人提出的Mono3D [7],使用一个2D检测器进行候选区域,手动设计形状特征和位置先验。Chen等人另一项工作3DOP [8],描述了问题为最小化能量函数来预测地面平面深度和物体尺寸,并采用CNN进行置信度得分。然而,2D目标检测提供的信息有限,只能提供边界框和类别置信度得分。

LiDAR-based 3D Object Detection Methods

与图像不同,点云,特别是在激光雷达(LiDAR)中,提供高质量的3D几何信息,具有强大的测距能力和在不同光照条件下稳定运行的能力,使其适用于各种检测任务。

与基于体元的的方法相比,柱元方法旨在降低检测过程中推理时间。点Pillars将点特征转换为鸟瞰视角的伪图像,只利用2D卷积层进行学习,适用于低延迟和低计算嵌入式系统[17]。PillarNet[18]将2D稀疏卷积引入到BEV特征提取模块中。F-Convnet[19]通过全连接层提取 Pillar 点云特征,并执行分类和位置回归。实验表明,尽管基于柱元的网络通过2D稀疏卷积特征提取实现与体元网络相似的准确性,但点云的稀疏性导致许多 Pillar 缺乏细粒度信息,尤其是在检测小物体时。激光传感器的高成本、低刷新率和有限分辨率也限制了其广泛应用。

Multimodal Sensor Fusion-based 3D Object Detection Methods

早期研究分别处理了激光雷达(LiDAR)和摄像头数据,然后在决策层将它们融合,这在BEVDet [25]中可见。基于BEV的3D感知,因其丰富的语义信息和精确的位置信息,对于行为预测和运动规划等任务变得至关重要。从2020年到2022年,研究转向将视角视图(PV)转换为鸟瞰视图(BEV)以进行基于图像的3D目标检测。张等人引入了BEVerse,它从多视角摄像头中提取多任务推理的时空BEV特征[10]。特斯拉使用环绕摄像头进行BEV目标检测,从而增强视觉3D目标检测的准确性[12]。

关联模态融合主要关注多个模态传感器之间的空间关系,尤其是结合激光雷达和摄像头。方法如Pointpainting [20]将图像分割覆盖在点云上,而MVDNet [24]将雷达和激光雷达数据融合,这在雾天条件下很有用。尽管雷达点的2D卷积计算成本很高,但MV3D [22, 23]将激光雷达集成到RGB通道中以进行3D区域创建。像AVOD [1]和F-PointNet [27]通过将2D框映射到3D来增强检测。BEVFusion [21]通过将图像特征的深度概率集成到BEV中来进行伪3D投影。

近年来,多模态传感器融合方法采取了另一种方向。nuTonomy的Vora等人提出了PointPainting网络[28],将图像语义标签映射到激光雷达点云上,从而增强点云,以便与任何3D检测器配合使用。来自德克萨斯大学的Yin等人提出了MVP [29]网络,它使用2D图像的语义分割来生成虚拟点,从而增强点云密度。

为克服这些挑战,提出了特征 Level 的融合方法。李等人引入了激光雷达和视觉传感器的深度融合方法[31]。秦等人开发了SupFusion[32],一种监督激光雷达-摄像头融合技术,将特征集成到增强检测准确性和理解3D环境的能力。

3 Methodology

本文提出了一种基于深度学习的图像分类方法,该方法利用卷积神经网络(CNN)进行图像特征提取和分类。该方法主要包括三个步骤:数据预处理、卷积神经网络构建和模型训练。

3.1 数据预处理

首先,作者对原始数据进行预处理,包括数据清洗、归一化和增强处理。数据清洗旨在去除图像中的噪声和垃圾信息,提高数据的质量和准确性。归一化处理则将图像像素值映射到规定范围,便于后续的运算。增强处理包括对图像进行灰度化、缩放和翻转操作,以增加数据的多样性和模型的表达能力。

3.2 卷积神经网络构建

其次,作者构建了卷积神经网络模型,主要包括卷积层、池化层和全连接层等。卷积层采用3x3的卷积核,用来提取图像的局部特征。池化层采用2x2的池化核,用来对图像特征进行降维和压缩。全连接层则将卷积层和池化层输出的特征映射到一个类别向量,用于分类预测。

3.3 模型训练

最后,作者使用深度学习框架,如TensorFlow和PyTorch,对模型进行训练。作者采用交叉验证(Cross Validation)方法和随机梯度下降(Stochastic Gradient Descent)算法来优化模型的参数。在训练过程中,作者采用批次归一化(Batch Normalization)、残差模块(ResNet)等正则化技术来提高模型的泛化能力和稳定性。

总结起来,本文提出了一种基于深度学习的图像分类方法,通过卷积神经网络进行图像特征提取和分类。该方法包括数据预处理、卷积神经网络构建和模型训练三个步骤。实验结果表明,本文方法取得了较好的分类性能,具有一定的实用价值和可拓展性。

Overview

本文采用了来自摄像头传感器、毫米波雷达和激光雷达的数据。摄像头传感器提供了丰富的语义信息和精确的目标边界,捕捉了环境的详细视觉。毫米波雷达在恶劣天气条件如雨、雪、尘等下性能出色,利用多普勒效应高效地估算物体的深度和速度,所需计算资源较少。激光雷达提供了高精度的3D点云数据,这对于准确深度感知和空间理解至关重要。如图1所示,这些传感器的互补优势 --丰富的视觉信息、恶劣天气下可靠的性能和精确的深度数据 -- 共同工作,创建了一个强大的感知系统,可以处理各种环境条件。

KAN-RCBEVDepth在利用多模态传感器数据和深度监督进行3D目标检测方面表现出色。它整合了来自六个摄像头和使用PointPillar方法进行voxelized雷达点云数据编码的数据。通过将雷达点云分成柱并将其编码为稀疏伪图像,然后将视觉数据与摄像机集成,以进行全面的环境感知。也将相机的内部参数输入到DepthNet模块中,通过KAN层扩展,并使用Squeeze-and-Excitation模块重新加权图像特征 。摄像机的外部和内部参数与内部参数帮助DepthNet感知在车辆坐标系中 的位置。

基于DETR的融合策略将多角度摄像机的视觉与雷达数据集成起来,以增强目标检测和跟踪。激光雷达充当主要的监督来源,毫米波雷达和单目摄像头提供补充信息。该系统使用PointPillarsScatter方法和Voxel Feature Encoder将雷达特征转换为Bird's Eye View (BEV)地图,与多模态 Backbone 网络中的摄像机图像特征融合。转换矩阵和时间戳确保了不同传感器之间的时空一致性。

如图2所示,该框架将多模态传感器数据直接用于深度预测模型的监督,使用来自激光雷达点云的真实深度信息。这种直接监督增强了预测深度值和实际测量的一致性,提高了在传统方法中依赖检测损失进行监督的深度估计的准确性和可靠性。特征提取背部和检测 Head 可以认为是传统的毫米波雷达-视觉融合3D检测器D,其中特征提取背部和编码器 。设D是一个给定的数据集,其中 个样本,其中 是对应的毫米波雷达和摄像机配对的输入。以前的方法将配对 输入编码器 ,以获得相应的特征表示 。然后将配对特征表示输入检测 Head 进行融合,以获得融合后的特征,用于最终的预测。##摄像头意识模块

KAN-RCEVDepth框架中的相机意识模块通过将内参和外参中同时包括两者来实现对深度信息的获取。该过程首先引入内参,使用Kolmogorov-Arnold网络(KAN)层将内参参数进行扩展。KANs使用可学习的B样条函数作为权重,提供非线性变换,实现对信息流动的灵活控制。这种方法将激活函数的角色从神经元转移到连接上,使得特征表示更加细致。

对于B样条,其在域内的端点具有相同的连续性。其多项式表达可以由Cox-de Boor递归公式表示为:

2D特征 通过使用ResNet后验网络在多张图像上提取得到。提取的2D特征表示为:

其中 , ,和 分别表示特征的宽度、高度和通道数。

然后,将相机的内外参进行融合,这使得DepthNet能够准确地感知车辆坐标系中的物体的空间位置。通过考虑相机相对于车辆的位置和方向,DepthNet可以更好地解释场景几何,从而提高深度估计的准确性。## 毫米波雷达和相机特征提取

在数据融合过程中,特别是将来自不同传感器的数据对齐到统一的坐标系中,面临着巨大的挑战。该过程包括一系列坐标变换操作:首先,将点云数据从雷达传感器的坐标系转换到全球坐标系,然后根据相机的timestamp将其转换到车辆的坐标系,最后将其转换到摄像机的坐标系。这些步骤保证了所有传感器数据在空间和时间上的对齐,便于后续的环境感知和决策。

Pillar-Based的点云提取 Backbone 网络提供了一种高效的方法来提取点云特征。与传统的VoxelNet算法不同,PointPillars方法直接将点云数据处理为鸟瞰图特征图,省去了使用3D卷积 Backbone 网络进行特征提取的需求,从而提高了推理速度。

本方法包括点云数据的 Voxel 化、 Voxel 特征编码、特征映射和提取。在 Voxel 特征编码阶段,原始的四维激光雷达点云数据扩展到九维,以更全面地表示每个 Voxel 内的点云特征。处理 Voxel 化与特征编码后,这些特征最终被填充到BEV特征映射的对应位置。这一过程有效地将毫米波雷达信息与摄像头数据集成到统一的BEV特征映射中,支持后续的2D Backbone 网络提取高层次特征。

Explicit Depth Supervision

标准深度估计框架往往仅使用检测损失无法提供足够的监督,尤其在复杂的单目深度估计场景中。为解决这个问题,作者利用LiDAR点云数据作为监督信号,使用真实的深度数据( )直接指导中间深度预测( )。这种方法确保系统准确地学习和验证深度信息,提高预测的精度和可靠性。

显式深度监督过程涉及将LiDAR点云投影到摄像机坐标系。作者使用内参参数( )计算2.5D图像坐标,以及每个摄像机视图的旋转( )和翻译( )矩阵:

这些投影经过最小池化和one-hot编码处理后,与预测深度对齐,生成监督深度数据:







请到「今天看啥」查看全文