专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

爱丁堡大学 & 英伟达 & UCL 提出 RadarOcc | 自动驾驶3D占位预测性能 SOTA ,提高恶劣天气下感知鲁棒性!

智驾实验室  · 公众号  ·  · 2024-05-30 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

基于3D占位的感知管线在自动驾驶领域取得了显著进展,通过捕捉详细的场景描述,并在各种目标类别和形状上展现出强大的泛化能力。当前方法主要依赖激光雷达或相机输入进行3D占位预测。

这些方法容易受到恶劣天气条件的影响,限制了自动驾驶汽车全天候部署的能力。为了提高感知的鲁棒性,作者利用汽车雷达领域的最新进展,并引入了一种新颖的方法,该方法使用4D成像雷达传感器进行3D占位预测。

作者的方法,RadarOcc,通过直接处理4D雷达张量,绕过了稀疏雷达点云的限制,从而保留了关键的场景细节。RadarOcc创新性地应对了大量且噪声的4D雷达数据所带来的挑战,通过采用多普勒频段描述符、考虑旁瓣的空间稀疏化以及距离维自注意力机制。

为了最小化直接坐标变换相关的插值误差,作者还设计了一种基于球面的特征编码,随后进行球面到笛卡尔特征聚合。作者在公共K-Radar数据集上对基于不同模态的各种 Baseline 方法进行了基准测试。

结果显示,RadarOcc在基于雷达的3D占位预测方面达到了最先进性能,即使与基于激光雷达或相机的方法相比,也显示出有希望的结果。

此外,作者提供了4D雷达在恶劣天气条件下优越性能的定性证据,并通过消融研究探索了关键管线组件的影响。

1 Introduction

自动驾驶车辆在野外导航的安全性取决于对环境3D结构的彻底理解。基于被称为 Voxel (voxels)的网格体积元素构建的统一场景表示——3D占有率,在自动驾驶领域越来越受到关注[1; 2; 3; 4; 5]。其日益受欢迎源于其对场景的全面描绘,捕捉了几何和语义方面。至关重要的是,它超越了仅前景表示的限制(与3D目标检测[6; 7; 8]相比)和稀疏数据格式(与点云分割[9; 10; 11]相比)。此外,3D占有率提供了一个详细的开放集场景几何描述,有效地处理了词汇外项目(例如,动物)和不规则形状(例如,吊车)。这种能力使得它比以前基于目标的感知方法[12; 13; 14]能处理更广泛的边缘情况。

以往的研究主要使用激光雷达点云、RGB图像,或两者的结合[3]进行3D占有率预测。然而,在自动驾驶中至关重要的4D成像雷达在这一领域尚未得到充分利用。这种新兴的传感器类型从传统的3D毫米波雷达发展而来,提高了高度分辨率,能够检测和解析水平面和垂直面上的目标,从而产生详细 的“成像”输出。同时,4D雷达继承了毫米波雷达传统的优势,如在不同光照和天气条件下的能力、测量目标速度以及与激光雷达系统相比的成本效益。这些特性,特别是它在恶劣天气条件下的适应性,如雾和雨,使4D雷达成为实现移动自主性的关键组成部分。

在这项工作中,作者探索了4D成像雷达在增强3D占用预测方面的潜力。以前在雷达感知方面的研究大多依赖于以4D雷达点云作为输入,这种方法受到了激光雷达技术的启发。这种“受激光雷达启发的”框架在诸如3D目标检测和跟踪等任务中已显示出有效性。然而,这种方法主要增强了对前景物体(如汽车、行人和卡车)的检测。相比之下,3D占用预测需要检测来自所有占用空间的信号反射,包括前景和背景元素,如道路、屏障和建筑物。因此,传统上对稀疏雷达点云的依赖对于3D占用预测并不是最优的,因为在点云生成过程中经常会丢失关键的环境信号[57, 58]。例如,通常由低反射性材料(如沥青)制成的高速公路表面,往往只能向雷达接收器发送微弱的信号。

为了避免忽略微小的信号返回,作者提出利用4D雷达张量(4DRT)进行3D占用预测。这种原始数据格式保留了雷达测量的全部信息,为分析提供了一个全面的数据集。然而,使用这种体数据带来了重大挑战。例如,4DRT的大量数据——可能高达500MB——导致了处理效率低下,可能会损害实时神经网络的性能。此外,原始雷达数据由于多径效应而固有地存在噪声,并且存储在球面坐标系中,这与作者在应用中偏好的3D笛卡尔占用网格不同。

鉴于所提出的挑战,作者引入了一种新颖的方法,RadarOcc,专门为基于4DRT的三维占用预测而设计。为了应对计算和内存的需求,作者的方法首先通过编码多普勒通道描述符并在预处理阶段实施空间稀疏化来减少4DRT的数据量。作者的技术特点是考虑旁瓣的空间稀疏化,以最小化在方位和俯仰轴上散射的干扰,这通过距离自我关注机制进一步细化。

重要的是,作者注意到通常将球面RT转换为笛卡尔数据体积时,经常会带来不可忽视的插值误差。相反,作者直接在球坐标系中编码空间特征,并使用定义在笛卡尔坐标系中的可学习 Voxel  Query 无缝地聚合它们。作者的方法进一步采用了3D稀疏卷积和可变形注意力[59]进行高效的特征编码和聚合。 RadarOcc在K-Radar数据集[40]上与各种模态的最先进方法进行了基准测试,展示了在基于雷达的三维占用预测方面的有希望的性能。全面的实验结果验证了其与相机和激光雷达解决方案相当的性能。定性的评估进一步验证了4D雷达数据在恶劣天气条件下的优越鲁棒性,确立了其进行全天候三维占用预测的能力。这项工作的贡献有三方面:

  • 引入了同类中首个方法,RadarOcc,用于自动驾驶中基于4D雷达的三维占用预测。作者认识到了雷达点云在保留关键原始信号方面的局限性,并提倡使用4DRT进行占用感知。
  • 开发了一种新颖的流水线技术,以应对与4DRT相关的一系列挑战,包括减少大量数据体积、减轻旁瓣测量以及无插值的特征编码和聚合。
  • 在K-Radar数据集上进行大量实验,基于不同模态对最先进的方法进行基准测试,并验证了RadarOcc的竞争力性能及其在面对恶劣天气时的鲁棒性。作者的代码将在接受后公开。

2 Related work

3D占用预测。 早期关于3D占用预测的尝试,即语义场景补全(SSC)[60],主要局限于小规模的室内场景[61, 62, 63, 64, 65, 66, 67, 68, 69]。SemanticKITTI [70]的引入将SSC的研究扩展到大规模的室外场景,在此基础上,一些研究验证了使用激光雷达输入进行室外SSC的可行性。相比之下,MonoScene [23]是仅使用单个单目RGB图像进行SCC的开创性工作。自从特斯拉公开了他们用于完全自动驾驶(FSD)[1]的占用网络以来,关于自动驾驶车辆的3D占用预测研究近期急剧增加。尽管一些工作利用激光雷达点云进行场景补全,但现有的大部分方法依赖于仅使用视觉的 Pipeline ,该 Pipeline 学习将2D特征提升到3D空间。尽管基于激光雷达和摄像头的流行解决方案很多,但用于3D占用预测的4D雷达传感器仍然尚未充分研究。

自动驾驶中的4D雷达。 作为一种新兴的汽车传感器,4D毫米波雷达在恶劣天气(例如,雾、雨和雪)条件下优于激光雷达和摄像头,为移动自主性提供了全天候的感知能力。近年来,越来越多的努力致力于揭示4D雷达在自动驾驶应用中的潜力,包括3D目标检测和跟踪[54, 55, 56],场景流估计[71, 72],里程计和建图[77, 78, 79]。除了这些工作之外,作者是首个针对基于4D雷达的3D占用预测的研究,进一步探索这个独特传感器在这个未触及主题上的潜力。

用于感知的雷达张量 除了后处理的雷达点云,毫米波雷达的另一种数据类型是雷达张量(RT),它是将原始ADC样本沿相应维度应用FFT后的产物(参见3.1节)。与稀疏的雷达点云不同,密集的RTs包含环境的丰富完整测量信息,避免了在点云生成过程中的信息丢失(例如,CFAR [57, 58])。因此,一些研究尝试使用2D [35, 80, 81, 82, 83],3D [84, 85, 86]或4D [40, 44, 50] RTs进行目标检测,并取得了满意的性能。在这项工作中,作者开发了一种基于4DRTs的针对基于4D雷达的3D占用预测的定制方法。

3 Preliminary

4D radar signal processing pipeline

ADC采样。 为了测量周围环境,发射(Tx)天线在短时间内发射一系列FMCW波形,即称为啁啾信号。这些信号被物体反射并由接收(Rx)天线捕获。由一对Tx-Rx天线的信号混频产生的中频(IF)信号。然后这个混频信号由模数 Transformer (ADC)采样,为每个啁啾生成离散样本[87]。通过汇总来自所有啁啾和Tx-Rx天线对的ADC样本,FMCW雷达系统为每个帧构建了一个3D复数数据立方体。这个数据立方体按三个维度组织:_快时间_、_慢时间_和_通道_,分别对应于距离、距离速率和角度[88]。

雷达张量。 利用ADC样本,在相关维度上应用快速傅里叶变换(FFTs)以提取详细信息。第一个FFT,称为范围-FFT,在样本(快时间)轴上执行,以将不同距离的物体分离到由硬件规格定义的范围箱中的不同频率响应中。随后,沿着啁啾(慢时间)轴进行的Doppler-FFT解码相位变化——多普勒箱——以导出相对径向速度,生成范围-多普勒 Heatmap 。对于具有多个Rx-Tx天线对的配置,即_虚拟_天线元素,还会在虚拟天线阵的空间维度上执行额外的FFT(角度-FFT)以确定到达角(AoA)对于方位角和俯仰角。这一系列变换产生了一个全面的4D雷达张量(4DRT),其特点是在距离、多普勒速度、方位角和俯仰角维度上的功率测量。

雷达点云。 除了分析雷达张量之外,大多数FMCW雷达传感器进一步细化其输出以识别显著目标,这通常只代表不到1%的数据。目标检测算法,如CA-CFAR[57]和OS-CFAR[89],通常应用于范围-多普勒 Heatmap [88, 90]或直接在3D/4D雷达张量上[40, 44]以隔离峰值测量。这个过程生成一个稀疏的雷达点云,其中每个点由3D坐标以及多普勒速度、功率强度或雷达散射截面(RCS)等属性表征。虽然这一步骤显著减少了数据量并减轻了噪声,但它也消除了大量可能有价值的信息。

4DRT for 3D occupancy prediction

使用4DRT的理由。 4D雷达张量(4DRT)作为原始传感器数据,融合了激光雷达/雷达点云和RGB图像的优势,以连续数据格式提供直接的3D测量。这些张量全面捕捉原始雷达测量的信息,有效地解决了由于信号后处理导致的雷达点云稀疏性的问题。例如,在高速公路上常见的低反射性表面如沥青,通常不会反射足够的雷达信号以进行检测。通过使用4DRT,可以检测到这些微弱的信号返回,显著增强占用预测能力。此外,4DRT的体积结构与3D占用网格很好地对齐,使它们非常适合推进3D占用预测技术。

挑战。 尽管具有显著优势,但将4D雷达张量(4DRT)用于3D占用预测仍面临重大挑战。首先,4DRT数据量大(例如,在K-Radar数据集[40]中每帧500MB)阻碍了计算效率,需要在处理前减少数据量。其次,雷达数据中固有的噪声,加之毫米波的多径效应,需要仔细过滤以保留关键信号同时消除噪声。第三,4DRT数据的球坐标与3D占用输出所需的笛卡尔坐标之间的不一致性,需要定制网络设计。该设计必须有效地将空间交互从球坐标转换到笛卡尔维度,以确保准确的占用预测。

4 Method

作者提出了一种基于深度神经网络架构的目标检测新方法。作者的方法受到当前最先进的目标检测器的启发,同时引入了几项关键创新,旨在提高检测的准确性和效率。作者检测框架的核心是一个多尺度特征提取器,其后是一组用于细化不同大小和宽高比目标特征表示的注意力模块。此外,作者还整合了一个区域 Proposal 网络,该网络自适应地选择用于目标定位的信息性区域。整体架构是端到端的可训练的,使得整个系统能够同时优化。

Task definition

在本工作中,作者考虑使用单帧4DRT输出从4D成像雷达进行3D占用预测的任务。给定当前帧中捕获的4DRT,表示为 ,作者的任务旨在预测一个3D体积 ,其中每个 Voxel 元素 表示为自由空间(_即_ )或具有C个类别中的某一语义 的占用空间。这里, 分别表示沿距离、方位、俯仰和多普勒轴的bin的数量,4DRT的每个标量是映射到由这四个轴定义的空间内的位置的功率测量。 分别代表预定义感兴趣区域(RoI)在高度、宽度和长度维度上的体积大小。

Overview

雷达Occ由四个 ConCat 的组成部分组成(参见图1)。在将重的4DRT数据加载到神经网络之前,作者通过编码多普勒通道描述符并执行侧瓣感知的空间稀疏化作为预处理步骤来减少数据量,以提高效率而不丢失关键信息(参阅4.3节)。为了避免插值误差,作者直接在球面RT上编码空间特征,而不将它们转换为笛卡尔体积(参阅4.4节),并使用定义在笛卡尔坐标系中的3D体积 Query 聚合球面特征(参阅4.5节)。特别是,使用了距离向自注意力来减轻旁瓣,并利用稀疏卷积和可变形注意力进行快速特征编码和聚合。占有概率在3D占有解码步骤中预测,这一步骤通过作者的训练损失进行监督(参阅4.6节)。

Data volume reduction

直接使用神经网络处理原始4DRT数据是不切实际的,因为其数据量庞大(例如,每帧500MB),导致计算成本和内存使用过高。此外,大型原始4DRT数据在传感器、存储设备和处理单元(CPU/GPU)之间的数据传输速度缓慢,不仅阻碍了板载运行时的效率,也增加了训练时间,这需要重复加载数据。为了提高效率,作者建议通过编码多普勒频谱描述符和考虑旁瓣的空间稀疏化预处理步骤来减少4DRT数据量(见图1)。减少数据量后,将4DRT加载到处理单元进行运行时推理变得更加可行,网络训练也更加高效。

多普勒频谱描述符。 与直观上对空间感知至关重要的三个空间轴不同,4DRT中的多普勒轴在3D目标检测中通常被认为是多余的。以前的研究[40, 44, 50]采用平均池化来最小化这个轴,目的是减少计算开销。然而,作者认为这个看似“多余”的轴包含了在3D占用预测中进行几何和语义分析的重要线索。

具体来说,多普勒轴通过峰值位置提供了关于物体速度的必要信息,有助于将动态物体与静态背景区分开来。此外,多普勒频谱内的功率分布为真实目标的置信度水平提供了洞察——本质上,指示了它们的占用可能性。

为了保留并利用这一关键信息,作者开发了一种方法,将多普勒频谱编码为一个描述符,该描述符捕获4DRT内每个空间位置的具体统计信息。这个描述符包括沿多普勒轴的前三个功率值及其索引、平均功率值和标准差,如图1所示。注意,保留的前几个值的数量是经验性地确定的。

因此,这种方法使作者能够将原始4DRT的数据量减少为 ,同时保留多普勒轴的关键信息。

考虑旁瓣的空间稀疏化。 通过将多普勒频谱编码为轻量级描述符,作者将原始4DRT转换为具有原始多普勒轴作为8通道特征维度的3D空间数据体。然而,对于神经网络来说,从3D密集数据体中编码特征,如使用3D卷积[91, 92]的运算仍然代价高昂。为了加速计算,先前的研究[40, 44]通过重新训练基于功率测量值的顶部百分位元素,将密集RT转换为稀疏格式。

然而,这种方法往往偏向于在特定范围内显示异常高的测量值。从图2中可以观察到,基于百分位的稀疏化后,保留的大量元素集中在跨越方位角和俯仰角的同一范围内。这些元素表现为旁瓣的伪影,可以看作是天线衍射图样[93, 94]。因此,这导致其他范围内的测量值丢失,并在稀疏张量中引入了大量噪声。

为了缓解这个问题,作者建议为每个单独的范围选择顶部- 元素,而不是在整个密集RT上进行空间稀疏化(见图1)。

这样,可以避免某些范围的支配地位,同时降低旁瓣水平,如图2所示。注意,作者的空间元素选择是基于多普勒轴上的平均功率值。最终的稀疏张量表示为 ,额外的两个特征通道存储每个范围的保留 元素的方位角和俯仰角索引。

Spherical-based feature encoding

在给定稀疏RT的情况下,作者旨在编码代表性特征以实现准确的3D占有率预测。由于稀疏RT本质上是球面坐标,先前的工作[40, 44]在特征编码之前将它们转换为笛卡尔坐标。

然而,这种转换会削弱它们的均匀密度分布,并经常引起插值误差。受到点云的极坐标表示[95, 10, 96]的启发,作者提出将RT中的元素视为在球面坐标中栅格化的 Voxel ,并直接应用基于球面的特征编码。球面 Voxel 表示自然匹配RTs的球面均匀分布,并且可以避免引入插值误差。在实践中,可以通过仅将 - - 轴替换为距离-方位-俯仰轴来使用3D卷积提取基于网格的表示。以下,作者说明作者的基于球面的特征编码过程。

距离自注意力机制。 在第4.3节中,作者在预处理阶段通过基于距离的百分位数选择元素来解决旁瓣问题。为了进一步减轻旁瓣干扰,作者在特征编码过程的第一步引入了距离自注意力机制[97](见图1)。具体来说,在每一个距离分量 中,包含 RT标记,作者使用多普勒频段描述符作为标记特征。此外,还使用两个索引通道进行位置嵌入,以增强空间编码的特异性。

序列稀疏卷积。 为了提高效率,作者在球面 Voxel 空间中对稀疏RT应用一系列3D稀疏卷积[98]进行空间特征编码。这产生了一个具有减少空间维度的3D密集特征体 ,其由步长 特征,其中 表示特征维度。注意, 与球面空间内在对齐,每个特征元素的索引对应于一个球面坐标。

可变形自注意力。 在连续的3D稀疏卷积之后,作者使用3D可变形注意力[59]通过强制空间交互进一步精炼和增强作者的特征体 。作为一个定义,对于输入特征 中对应于参考点 的 Query 特征 ,其特征可以通过以下方程中的可变形注意力进行更新:

其中 是第 个注意力头的可学习权重,而







请到「今天看啥」查看全文


推荐文章
经典短篇阅读小组  ·  李氏山房藏书记| 苏轼
8 年前
经典短篇阅读小组  ·  李氏山房藏书记| 苏轼
8 年前
互联网分析沙龙  ·  左广告公司 VS 右广告公司
8 年前