专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

武大提出 OccFusion | 通过辅助点云采样算法优化多模态融合,改进图像特征融合,降低3D占用预测计算负载 !

智驾实验室  · 公众号  ·  · 2024-06-26 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

基于多传感器融合的3D占有预测,对于可靠的自动驾驶系统至关重要,它使得对3D场景的细粒度理解成为可能。之前的基于融合的3D占有预测依赖于深度估计来处理2D图像特征。然而,深度估计是一个病态问题,这阻碍了这些方法的准确性和鲁棒性。此外,细粒度的占有预测需要大量的计算资源。作者推出了OccFusion,一种无需深度估计的多模态融合方法,以及相应的点云采样算法,用于密集整合图像特征。基于此,作者提出了一种主动训练方法和一个从粗到细的主动流水线,使模型能够自适应地从复杂样本中学习更多内容,并专门针对小或重叠物体等挑战性区域优化预测。作者提出的主动方法可以自然地扩展到任何占有预测模型。在OpenOccupancy基准上的实验显示,作者的方法在所有类别上的IoU都超过了现有的最先进(SOTA)多模态方法。此外,无论是在训练还是推理阶段,作者的模型都更加高效,所需的计算资源大大减少。全面的消融研究证明了作者提出技术的高效性。

1 Introduction

在都市环境下对三维周围环境的准确和完整感知对自动驾驶至关重要,它有助于地图构建和车辆运动规划等任务,从而确保驾驶的安全性和可靠性。近年来,关于语义占用感知的研究急剧增加。与通常使用边界框来近似动态物体位置的3D目标检测不同,语义占用感知模型处理整个传感器领域,包括静态物体和超出即时关注范围的空间。这种方法产生更精细化的三维场景表示,与真实驾驶场景更为吻合,因此它是一个有前景的研究方向。

在先前的关于语义周围感知的工作中,通过深度预测将2D特征转换为3D是一种传统方法。然而,人们普遍认为将2D图像特征提升到3D本质上试图解决一个病态问题。深度估计的鲁棒性无法得到保证,考虑到其在下游任务中的应用,深度估计的不稳定性对各种驾驶任务[21]构成了重大风险。

通过采用多模态方法,可以通过激光雷达数据引入深度信息,从而减轻问题的不适定性。然而,挑战依然存在,即在无需进行深度估计的情况下,有效地融合2D图像特征与3D激光雷达特征。尽管之前的文献[3, 15]已经指出多模态数据的融合可以提供冗余和更高的准确度,但到目前为止,只有少数研究关注于多模态3D语义占用预测[34],而这些方法依赖于图像特征的深度估计,导致鲁棒性和准确度不佳(见图2)。

另一方面,现有的最先进的多模态3D语义占用方法,M-CONet [34],基于CONet(级联占用网络)架构,采用从粗到精的流程来细化所有粗粒度 Voxel ,提高准确性的同时节省计算资源。然而,作者认为对于大多数具有高置信度的 Voxel 来说,分割操作是不必要的。此外,考虑到训练数据中类别和样本的长尾效应,当前的模型在不同类别和样本之间的性能表现不稳定,在预测小目标的占用情况时准确度不足。

作者介绍了一种新颖的多模态方法,该方法不是估计图像特征的深度,而是使用激光雷达点作为与相机特征进行点对点特征融合的参考点。作者的OccFusion方法与之前将图像特征融合到点云特征的方法不同,那些方法因相机和激光雷达特征之间的密度差异而受到影响,作者使用预处理过的激光雷达点来采样图像特征。具体来说,作者对每个 Voxel 执行点云采样:对于含有稀疏激光雷达点的 Voxel ,作者均匀生成合成点云;对于含有密集激光雷达点的 Voxel ,作者使用最远点采样算法[29]选择一个点子集。原始点云(不包括合成点)被嵌入到 Voxel 化特征中,并与图像一起通过相应的3D和2D编码器进行处理。此后,将点云投影到图像上,以建立2D相机特征与3D激光雷达特征之间的对应关系。然后作者应用OccFusion模块进行特征融合:使用激光雷达 Voxel 特征作为 Query ,相应的相机特征作为键,进行可变形交叉注意力[46]操作,直接融合3D激光雷达和2D相机特征,生成用于下游语义占用预测的多模态 Voxel 特征。为了获得更细致的结果,作者提出了Active M-CONet,采用类似主动学习的原则[17, 11, 9]选择性地分割具有挑战性的 Voxel ,并从困难区域学习,从而显著增强对小目标的占用预测。Active M-CONet中的类似主动学习的训练策略通过优先从更困难的样本学习进一步提高了模型的准确性(见图3)。值得注意的是,所提出的方法在训练和推理阶段都显著提高了效率,减少了所需的计算资源。

通过在具有挑战性的OpenOccupancy基准上进行实验,作者的新颖方法在15个类别上的交并比(IoU)超过了现有最先进(SOTA)的方法,使得平均交并比(mIoU)提高了9%。值得注意的是,在作者的方法中,几个小目标类别的准确性提高了30%以上。此外,与最先进的M-CONet [34]相比,作者的方法展示了更高的计算效率:作者将GFLOPs减少了49%,并在训练阶段将GPU内存消耗降低了30%。作者的贡献可以总结如下:

作者引入了一种新颖的点对点多模态特征融合方法,名为OccFusion,该方法在融合过程中消除了对图像特征深度估计的需求。

作者提出了Active M-CONet方法,该方法显著减轻了推理延迟并减少了训练资源的消耗,同时提高了模型识别小物体的能力。这种主动训练策略增强了模型的鲁棒性。此外,作者的方法可以自然地转移到任何其他占用模型中。

作者采用了一种简单而有效的点云采样和生成技术,以实现更密集且分布更均匀的点云,从而提高了图像特征采样的效率。

作者的实验在具有挑战性的OpenOccupancy基准上展开,结果表明,Active M-CONet在几乎所有的类别(即16个类别中的15个)中超越了现有的最先进(SOTA)方法,在小目标占有率的预测上取得了显著的提升。消融研究验证了作者提出方法的有效性,并展示了作者方法在计算复杂度方面的优势。

2 Related Work

Vision-Based 3D Occupancy Prediction

有效地表示自主车辆周围的3D环境仍然是自动驾驶的核心问题。基于 Voxel 的表现方法将3D空间离散化为 Voxel 网格,为每个 Voxel 计算特征来描绘场景。这种方法比基于鸟瞰图(BEV)的方法[21, 24, 27, 39, 44]实现了更细粒度的特征,与真实世界的驾驶场景更为接近。缺乏直接的几何输入和定位信息[3],使得仅基于相机的3D占用预测具有挑战性。MonoScene[4]首次使用单张图像来预测占用。为了克服单一相机的局限性,TPVFormer[14]采用三视角视图表示周围占用预测,但这导致了占用率的稀疏。最近的研究已经利用深度预测[4, 19, 22, 25, 34, 22]来生成占用特征,但深度预测是出了名的不适定问题,导致估计不稳定。尽管基于相机的方法很有前景,但多模态方法提供了更高的准确性和可靠性,这对于自动驾驶技术的安全和可信部署至关重要。

Multi-modal 3D Occupancy Prediction

激光雷达提供了准确的位置和反射率信息,这是摄像头所缺乏的。然而,激光雷达点云通常比较稀疏,且密度变化很大,激光雷达无法提供诸如颜色或物体边缘等详细的语义信息[24]。尽管融合多个传感器可能会增加成本,但结合了激光雷达和摄像头优势的多模态语义占用预测方法[34],其性能超过了仅基于激光雷达或摄像头的方法。例如,M-CONet[34]将2D图像特征提升到3D,并通过与3D激光雷达特征的适应性融合,在当前基准上取得了最先进的准确性。然而,现有的多模态方法在多通道融合方面仍面临挑战,当前的工作[34]仍然依赖于深度估计来提取图像特征,这并不是一种高效的方法。相比之下,作者新颖的融合方法直接在点对点的基础上将激光雷达特征与图像特征集成,绕开了深度估计问题,并在当前基准上取得了最先进的结果。

Active Learning Methods

主动学习的一个核心原则是信息在训练样本中不是均匀分布的(即,某些样本可能无法为训练过程提供足够的信息),因此,随机抽样进行模型训练可能会潜在地损害模型准确性[23]。主动学习方法通过与人或神谕交互式地请求数据标注,以从更重要的数据中学习更多。作者的研究从这个概念中汲取灵感,但严格来说,本文中使用的方法并不构成主动学习,因为它们不涉及人类专家的新标注。这部分是因为3D占有率标注是一项极其耗时的工作[36, 34],主要还是因为作者的目标是使模型能够自主地学习和预测,并且具体来说,无需额外的人工干预。受到先前主动学习研究[17, 11, 9]的启发,这些研究指出具有更高熵的样本需要额外关注,作者的主动M-CONet专注于细化熵最高的粗糙 Voxel 。此外,在训练阶段,作者优先处理不确定性较大的样本。实验表明,作者的方法在计算性能上具有优势,同时提高了模型的准确性和鲁棒性。

3 Method

Overview

图3展示了作者方法的架构。作者采用VoxelNet [45] 和3D稀疏卷积 [38] 将原始激光雷达点嵌入到 Voxel 化特征中(其中 是步长)。对于相机图像,作者使用ResNet50 [10] 作为 Backbone 网络来提取多视角特征 ,不进行任何与深度相关的操作。在建立 Voxel 网格后,初始状态的点云被认为存在于这些 Voxel 内。由于原始点云的稀疏性,为了有效地采样图像特征,作者采用特定的采样和生成方法(见第3.2节)确保每个 Voxel 包含密集且相对均匀的激光雷达点。这些激光雷达点随后通过相机内参和外参投影到图像上,创建参考点。以激光雷达点作为中介,作者建立了激光雷达特征与相机特征之间的对应关系。通过这种方式,LiDAR points as mediators,作者建立了激光雷达特征与相机特征之间的对应关系。通过……

作者提出的OccFusion模块(见第3.3节),作者直接在点对点的基础上融合3D LiDAR特征(作为 Query )和2D图像特征(作为键)。对于每个LiDAR点,作者获得一个特征,并在每个 Voxel 内平均后,导出每个 Voxel 的 维特征。这些特征可以通过一个简单的分类头直接生成粗糙占用预测。由于直接预测精细占用网格的计算复杂性较高,作者将活性粗糙到精细 Pipeline 应用到作者获得的粗粒度多模态占用特征上,只关注具有最高不确定性的 Voxel 进行细粒度预测(见第3.4节)。在训练阶段,作者尝试让模型从样本中主动学习(见第3.5节),正如实验所示(见第4.3节),这可以进一步提高模型准确性。

3D LiDAR Feature Extraction and LiDAR Point Sampling Algorithm

将原始LiDAR点嵌入到3D Voxel 化特征的方法与[34]中的一致。在这个过程中,3D空间被划分为一个尺寸为 的网格(其中 是步长)。在划分空间之后, Voxel 中的LiDAR点数表示为 。作者定义了两个超参数: )。对于每个 Voxel ,存在三种可能的情况。首先,由于LiDAR点云的稀疏性,许多 Voxel 包含无或少数LiDAR点(即, );对于这些 Voxel ,作者使用简单的等距均匀生成方法生成合成点云,以将点数增加到 。对于含有足够数量LiDAR点的 Voxel (即,$\tau \theta \theta P_{0} S=\{P_{0}\} P S d(P,S):=\min d(P,P_{i}),P_{i}\in S P_{0} S d(P_{j},S)$,找到……(此处原文结束,公式部分保留)。

并将 添加到集合 中,重复此过程直到获得 个点。这种点云采样算法在每个 Voxel 中生成更密集且分布更均匀的点云,有助于有效采样图像特征。

Camera Feature Extraction and OccFusion: Point-to-Point Multi-modal Feature Fusion

作者使用ResNet50 [10] 作为2D编码器来提取多视角图像特征。与之前的多种模态占用方法不同,作者不尝试将图像特征的空间维度提升到3D。相反,作者采用一种新颖的OccFusion模块,在点对点的基础上直接将2D图像特征与3D LiDAR特征融合。具体来说,作者首先使用相机内参和外参将预处理过的点云(见第3.2节)投影到多视角图像上,作为参考点。然后,对于单个LiDAR点,使用该LiDAR点所在 Voxel 的LiDAR Voxel 特征作为 Query ,作者通过多头可变形注意力机制[46]采样并融合相应的图像特征(由于融合主要是点对点的,也可以使用简单的交叉注意力)。需要注意的是,由于特征图尺寸小于原始图像,作者使用双线性插值来获取相应位置处的采样特征。可变形注意力的机制以及上述过程可以形式化如下:

在这个背景下, 代表3D LiDAR Voxel 特征,而 是环视图像的2D特征图。等式(3)左侧的结果对应于给定 Voxel 的最终特征 ,其中 内的LiDAR点,而 表示从LiDAR坐标系投影到图像坐标系的操作。 是投影后与LiDAR点 对应的参考点集合。值得注意的是,由于相机之间存在共享视场,单个LiDAR点在投影后可能会在多个图像中对应多个参考点(见图4)。此外,在预采样之后,一个 Voxel 总是包含 个LiDAR点(见第3.2节),其中 表示 Voxel 中的LiDAR点数量,而 表示对应于单个LiDAR点 的参考点数量。作者使用平均化来处理这些一对多的关系,最终为每个 Voxel 得到一个单一的特征向量 是与 Voxel 对应的LiDAR特征,而 是包含参考点 的图像的特征图。







请到「今天看啥」查看全文