3D 语义占用预测任务旨在预测自车周围细粒度体素的占用和语义信息。此任务提供全面的体积场景表示,可供路径规划器使用,以提高自动驾驶的安全性。虽然早期研究主要集中于使用 LiDAR 或相机数据的单模态方法,但最近的方法使用了多模态传感器(例如LiDAR 和相机)来实现更稳健和准确的预测。
相机-激光雷达融合算法进行 3D 语义占用预测的关键挑战在于构建稳健的3D表示,以有效处理每种模态的不同特征。LiDAR 提供了物体准确的 3D 位置信息,从而实现准确的占用预测,而相机为目标分类提供丰富的语义细节。先前的研究工作专注于通过使用从 LiDAR 数据生成的 3D 体素表示来整合这两种模态。为了将相机特征与 3D 激光雷达特征融合,这些方法从图像预测深度,将它们从 2D 视图转换为 3D 视图以创建基于体素的图像特征,然后将这些特征与体素空间中的 LiDAR 数据对齐。最后,使用基于 3D 卷积的模块进行处理。
考虑到上述提到的相关挑战,我们提出了一种基于相机-激光雷达融合的语义占用预测新方法,称之为MR-Occ。大量实验结果表明,我们提出的MR-Occ算法在nuScenes-Occupancy 数据集上实现了SOTA的表现性能,在使用更少的参数和FLOPs的情况下,IoU和mIoU相比以前的方法都会进一步的提升。此外,MR-Occ算法模型在SemanticKITTI 数据集上同样表现出色,进一步验证了其在不同 3D 语义占用benchmark上的有效性和通用性。
文章链接:https://arxiv.org/abs/2412.20480
网络模型结构&技术细节梳理
在详细介绍本文提出的MR-Occ算法模型之前,下图展示了MR-Occ算法模型的整体网络结构。
通过上图可以看出,MR-Occ算法模型主要包括Pixel to Voxel Fusion Network模块、Hierarchical Voxel Feature Refinement模块以及Multi-scale Occupancy Decoder模块。
Pixel to Voxel Fusion Network模块
在整合激光雷达点云和图像特征之前,我们使用单独的主干网络分别提取两种数据的特征。对于LiDAR点云数据,我们采用 3D 稀疏卷积层来计算多分辨率的体素特征。对于相机数据而言,我们利用ResNet-50主干网络与特征金字塔网络 FPN进行集成来获取多视图的图像特征。
现有的相机-激光雷达多模态融合方法将图像特征转换为3D体素表示,以便与 LiDAR点云特征融合。然而,这种方法可能导致位置的错位,因为从相机计算得的 3D 特征本质上是不准确的。为了解决这个问题,我们引入了Pixel to Voxel Fusion Network模块,它通过稠密的LiDAR点云特征增强了多模态的融合过程。Pixel to Voxel Fusion Network扩展了非空体素周围的感受野,使LiDAR点云特征能够引导 2D 图像特征无缝集成到 3D 体素表示中。
3D 语义占用预测需要在整个 3D 空间中进行密集预测,包括可见和被遮挡的体素。然而,以前的研究经常忽略其占用状态预测框架中的可见性考虑。这种疏忽可能会限制模型完全理解场景的能力,从而可能降低预测准确性。为了克服这一挑战,我们引入了 Occlusion-aware Occupancy Prediction模块。该模块将每个体素网格分类为空、非遮挡或遮挡,从而提高模型的稳健性和整体性能。