专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
科幻世界SFW  ·  新刊速递 | ... ·  2 天前  
科幻世界SFW  ·  悼念向际纯:中国科幻绘画的开拓者 ·  3 天前  
GiantPandaCV  ·  浅析主流 Alignment 算法与 ... ·  3 天前  
51好读  ›  专栏  ›  自动驾驶之心

占用预测任务最新SOTA!MR-OCC:LV融合Occ预测框架

自动驾驶之心  · 公众号  ·  · 2025-01-24 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶Daily ”公众号

戳我-> 领取近15个自动驾驶方向路线

今天自动驾驶Daily今天为大家分享一篇Occupancy最新的SOTA工作MR-OCC。如果您有相关工作需要分享,请在文末联系我们!


自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询


>> 点击进入→ 自动驾驶Daily技术交流群

微信扫描以下二维码, 『自动驾驶之心知识星球』 国内最专业的技术和求职交流社区, 和3500人一起卷赢

写在前面&笔者的个人理解

3D 语义占用预测任务旨在预测自车周围细粒度体素的占用和语义信息。此任务提供全面的体积场景表示,可供路径规划器使用,以提高自动驾驶的安全性。虽然早期研究主要集中于使用 LiDAR 或相机数据的单模态方法,但最近的方法使用了多模态传感器(例如LiDAR 和相机)来实现更稳健和准确的预测。

相机-激光雷达融合算法进行 3D 语义占用预测的关键挑战在于构建稳健的3D表示,以有效处理每种模态的不同特征。LiDAR 提供了物体准确的 3D 位置信息,从而实现准确的占用预测,而相机为目标分类提供丰富的语义细节。先前的研究工作专注于通过使用从 LiDAR 数据生成的 3D 体素表示来整合这两种模态。为了将相机特征与 3D 激光雷达特征融合,这些方法从图像预测深度,将它们从 2D 视图转换为 3D 视图以创建基于体素的图像特征,然后将这些特征与体素空间中的 LiDAR 数据对齐。最后,使用基于 3D 卷积的模块进行处理。

虽然现有的方法已经取得了巨大成果,但也面临着两个主要挑战。

  • 挑战一 :计算资源均匀地分配在所有体素表示中,这会造成计算低效的问题。在室外场景当中,只有一小部分体素是非空的,大约为 2.47%。因此,在计算过程中考虑数据在3D体素中的分布对于实现更有效的占用状态预测至关重要。
  • 挑战二 :现有方法低估了现实场景中遮挡带来的挑战,导致对传感器视野遮挡区域的预测明显不准确。这些方法往往忽略隐藏区域或假设所有体素的可见性相等。因此,区分可见区域和不可见区域对于在复杂环境中实现稳健且准确的模型预测至关重要。

考虑到上述提到的相关挑战,我们提出了一种基于相机-激光雷达融合的语义占用预测新方法,称之为MR-Occ。大量实验结果表明,我们提出的MR-Occ算法在nuScenes-Occupancy 数据集上实现了SOTA的表现性能,在使用更少的参数和FLOPs的情况下,IoU和mIoU相比以前的方法都会进一步的提升。此外,MR-Occ算法模型在SemanticKITTI 数据集上同样表现出色,进一步验证了其在不同 3D 语义占用benchmark上的有效性和通用性。

文章链接:https://arxiv.org/abs/2412.20480

网络模型结构&技术细节梳理

在详细介绍本文提出的MR-Occ算法模型之前,下图展示了MR-Occ算法模型的整体网络结构。

通过上图可以看出,MR-Occ算法模型主要包括Pixel to Voxel Fusion Network模块、Hierarchical Voxel Feature Refinement模块以及Multi-scale Occupancy Decoder模块。

Pixel to Voxel Fusion Network模块

在整合激光雷达点云和图像特征之前,我们使用单独的主干网络分别提取两种数据的特征。对于LiDAR点云数据,我们采用 3D 稀疏卷积层来计算多分辨率的体素特征。对于相机数据而言,我们利用ResNet-50主干网络与特征金字塔网络 FPN进行集成来获取多视图的图像特征。

现有的相机-激光雷达多模态融合方法将图像特征转换为3D体素表示,以便与 LiDAR点云特征融合。然而,这种方法可能导致位置的错位,因为从相机计算得的 3D 特征本质上是不准确的。为了解决这个问题,我们引入了Pixel to Voxel Fusion Network模块,它通过稠密的LiDAR点云特征增强了多模态的融合过程。Pixel to Voxel Fusion Network扩展了非空体素周围的感受野,使LiDAR点云特征能够引导 2D 图像特征无缝集成到 3D 体素表示中。

首先,我们先采用3D稀疏卷积对激光雷达点云特征进行下采样。然后我们将得到的多尺度点云数据特征进行拼接,其形式如下公式所示。

最终,稠密特征图 通过对每个体素位置上重叠的非空特征进行平均计算得到,其计算形式如下所示。

接下来,我们使用deformable cross-attention操作将 与图像特征进行融合。在此过程中,3D体素query被投影到图像平面上,其中附近的像素特征作为key和value。为了指导2D图像特征在3D体素空间内的对齐,我们通过添加稠密的LiDAR特征来更新随机query ,其形式可以用如下的公式进行表示。

综上,整个Pixel-to-Voxel的融合过程可以通过下面的表示来完成。

Hierarchical Voxel Feature Refinement

现有方法通常依赖于比真实体素分辨率更粗糙的下采样融合特征,这会阻碍对小目标和精细边界细节的准确预测。虽然使用更精细的特征可以缓解这些问题,但代价是计算复杂度会显著增加。为了解决这个问题,我们引入了一个Hierarchical Voxel Feature Refinement模块,它可以自适应地细化特征图中的关键体素。

我们首先将Resolution Importance Estimator应用于融合特征图,以确定每个体素所需的细节级别。此过程产生体素重要性图 ,该过程可以由下述的公式描述

对于半精细分辨率集合 中的体素,每个体素均匀细分为八个较小的子体素。从更精细分辨率的 LiDAR 特征图中提取相应的 LiDAR 特征,并获取这些子体素的图像特征如下

这两类特征通过按照通道的维度拼接起来,并通过 的卷积层为半精细分辨率集合生成精细特征 ,其表示方式如下所示。

对于精细分辨率集合 ,我们应用了更详细的细化过程。每个体素均匀细分为 64 个更精细的子体素,并从最精细分辨率特征图中提取相应的 LiDAR 特征,获得的图像特征如下

然后,我们通过下式计算精修的特征

最后,我们将多尺度特征融合应用于分层体素特征,以获得核心体素的选择性细化特征。该融合过程如下

Multi-scale Occupancy Decoder

3D 语义占用预测需要在整个 3D 空间中进行密集预测,包括可见和被遮挡的体素。然而,以前的研究经常忽略其占用状态预测框架中的可见性考虑。这种疏忽可能会限制模型完全理解场景的能力,从而可能降低预测准确性。为了克服这一挑战,我们引入了 Occlusion-aware Occupancy Prediction模块。该模块将每个体素网格分类为空、非遮挡或遮挡,从而提高模型的稳健性和整体性能。

我们通过将语义类别与三个附加标签集成来扩展传统的体素真值标签:“非遮挡”、“遮挡”和“空”。为了分配这些标签,我们采用光线投射过程,同时使用 LiDAR 和相机数据。包含 LiDAR 点或对应于投影图像像素的体素被标记为“非遮挡”体素,后续已经分配了类别标签的体素被标记为“遮挡”。其余体素被标记为“空”。最终标签是通过结合两种模态的结果来确定的:如果任一模态将体素识别为非遮挡,则将其标记为“非遮挡”,如果两种模态一致,则标记为“遮挡”,如果任一模态将其归类为空,则标记为“空”。

Hierarchical Voxel Feature Refinement模块生成的增强融合特征首先通过Conv3D块进行处理。然后,这些处理后的特征被输入到Occlusion-Aware Occupancy Prediction模块中。最后,3D Occupancy Decoder模块预测最终的栅格占用结果。

实验结果&评价指标

整体指标和效果展示

下表展示了在nuScenes-Occupancy 验证集上进行的性能比较实验结果。通过相关的实验结果可以看出,所提出的MR-Occ算法模型在仅相机、仅 LiDAR 和多模态配置中均实现了SOTA的结果。将 HVFR 和 MOD 应用于 C-CONet 模型的 C-MR-Occ 模型与仅相机配置中的C-OccGen相比,实现了1.7% 更高的 IoU值和 1.8% 更高的 mIoU值。这表明所提出的方法可以仅使用相机数据有效地产生可靠的占用预测结果,进一步凸显了我们提出的算法模型的有效性和鲁棒性。

除此之外,在仅使用LiDAR点云数据的场景中,未使用PVF-Net 中的deformable cross-attention模块,L-MR-Occ 变体在 IoU指标上比L-OccGen模型高 3.9%,在 mIoU指标上比 L-OccGen模型高 7.3%,凸显了所提出的体素级融合策略的鲁棒性。

在多模态设置中,MR-Occ模型在 IoU 上比基线 M-CONet模型高 6.0%,在 mIoU 指标上比基线高 7.2%。与最先进的OccGen模型相比,MR-Occ模型的IoU指标提高了 5.2%,mIoU指标提高了 5.3%。这些结果强调了该模型有效整合互补传感器输入和增强空间推理的能力。值得注意的是,尽管现有的多模态方法通常会由于传感器错位而导致 IoU指标降低1%以上,但我们提出的MR-Occ算法模型将这种降低限制在0.2%以内,这表明提出的算法模型有效缓解了模态对齐引发的挑战。

我们也在SemanticKITTI测试集上进行了相关的实验,相关的实验结果如下表所示。与基线模型M-CONet 相比,MR-Occ算法模型的 IoU 提高了 0.8%,mIoU 提高了 2.7%。与 Co-Occ模型相比,MR-Occ 的 IoU 高出 0.9%,mIoU 高出 3.2%。我们提出的模型在各种数据集上始终表现出色。

此外,为了更加直观的展示我们提出的MR-Occ算法模型的有效性,下图展示了在nuScenes-Occupancy 数据集上,我们提出的MR-Occ 与基线模型M-CONet 之间的 3D 语义占用预测可视化的对比结果。

提出的MR-Occ模型在捕捉细粒度细节和准确预测各种城市场景中的遮挡区域方面表现出色。在第一个场景中,MR-Occ 准确地描绘了卡车和植被,保持了人行道的连续性。第二个场景展示了我们的模型在近距离分割多辆汽车时的精确度,保持了它们之间的清晰边界。在第三个场景中,MR-Occ 擅长预测公交车站等复杂结构,准确捕捉M-CONet 经常漏掉的玻璃板和行人。这些结果凸显了MR-Occ在生成更准确、更详细的 3D 语义占用预测方面的有效性,特别是在具有多个目标类别和遮挡的具有挑战性的城市环境中。

此外,我们也在 SemanticKITTI 验证集上对 MR-Occ 和 M-CONet 基线的 3D 语义占用预测进行了视觉比较,如下图所示。

可视化的结果清楚地突出了 MR-Occ 的卓越性能,特别是在复杂的城市环境中。MR-Occ 有效地划定了人行道和相邻区域之间的边界,提供了精确的预测。它还擅长预测远处和部分遮挡的汽车的位置和形状,即使在 M-CONet 遇到困难的情况下也能提供可靠的结果。此外,MR-Occ 可以在各种物体混杂的复杂环境中准确识别物体类别。这些结果表明,MR-Occ 有效地利用了多模态数据,确保在各种城市环境中具有稳健的性能。

消融实验结果展示

下表的实验结果展示了我们提出的 MR-Occ 中每个组件对 nuScenes-Occupancy 验证集的贡献。

Pixel to Voxel Fusion Network(PVF-Net)采用由稠密LiDAR 特征指导的deformable cross-attention,将 2D 相机特征与 3D 体素特征融合,从而显著提升了性能。将 PVF-Net 模块应用于基线 M-CONet 时,我们观察到性能显著提升,IoU 增加了 4.9%,mIoU 增加了 5.8%。Hierarchical Voxel Feature Refinement(HVFR)模块专注于核心体素并融合了细粒度多模态特征,在添加到 M-CONet 时可带来显著提升,使 IoU 提高 2.9%,mIoU 提高 6.3%。此外,在 PVF-Net 之上添加 HVFR 可进一步使 IoU 提高 0.1%,mIoU 提高 1.2%。最后,将Occlusion-aware Occupancy Prediction (OOP) 模块集成为一项辅助任务来预测遮挡区域,可使 IoU 额外提高 1.0%,mIoU 提高 0.2%。OOP模块专注于预测遮挡体素的占用率,这显著提高了 IoU 性能。

结论

在本文中,我们提出了MR-Occ算法模型,该模型是一种用于3D 语义占用预测的新型高效相机-激光雷达融合算法框架。我们提出的MR-Occ算法在nuScenes-Occupancy 数据集上实现了SOTA的表现性能,并在 SemanticKITTI 数据集上展示了极具竞争力的结果。这是通过更少的参数和更低的计算复杂度实现的,使MR-Occ成为一种更加高效的解决方案。


投稿作者为 自动驾驶之心知识星球 特邀嘉宾,欢迎加入交流!

① 全网独家视频课程







请到「今天看啥」查看全文