南开&卡尔动力 | OPUS: 抛弃笨重OCC！速度提升明显，性能SOTA！

自动驾驶之心 · 公众号 · 科技媒体 · 2024-09-19 07:30

主要观点总结

本文介绍了一篇关于占用预测的论文OPUS，该论文将占用预测表述为一个直接的集合预测问题，提出了一种稀疏框架进行端到端训练。论文通过一系列实验验证了其方法的有效性和效率，在Occ3D-nuScenes数据集上超越了先前的方法。论文还介绍了一些非平凡策略来提升模型性能，包括粗细结合学习、一致的点采样和自适应重加权等。

关键观点总结

关键观点1: 论文思路创新

本文将占用预测表述为一个直接的集合预测问题，通过并行回归占用位置和分类相应的语义标签，促进了稀疏框架的端到端训练。

关键观点2: 主要贡献

本文引入了几种非平凡策略，包括粗细结合学习、一致的点采样和自适应重加权等，提升了OPUS的性能。在Occ3D-nuScenes数据集上的实验表明，OPUS在RayIoU结果上超越了最先进的方法，同时保持实时推理速度。

关键观点3: 实验验证

论文通过大量实验验证了其方法的有效性和效率，在Occ3D-nuScenes数据集上实现了优于其他方法的结果。此外，论文还通过可视化结果展示了其方法的实际效果。

关键观点4: 挑战与未来工作

虽然OPUS在占用预测任务上取得了显著成果，但也带来了新的挑战，如收敛速度问题和mIoU指标上的性能。未来研究方向包括借鉴DETR后续工作的经验来缓解收敛问题，以及探索如何在保持优越的RayIoU结果的同时提高mIoU性能。此外，将多模态占用预测作为未来的研究工作也是一个有前途的方向。

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『占用网络』 技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

原标题：OPUS: Occupancy Prediction Using a Sparse Set

论文链接：https://arxiv.org/pdf/2409.09350

代码链接：https://github.com/jbwang1997/OPUS

作者单位：南开大学 NKIARI 上海交通大学卡尔动力

论文思路：

占用预测旨在预测体素化的三维环境中的占用状态，正在自动驾驶领域迅速获得关注。主流的占用预测方法首先将三维环境离散化为体素，然后在这些密集网格上进行分类。然而，样本数据的检查显示，绝大多数体素是未被占用的。在这些空体素上进行分类需要次优的计算资源分配，而减少这些空体素则需要复杂的算法设计。为此，本文提出了一种针对占用预测任务的新颖视角：将其表述为一种简化的集合预测范式，而无需显式的空间建模或复杂的稀疏化过程。本文提出的框架称为OPUS，利用transformer编码器-解码器架构，通过一组可学习的查询同时预测占用位置和类别。首先，本文采用Chamfer距离损失将集合到集合的比较问题扩展到前所未有的规模，使得端到端训练此类模型成为现实。随后，基于学习到的位置，语义类别通过最近邻搜索自适应地分配。此外，OPUS结合了一系列非平凡策略来提升模型性能，包括粗细结合学习、一致的点采样、自适应重加权等。最终，与当前最先进的方法相比，本文最轻量的模型在Occ3D-nuScenes数据集上以接近2倍的FPS实现了更优的RayIoU，而本文最重的模型则在RayIoU上超越了之前的最佳结果6.1个百分点。

主要贡献：

据本文所知，这是首次将占用预测视为直接的集合预测问题，从而促进了稀疏框架的端到端训练。
本文进一步引入了几种非平凡策略，包括粗细结合学习、一致的点采样和自适应重加权，以提升OPUS的性能。
在Occ3D-nuScenes数据集上进行的大量实验表明，OPUS在RayIoU结果上可以超越最先进的方法，同时保持实时推理速度。

论文设计：

与成熟的框表示方法[7, 22, 19, 35, 28, 44]相比，基于体素的占用预测[15, 33, 9, 34]能够为周围场景提供更细致的几何和语义信息。例如，使用边界框来描述车门打开的车辆或支腿展开的起重机并不直观，而占用预测可以自然地描述这些不常见的形状。因此，占用预测在自动驾驶领域迅速获得了关注。

近期的研究方法[3, 42, 8, 26, 15]主要依赖于密集数据表示，特征点与物理体素之间存在直接的一对一对应关系。然而，本文注意到，绝大多数物理体素是空的。例如，在SemanticKITTI [1]中，约67%的体素是空的，而在Occ3D-nuScenes [34]中，这一比例超过了90%。这种占用数据的稀疏特性使得直接的密集表示无疑是低效的，因为大部分计算资源都分配到了空体素上。为缓解这种低效性，已经探索了替代的稀疏潜在表示方法，例如三视图表示[33, 8]或减少解空间[20, 9]，从而显著减少了计算成本。然而，这些方法仍然将占用预测视为特定位置的分类问题，需要复杂的中间设计和显式的三维空间建模。

在本研究中，本文将任务表述为一个直接的集合预测问题，通过并行回归占用位置和分类相应的语义标签。本文提出的框架称为OPUS，利用transformer编码器-解码器架构，特点如下：(1) 一个图像编码器从多视图图像中提取二维特征；(2) 一组可学习的查询，用于预测占用位置和语义类别；(3) 一个稀疏解码器，用相关的图像特征更新查询特征。本文的OPUS消除了对显式空间建模或复杂稀疏化过程的需求，提供了一种简化且优雅的端到端解决方案。然而，一个关键挑战在于将预测结果与真实值匹配，特别是考虑到预测结果的无序性质。本文认为，尽管Hungarian算法 [11] 在DETR系列 [4, 43, 27, 21, 12, 38] 中被广泛采用，但并不适用于这个任务。Hungarian算法的时间复杂度为O(n³)，空间复杂度为O(n²)，无法处理大量的体素。在本文的实验中，将两个各含10K点的集合进行关联时，Hungarian算法在一块80G A100 GPU上消耗了大约24秒和2,304MB的GPU内存。而在实际情况中，体素数量在Occ3D-nuScenes [34] 数据集中可以达到约70K。因此，直接应用Hungarian算法进行集合到集合的匹配在占用预测任务中是不可行的。

但是，占用预测任务是否真的需要精确的一对一匹配呢？本文认识到，预测结果与真实标注之间的一对一对应的目的是获得监督信号，具体来说是完整、精确的点位置和准确的点类别。如果本文能够从其他地方获得这些监督信号，那么就可以完全避免一对一匹配的繁重工作。因此，本文提出将占用预测任务解耦为两个并行的子任务，如图1所示。第一个任务通过将预测点分布与真实值对齐来获得点位置的监督，这可以通过Chamfer距离损失来实现，Chamfer距离损失是一种在点云处理中已经成熟的技术[5, 29]。第二个任务通过为预测点分配语义标签来获得点类别的监督。这是通过将每个点分配其在真实值中的最近邻的类别来完成的。值得注意的是，所有涉及的操作都可以并行执行，并且在GPU设备上非常高效。因此，在Occ3D-nuScenes数据集中，单次匹配可以在毫秒内处理完毕，且内存消耗可以忽略不计。本文的方案具有O(n²)的时间复杂度和O(n)的空间复杂度，为大规模训练占用预测模型开辟了新天地。

此外，本文提出了几种策略来进一步提升本文端到端稀疏框架中占用预测的性能，包括粗细结合学习、一致的点采样和自适应损失重加权。在Occ3D-nuScenes数据集上，本文的所有模型变体都轻松超越了所有先前的工作，验证了所提方法的有效性和效率。特别地，本文最轻量的模型在RayIoU上相比SparseOcc [20] 提升了3.3个百分点，同时运行速度超过了2倍。最重配置的模型最终实现了41.2的RayIoU，建立了新的上限，具有14%的优势。

图1：将占用预测视为一个集合预测问题。对于每个场景，本文预测一组点位置和相应的语义类别。在拥有真实占用体素位置集合和类别集合的情况下，本文将集合到集合的匹配任务解耦为两个独立的部分：(a) 使用Chamfer距离强制和的点分布相似。(b) 将预测的类别与真实类别