在自动驾驶感知任务中,传统的
3D
场景理解方法大多数都集中在
3D
目标检测上,难以描述任意形状和无限类别的真实世界物体。
3D
占用网络(
Occupancy Network
)是特斯拉在
2022年
提出的一种新型感知网络,这种感知网络借鉴了机器人领域中的占用网格建图的思想,将感知环境以一种简单的形式进行在线
3D
重建。简单来说,就是将机器人周围的空间划分为一系列网格单元,然后定义哪个单元被占用,哪个单元是空闲的,通过预测
3D
空间中的占用概率来获得一种简单的
3D
空间表示,这样就可以更全面地实现
3D
场景感知。
近期对最近几年自动驾驶领域中的
3D
占用网络算法(主要是基于纯视觉)和数据集做了一些调研,本文将做一个简单的汇总。
1. 论文和算法
综述论文
《A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective》
MonoScene
论文:https://arxiv.org/pdf/2112.00726.pdf
代码:https://github.com/cv-rits/MonoScene
数据集:
NYUv2
(室内),
SemanticKITTI
首个单目
3D
语义占用预测算法,是后续算法的
baseline
。
TPVFormer
论文:https://arxiv.org/pdf/2302.07817.pdf
代码:https://github.com/wzzheng/TPVFormer
数据集:
SemanticKITTI
,
Panoptic nuScenes
该算法以环视图像为输入,训练过程中以激光雷达的语义标签为真值去学习实现
3D
占用预测。作者提出了一种三视角(
tri-perspective view,TPV
)表示法,能够有效地描述
3D
场景的细粒度结构。为了将图像特征转换到
3D TPV
空间,提出了一种基于注意力机制的
TPVFormer
模型。
SurroundOcc
论文:https://arxiv.org/pdf/2303.09551.pdf
代码:https://github.com/weiyithu/SurroundOcc
数据集:
nuScenes
,
SemanticKITTI
该算法从输入的多个相机的
RGB
图像中去实现
3D
语义占用预测,训练时的语义真值是从激光点云的语义信息中产生。
算法流程如下:
根据稀疏的点云语义信息生成稠密的
3D
占用语义真值过程:
在
RTX 3090 GPU
上与其他几个算法的推理时间对比:
OccFormer
论文:https://arxiv.org/pdf/2304.05316.pdf
代码:https://github.com/zhangyp15/OccFormer
数据集:
SemanticKITTI
,
Panoptic nuScenes
该算法提出使用一个双路
transformer
结构用于处理由相机数据生成的
3D
体素特征,它可以有效地捕获具有局部和全局路径的细粒度细节和场景级布局。