-
论文链接:https://arxiv.org/abs/2502.15180
-
代码链接:https://github.com/JLChen-C/OccProphet
图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%
动机
提升自动驾驶车辆对动态环境的感知与预测能力,是自动驾驶安全性和可靠性的迫切需求。传统的占据感知(Occupancy Perception)方法通过学习空间中的占据状态,能够理解环境的当前和过去状态,而无法预测未来动态。事实上,预测未来场景对于安全驾驶和避免碰撞至关重要。
这篇文章研究基于相机的占用预测(Occupancy Forecasting),能够理解自动驾驶车辆周围环境的动态变化,并对未来进行合理预测。考虑到现有的基于相机的占据预测方法(例如Cam4DOcc)计算成本高,不具备在计算资源受限的边缘设备(例如自动驾驶车辆)的部署能力,这篇文章的主要动机在于开发一种轻量且高效的框架——OccProphet。
它仅仅使用环视图片序列作为输入,能准确预测未来时刻的4D占据(时间维度+空间维度)。在轻量化处理上,OccProphet引入了三大精简模块(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合与三元组注意力融合策略,旨在在显著降低计算需求的同时提升预测的准确性。这一进步,
首次展现了4D占用感知在自动驾驶车辆上部署的可行性
。
方法详解
如图2所示,OccProphet 是一种新型的仅基于摄像头的占据预测框架,它不管在
训练阶段
还是
推理阶段
都是计算友好的。
图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。
-
观察器(Observer)模块
:高效且有效地聚合多帧观测(即多帧3D体素特征)中的时空信息。
-
预报器(Forecaster)模块
:在 Observer 的输出基础上,自适应地预测未来状态,从而确保在各种交通状况下的灵活性。
-
细化器(Refiner)模块
:通过促进帧间交互,进一步提升这些预测的质量。
-
预测器(Predictor)
:将经过优化的未来状态解码为占用或占用流。
OccProphet 在创新性方面主要做出了以下贡献:
-
一种新颖的仅基于摄像头的占用预测框架,在训练和推理过程中都兼具高效性和有效性,适用于车载部署。
-
一个轻量级的观察器-预报器-细化器框架。观察器(Observer)模块从历史观测中提取时空特征;预报器(Forecaster)模块有条件地预测粗略的未来状态;细化器(Refiner)模块则进一步提升预测准确性。
-
实验结果表明,OccProphet在预测准确性上更胜一筹,同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。
关键组件
观察器(Observer)
观察器(Observer)模块接收4D运动感知特征
作为输入,并生成时空感知表示。通过多相机RGB图像
在时间戳
上的数据,使用共享的图像编码器(例如ResNet)提取2D特征,这些特征被投影到3D空间中并聚合成体素化的3D特征。随后,来自多个帧的3D特征根据6自由度(6-DoF)自车姿态对齐至当前帧坐标系,形成4D特征
,然后通过附加6-DoF自车姿态信息生成运动感知4D特征
。考虑到直接处理
的计算负担和3D空间大部分区域未被占用的事实,本文提出使用高效4D聚合模块和三元组注意力融合模块来有效地生成时空感知特征。
Efficient 4D Aggregation(高效4D聚合)
图3:高效4D聚合模块
直接聚合原始4D运动感知特征
会导致高计算成本。为提高效率,本文设计了名为高效聚合(Efficient 4D Aggregation, E4A)的模块,该模块首先通过下采样生成紧凑特征,然后在这些紧凑特征上利用时空交互实现聚合,最后通过上采样过程补偿信息丢失。E4A模块架构首先通过3D卷积将
的通道数从
减少到
,形成特征
。为了弥补因下采样导致的信息丢失,尤其是小物体的信息丢失,该方法一方面对下采样后的特征进行时空交互(即三元组注意力融合模块),另一方面对后交互特征进行上采样,并与下采样前相同分辨率的特征相加,直到上采样特征的分辨率匹配初始运动感知特征
的分辨率。
Tripling-Attention Fusion(三元组注意力融合)
图4:三元组注意力融合(左)和三元组分解操作(右)
三元组注意力融合模块(TAF)专为促进多个三维特征间的时空交互而设计,通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间,从而以较低的计算成本保留三维场景信息。具体而言,三元组分解操作将三维特征分解为场景、高度和BEV三个分支,分别压缩三维特征至一维或二维特征,减少后续计算开销。场景分支提取全局上下文,提供对场景的整体理解;高度分支保留垂直细节,作为2D BEV分支的补充线索,增强三维几何信息的表现能力。
在数学表达上,给定输入特征
,通过全局平均池化(GAP)、线性变换(Linear)、一维卷积(Conv
)、归一化(Norm)及激活函数(Act)处理,分别得到场景
、高度
、BEV分支
的输出。随后,通过对不同分支应用时间注意力(TA),并利用广播技术将这三个分支的结果相加,最终得到TAF模块的输出特征
。
预报器 (Forecaster)
图5:预报器的结构
给定由Observer模块输出的时空表示
,预报器 (Forecaster)模块旨在生成未来状态。首先通过将时间轴折叠进通道轴来重塑
,形成重塑后的特征
。直接使用单一线性层预测未来帧特征的方法虽然简单,但难以适应不同交通场景下显著变化的空间时间复杂性,尤其在动态复杂的环境(如拥挤的十字路口)中预测难度更大。
为应对这些挑战,提出了一种灵活适应各种具有不同空间时间复杂性的交通场景的预测方法。该方法包括一个条件生成器(Condition Generator)和一个有条件预报器(Conditional Forecaster)。首先,条件生成器通过3D全局平均池化(GAP)和跨帧共享的线性层从观测值
中提取条件
,然后将其重新排布为
并传递给有条件预报器以预测未来状态。具体来说,对
应用线性层产生针对特定交通场景的自适应权重,并使用另一线性层基于这些权重预测未来状态。最终得到的未来状态特征
被重新排布回包含时间轴的形式
,作为未来环境的初步特征,并进一步通过细化器(Refiner)模块进行细化处理。
细化器(Refiner)
鉴于预报器模块通过线性投影预测
,其不可避免地缺乏帧间交互。为弥补这一缺陷,设计了细化器(Refiner)模块,旨在通过增强未来帧间的交互,并结合历史帧作为补充信息来提升预测结果的准确性。高效4D聚合模块(E4A)作为一个时空交互模块对于任何输入特征
,其功能可表示为