专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
掌上长春  ·  吉林省教育考试院最新公告 ·  11 小时前  
复盘笔记本  ·  【3.10晚间】上市公司公告汇总+三大报精华 ·  2 天前  
爱股君2020  ·  周末突发,吹爆了! ·  3 天前  
龙虎榜中榜备用  ·  市场缩量,难度继续上升 ·  3 天前  
龙虎榜中榜备用  ·  市场缩量,难度继续上升 ·  3 天前  
51好读  ›  专栏  ›  自动驾驶之心

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%(ICLR'25)

自动驾驶之心  · 公众号  ·  · 2025-02-25 07:30

正文


点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线


今天自动驾驶之心为大家分享 港理工ICLR 2025最新的工作— OccProphet 多快好省的端到端纯视觉4D占用预测, 性能提升1.2倍,速度提升至2.6倍,内存占用减少近60% 如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→ 自动驾驶之心 『占用网络』技术交流群

论文作者 | Junliang Chen等

编辑 | 自动驾驶之心


本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『 OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework 』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现 高效的未来4D占用预测 。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!相比此前最先进的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,内存占用减少近60%,仅需24G显存即可完成训练和推理。代码即将开源。

  • 论文链接:https://arxiv.org/abs/2502.15180
  • 代码链接:https://github.com/JLChen-C/OccProphet
图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%
图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%


动机

提升自动驾驶车辆对动态环境的感知与预测能力,是自动驾驶安全性和可靠性的迫切需求。传统的占据感知(Occupancy Perception)方法通过学习空间中的占据状态,能够理解环境的当前和过去状态,而无法预测未来动态。事实上,预测未来场景对于安全驾驶和避免碰撞至关重要。

这篇文章研究基于相机的占用预测(Occupancy Forecasting),能够理解自动驾驶车辆周围环境的动态变化,并对未来进行合理预测。考虑到现有的基于相机的占据预测方法(例如Cam4DOcc)计算成本高,不具备在计算资源受限的边缘设备(例如自动驾驶车辆)的部署能力,这篇文章的主要动机在于开发一种轻量且高效的框架——OccProphet。

它仅仅使用环视图片序列作为输入,能准确预测未来时刻的4D占据(时间维度+空间维度)。在轻量化处理上,OccProphet引入了三大精简模块(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合与三元组注意力融合策略,旨在在显著降低计算需求的同时提升预测的准确性。这一进步, 首次展现了4D占用感知在自动驾驶车辆上部署的可行性


方法详解

如图2所示,OccProphet 是一种新型的仅基于摄像头的占据预测框架,它不管在 训练阶段 还是 推理阶段 都是计算友好的。

图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。
图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。
  • 观察器(Observer)模块 :高效且有效地聚合多帧观测(即多帧3D体素特征)中的时空信息。
  • 预报器(Forecaster)模块 :在 Observer 的输出基础上,自适应地预测未来状态,从而确保在各种交通状况下的灵活性。
  • 细化器(Refiner)模块 :通过促进帧间交互,进一步提升这些预测的质量。
  • 预测器(Predictor) :将经过优化的未来状态解码为占用或占用流。

OccProphet 在创新性方面主要做出了以下贡献:

  • 一种新颖的仅基于摄像头的占用预测框架,在训练和推理过程中都兼具高效性和有效性,适用于车载部署。
  • 一个轻量级的观察器-预报器-细化器框架。观察器(Observer)模块从历史观测中提取时空特征;预报器(Forecaster)模块有条件地预测粗略的未来状态;细化器(Refiner)模块则进一步提升预测准确性。
  • 实验结果表明,OccProphet在预测准确性上更胜一筹,同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。


关键组件


观察器(Observer)

观察器(Observer)模块接收4D运动感知特征 作为输入,并生成时空感知表示。通过多相机RGB图像 在时间戳 上的数据,使用共享的图像编码器(例如ResNet)提取2D特征,这些特征被投影到3D空间中并聚合成体素化的3D特征。随后,来自多个帧的3D特征根据6自由度(6-DoF)自车姿态对齐至当前帧坐标系,形成4D特征 ,然后通过附加6-DoF自车姿态信息生成运动感知4D特征 。考虑到直接处理 的计算负担和3D空间大部分区域未被占用的事实,本文提出使用高效4D聚合模块和三元组注意力融合模块来有效地生成时空感知特征。

Efficient 4D Aggregation(高效4D聚合)

图3:高效4D聚合模块
图3:高效4D聚合模块

直接聚合原始4D运动感知特征 会导致高计算成本。为提高效率,本文设计了名为高效聚合(Efficient 4D Aggregation, E4A)的模块,该模块首先通过下采样生成紧凑特征,然后在这些紧凑特征上利用时空交互实现聚合,最后通过上采样过程补偿信息丢失。E4A模块架构首先通过3D卷积将 的通道数从 减少到 ,形成特征 。为了弥补因下采样导致的信息丢失,尤其是小物体的信息丢失,该方法一方面对下采样后的特征进行时空交互(即三元组注意力融合模块),另一方面对后交互特征进行上采样,并与下采样前相同分辨率的特征相加,直到上采样特征的分辨率匹配初始运动感知特征 的分辨率。

Tripling-Attention Fusion(三元组注意力融合)

图4:三元组注意力融合(左)和三元组分解操作(右)
图4:三元组注意力融合(左)和三元组分解操作(右)

三元组注意力融合模块(TAF)专为促进多个三维特征间的时空交互而设计,通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间,从而以较低的计算成本保留三维场景信息。具体而言,三元组分解操作将三维特征分解为场景、高度和BEV三个分支,分别压缩三维特征至一维或二维特征,减少后续计算开销。场景分支提取全局上下文,提供对场景的整体理解;高度分支保留垂直细节,作为2D BEV分支的补充线索,增强三维几何信息的表现能力。

在数学表达上,给定输入特征 ,通过全局平均池化(GAP)、线性变换(Linear)、一维卷积(Conv )、归一化(Norm)及激活函数(Act)处理,分别得到场景 、高度 、BEV分支 的输出。随后,通过对不同分支应用时间注意力(TA),并利用广播技术将这三个分支的结果相加,最终得到TAF模块的输出特征


预报器 (Forecaster)

图5:预报器的结构
图5:预报器的结构

给定由Observer模块输出的时空表示







请到「今天看啥」查看全文