专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
大数据与机器学习文摘  ·  突发!o3-mini ... ·  2 天前  
大数据分析和人工智能  ·  20个很强的DeepSeek提问公式 ·  3 天前  
闹闹每日星运  ·  星历0207:巨蟹谨慎而低调 摩羯剔除不良习惯 ·  3 天前  
软件定义世界(SDX)  ·  与孙正义对话,Sam ... ·  5 天前  
数据派THU  ·  【ICLR2025】AdaWM:基于自适应世 ... ·  5 天前  
51好读  ›  专栏  ›  计算机视觉工坊

万字长文!自动驾驶中的联合感知和预测:全面综述!

计算机视觉工坊  · 公众号  ·  · 2024-12-20 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Joint Perception and Prediction for Autonomous Driving: A Survey

作者:Lucas Dal'Col, Miguel Oliveira, Vítor Santos

机构:University of Aveiro

原文链接:https://arxiv.org/abs/2412.14088

1. 导读

感知和预测模块是自动驾驶系统的关键组件,使车辆能够安全地通过复杂的环境。感知模块负责感知环境,包括静态和动态的物体,而预测模块负责预测这些物体的未来行为。这些模块通常分为三个任务:对象检测、对象跟踪和运动预测。传统上,这些任务是独立开发和优化的,输出从一个顺序传递到下一个。然而,这种方法有很大的局限性:计算资源不能跨任务共享,缺乏联合优化会放大错误,因为它们会在整个管道中传播,并且不确定性很少在模块之间传播,从而导致大量信息丢失。为了应对这些挑战,联合感知和预测范式应运而生,它通过多任务学习将感知和预测集成到一个统一的模型中。这种策略不仅克服了以前方法的局限性,而且使三个任务能够直接访问原始传感器数据,允许更丰富和更细致的环境解释。本文首次全面综述了自动驾驶的联合感知和预测。我们提出了一个分类法,根据输入表示、场景上下文建模和输出表示对方法进行分类,突出了它们的贡献和局限性。此外,我们提出了现有方法的定性分析和定量比较。最后,我们讨论了未来的研究方向的基础上确定的差距。

2. 引言

自动驾驶(AD)是一项激动人心的技术,它有望彻底改变交通运输领域,为人们提供一种安全、舒适且高效的驾驶体验。自动驾驶系统本身极为复杂,集成了传感器、处理单元和高级算法等多种组件。这些系统必须应对多种挑战,包括传感器误差、硬件可靠性、实时决策制定、恶劣天气条件以及动态交通场景。自动驾驶系统的首要目标是处理感官输入并生成车辆控制指令,如转向角度以及油门或刹车输入。

自动驾驶系统通常采用两种主要方法之一来开发:模块化方法或端到端方法。模块化方法将整体自动驾驶系统分解为一系列顺序的、更易解决的子问题,而端到端方法则将驾驶任务表述为一个单一的学习过程,直接将传感器数据转换为控制指令。在模块化方法中,核心组件包括感知、预测、规划和控制。其中,感知和预测模块发挥着关键作用,因为准确感知环境和预测动态主体的未来行为对于安全通过交通环境至关重要。因此,这些模块必须具备高精度、鲁棒性和实时运行能力。准确的感知和预测可以极大地减轻下游模块(如运动规划和控制)的任务负担,同时最大限度地减少因误差传播导致的灾难性故障风险。

感知和预测模块通常涉及三个关键任务:目标检测、目标跟踪和运动预测。目标检测用于识别环境中的感兴趣目标,如车辆、行人、自行车和静态障碍物。准确检测对于理解周围环境至关重要,并为后续任务奠定基础。在检测的基础上,目标跟踪随时间监测这些目标以建立其轨迹。它确保了时间一致性,使系统能够区分静止和运动目标。最后,运动预测旨在预测跟踪目标的未来运动,以预测潜在的碰撞或冲突。

传统上,这些任务是独立设计和优化的,并按顺序执行,一个任务的输出作为下一个任务的输入。虽然这简化了单个任务的设计和实现,但也存在明显不足。首先,计算资源不能跨任务共享,导致效率低下和资源需求更高。例如,独立学习检测和跟踪可能会导致场景特征的冗余处理,从而错过优化计算效率的机会。其次,缺乏联合优化意味着一个模块中的错误可能会传播到下游。例如,目标检测中的误报可能会导致不必要的跟踪和运动预测。第三,不确定性很少在模块间传播,导致信息丢失。

最近,联合感知和预测方法通过将感知和预测任务整合到一个统一的基于学习的框架中来应对这些挑战。这些方法利用多任务学习,使单个模型能够同时处理感知和预测问题。这种整合带来了多重优势,包括跨任务的共享计算,从而显著提高了效率。这对于实时自动驾驶系统至关重要,因为高延迟可能是致命的。此外,运动预测和目标跟踪任务可以直接访问原始传感器数据,而不是依赖目标检测过程的输出,从而能够更细致地解释环境。这种共享知识还通过随时间积累上下文信息来加强目标检测任务本身。通过这种方式,联合感知和预测方法在处理遮挡和远处目标时减少了假阴性检测,并通过随时间积累证据来减少假阳性检测。

鉴于这一新兴领域日益重要,本文首次对自动驾驶中的联合感知和预测进行了全面综述。本文的贡献如下:

• 对自动驾驶中的联合感知和预测的最新技术进行了综述;

• 提出了一种分类法来划分联合感知和预测方法;

• 对现有方法进行了定性分析和定量比较;

• 指出了研究空白和潜在的未来研究方向,以推动该领域的技术进步。

3. 联合感知和预测

联合感知与预测方法旨在同时检测、跟踪并预测场景中多个主体的运动。这种综合方法通过利用感知与预测任务之间的协同效应,使我们对环境有了更深入的理解。这些方法利用多样化的输入与输出表示、各种传感器模态以及不同的场景上下文建模方式,以优化整体性能。图1概括了分类及其各个层级。

在本节中,基于对最新技术的深入分析,我们将联合感知与预测方法分为三个关键领域:输入表示、场景上下文和输出表示。输入表示类别进一步细分为鸟瞰图、多视图图像、范围视图、3D体素网格和多表示。场景上下文被分解为地图建模、交互建模和轨迹建模。最后,输出表示被分为边界框、像素级和占用图,突出了表示预测结果的不同策略。重要的是要注意,这些分类层级并非互斥;因此,方法可以同时跨越多个层级。这种分类突出了近期研究中为实现自动驾驶中的联合感知与预测所采用的策略和方法范围。 推荐课程: 为何BEV和Occupancy撑起了自动驾驶的半边天?

输入表示

输入表示的选择对于联合感知与预测方法至关重要,因为它决定了如何从环境中捕获、处理和利用信息。这些信息是从各种传感器(如摄像机和激光雷达)收集的,并且可以转换为不同的表示形式以提高性能、降低计算复杂度并增强模型的其他方面。本节描述并比较了近期研究中常见的输入表示,包括鸟瞰图、多视图图像、范围视图、3D体素网格和多表示。图2展示了这些表示。我们讨论了这些表示是如何构建的,以及不同的方法如何提出编码和处理这些数据。此外,我们还讨论了如何融合这些表示以提高对复杂驾驶场景的理解,从而构建出更稳健的联合感知与预测模型。

1)鸟瞰图 :鸟瞰图(BEV)表示是一种体素化类型,通过将通常由激光雷达传感器捕获的3D点云数据转换为基于2D网格的地图,从而得到环境的俯视图。BEV提供了关于物体形状的强烈先验信息,并促进了跨多帧数据的融合,使其成为联合感知与预测方法的理想选择。因此,BEV是这些方法中最常用的输入表示。

FaF是一项开创性工作,引入了联合感知与预测的概念。FaF使用BEV网格,将3D环境表示为4D张量(x, y, 高度, 时间)。提出了两种融合策略:早期融合,即在提取2D卷积特征之前使用1D卷积在输入层面聚合时间信息;以及晚期融合,其使用2D和3D卷积逐步结合时间数据。FaF为在单个端到端神经网络内实现联合感知与预测奠定了基础,允许不确定性的传播并改进整体推理。IntentNet通过将高度和时间维度堆叠到通道维度,并使用2D卷积优化计算效率,进一步推动了这种方法。后续工作遵循了IntentNet,并以类似方式编码BEV表示。随后的一些方法专注于增强空间和时间特征的提取。其他作者应用了旋转感兴趣区域对齐(RRoI align)来提取每个主体的特征。MotionNet探索了何时以及如何聚合时间特征,以更好地捕获局部和全局上下文。为此,他们提出了一个仅依赖于2D和伪1D卷积的时空金字塔网络(STPN)。MotionNet设定了一个高效的基线,后来被用于特征提取。LidNet[43]在MotionNet的基础上进行了增强,如使用残差卷积块,并用平均池化替换步幅卷积进行空间降维。SDP-Net引入了一个BEV流图,该图动态估计运动并在帧之间对齐特征,从而实现更有效的运动估计和特征聚合。SDAPNet[45]使用多到单融合(MoSF)机制融合了来自二维卷积神经网络(CNN)的多尺度特征图。ImplicitO使用了一个2D CNN特征提取器,并结合特征金字塔网络(FPN)来处理多分辨率特征平面。

与传统占用BEV网格不同,FS-GRU、ContrastMotion和STINet使用了PointPillars来在点云的垂直支柱内编码特征,形成由2D CNN进一步处理的2D BEV伪图像。为了捕获时间动态,FS-GRU使用了卷积门控循环单元(ConvGRU)来在帧之间共享特征提取,ContrastMotion提出了门控多帧融合(GMF)来融合相邻帧的互补特征,而STINet开发了一个时间区域提议网络(T-RPN)来利用当前和过去的边界框生成未来对象提议。与此同时,FutureDet和DeTra采用了VoxelNet而不是PointPillars来从点云扫描中提取体素特征,这些特征也通过2D CNN进一步处理。此外,DeTra还集成了多尺度可变形注意力来融合多级特征图。为了建模远程空间和时间交互,STAN引入了一个具有专用时间和空间注意模块的时空变换器网络,这与早期主要使用CNN或RNN的方法不同。

基于鸟瞰图(BEV)的联合感知与预测方法的演进带来了显著进步,但仍存在局限性。BEV表征中固有的体素化过程可能导致原始3D点云中精细细节的丢失,从而降低感知和预测任务的准确性。此外,随着BEV网格分辨率的提高,计算成本也会大幅增加,对实时应用构成挑战。

2)多视图图像: 多视图图像由围绕车辆布置的多个摄像头捕获,提供车辆周围全面的360度覆盖。处理这些摄像头捕捉的连续帧,能够对复杂驾驶场景中多个主体的行为进行联合感知和预测。使用这种输入表征的方法发展迅速,大多数研究将摄像头特征提升为BEV表征。值得注意的是,从多视图图像形成BEV是网络学习过程的一部分,而非输入本身, BEV是神经网络的主要输入。这些基于摄像头的方法已显示出与基于激光雷达(LiDAR)的方法相媲美的潜力,具有成本更低、分辨率更高等优势。

FIERY是首个实现从多视图图像进行联合感知和预测的方法。它使用卷积编码器从每个摄像头中提取特征,并预测离散深度概率。这些深度估计值结合摄像头的内参和外参,使模型能够将2D图像提升至3D空间。然后,沿着垂直轴对3D特征进行池化,为每个时间帧创建BEV特征图。为了随时间对齐这些特征,FIERY采用了自我运动数据和空间变换器,随后使用3D卷积网络捕捉时空动态。在FIERY奠定的基础上,后续工作专注于增强BEV转换过程并提高建模效率。BEVerse引入了SwinTransformer主干网络,以更有效地从2D图像中提取特征,而PowerBEV则使用2D卷积,合并时间和特征维度,以提高计算效率。ST-P3提出了一种以自我为中心的对齐累积策略,确保帧间更好的空间对齐。StretchBEV使用带有随机残差更新的循环神经网络(RNN)纳入时间动态,能够实现多样化的长期预测。更近期的方法,如PIP和UniAD,通过查询与环境之间的交互,同时学习静态地图特征和动态主体运动特征。TBP-Former通过跨视图注意力机制,在一步内转换图像特征并同步多个时间帧,统一了BEV构建。此外,它引入了金字塔变换器,以更好地捕捉时空特征,性能优于传统的RNN或3D卷积。

从明确的BEV网格转向,ViP3D[63]使用以主体为中心的3D查询来聚合空间特征,并随时间动态跟踪主体,隐式地实现自上而下的空间上下文。VAD认为,使用完全矢量化的表征而非密集的BEV网格可以实现自动驾驶,从而实现高计算效率。通过矢量化的地图和运动表征,VAD证明了主体和地图查询可以有效地学习和表示场景。

综上所述,多视图图像方法的演进主要聚焦于增强多视图图像到俯视图表征的转换、时间建模和计算效率。替代方法,如VAD中的矢量化表征和ViP3D中的隐式自上而下空间上下文,为未来研究提供了有前景的方向。然而,仅依赖多视图图像的方法面临显著局限性。多个摄像头从单目图像估计深度可能不准确,因为摄像头不直接捕获深度信息。该过程高度依赖于准确的摄像头校准,以确保在3D空间中的正确对齐。由于运动模糊、帧率不匹配或快速变化的场景,连续帧的对齐可能具有挑战性。最后,在雾、雨或低光等能见度差的情况下,基于摄像头的方法会受到影响,因为视觉输入的质量显著降低。

3)范围视图(RV) :范围视图(RV)表征是LiDAR数据的原生格式,其中LiDAR扫描的3D点测量被投影到2D全景范围图像上。每次扫描都会捕获来自360°旋转的完整测量值,从而获得环境的密集表征。在RV图像中,每个像素对应于一个LiDAR点,其位置由传感器的方位角和仰角确定。当多个点投影到同一像素时,保留范围最小的点。与将3D点云渲染为2D网格的BEV表征相比,RV保留了传感器数据的原始最大范围和分辨率。这能够捕获精细细节,例如识别场景中哪些部分对传感器可见,哪些部分被遮挡。此外,RV保留了数据的原生结构,而不会因体素化而丢失信息,与BEV方法相比,在检测和识别更小和更远的物体方面更有效。

已有多种方法利用RV表征进行联合感知和预测,提出了融合连续时间帧中的多个扫描并提取有意义特征的创新方法。LaserFlow是首个仅使用RV表征的方法,引入了一种多扫描融合架构,以解决因视角变化导致的信息丢失问题。它通过2D卷积从每个扫描的原始视图中独立提取特征,然后通过自我运动补偿将这些特征变换到共同视角。在此概念基础上,RV-FuseNet提出了一种增量融合方法,按顺序融合扫描以最小化信息丢失,特别是在存在显著自我运动或物体运动的场景中。与此同时,SPFNet使用RV预测未来的点云扫描,从而避免了对象级别标签的需求。他们采用共享的2D卷积神经网络(CNN)编码器从每个RV图像中提取特征,随后使用长短期记忆(LSTM)网络捕捉时间动态,将其视为序列到序列问题。

综上所述,RV表征为利用LiDAR数据提供了一种详细且高效的方式,支持端到端的联合感知和预测方法。其保持传感器数据原生结构的能力使其成为BEV的强大替代方案。然而,RV仍面临重大挑战,特别是在因视角变化而对齐多个扫描的特征时。融合此表征的连续时间帧会因球面投影中心的变化而产生失真[23]、[67]。这些挑战限制了与BEV相比对RV的探索,尽管它具有优势。

4)3D体素网格: 3D体素网格是环境的体积表征,通常从LiDAR点云数据导出,其中空间被划分为均匀的小立方体网格单元,称为体素。每个体素存储空间是否被占据的信息。与RV和BEV表征相比,3D体素网格提供了对3D场景的更全面理解。虽然RV因球面投影而产生失真,BEV将3D场景体素化为俯视图2D平面而丢失了重要的垂直信息,但3D体素网格更好地保留了3D几何形状。

Khurana等人使用连续的LiDAR点云扫描来创建具有空间和时间维度的体素网格。通过将垂直和时间维度合并为一个通道,他们能够对数据应用2D卷积,同时仍然捕捉4D时空占用情况。Occ4cast引入了占用完成和预测(OCF)任务,将场景完成和预测结合到一个框架内。为了证明其方法的可行性,他们探索了不同的基线架构,如3D卷积和卷积长短期记忆(ConvLSTM),用于建模时空相关性。

尽管具有潜力,但3D体素网格表征在联合感知和预测中并未得到广泛应用,仅有少数方法进行了探索。主要挑战在于处理具有时间维度的大型体素网格的计算成本高昂,在使用高分辨率网格时尤为显著。由于联合感知和预测方法通常需要多个连续的传感器数据帧来预测动态物体的轨迹,它们通常依赖于简化的表征,如BEV和RV,以减少计算开销。出于同样的原因,在联合感知和预测方法中,原始点云从未直接用于预处理步骤,而是转换为BEV、RV或3D体素网格。

5)多表征 :自动驾驶中的多表征融合整合了来自各种传感器模态和表征的数据,如鸟瞰图(Bird's Eye View, BEV)点云、车视(Range View, RV)点云和相机图像。通过结合不同格式,这些方法利用了每种表征的互补优势,同时弥补了它们各自的局限性。例如,BEV保留了物体的物理尺寸和空间关系,RV保留了详细的遮挡信息,而RGB图像提供了密集的语义特征。这种融合使得对驾驶场景的理解更加稳健和全面。

本节讨论的方法以各种方式采用多表征融合,主要区别在于它们使用的表征类型以及它们如何整合数据。一些方法将相机图像与BEV表征进行融合。例如,作者采用了一种双流架构,其中一个二维卷积神经网络(Convolutional Neural Network, CNN)处理多扫描BEV激光雷达数据,而预训练的ResNet-18[81]从正视图中提取特征。然后,这些特征通过BEV空间中的连续融合层进行融合,从而形成一个密集且统一的表征。类似地,FusionAD分别使用主干网络处理多视图相机图像和BEV激光雷达数据,然后使用基于Transformer的架构和多个注意力机制将它们组合起来:激光雷达BEV特征的点交叉注意力、图像特征的图像交叉注意力和历史BEV特征的时序自注意力。作者结合了相机图像中的光流信息来补充激光雷达BEV表征,从而增强了运动预测能力。

其他方法使用BEV和RV表征来融合激光雷达点云。例如,作者为历史BEV点云扫描和当前RV扫描分别使用了单独的CNN分支。然后,RV特征通过U-Net进行处理,并投影到BEV空间,以便与BEV特征进一步融合。MVFuseNet更进一步,通过对多个激光雷达扫描进行多视图时序融合,按顺序处理RV特征,并将它们从最旧的扫描到最新的扫描投影到BEV。LiCaNet及其继任者LiCaNext通过将相机图像纳入融合过程来增强这一点,LiCaNext还添加了残差图像来捕捉时序动态。作者以类似于LiCaNet和LiCaNext的方式使用了相机、激光雷达BEV和RV。

雷达数据也在多表征融合中得到了探索,尽管它还没有像前几节讨论的表征那样作为联合感知和预测方法的独立输入进行研究。LiRaNet通过对雷达特征应用时空处理,使用基于图的卷积和多层感知器(Multi-Layer Perceptron, MLP)进行时序融合,来整合雷达和激光雷达数据。然后,将这些特征融合到一个共享的BEV表征中,以便进一步处理。FISHING Net使用单独的卷积编码器-解码器网络融合连续帧的多视图相机图像、雷达BEV和激光雷达BEV表征,并通过平均或优先级池化方法在BEV空间中聚合输出。

多表征融合利用了各种表征的互补优势,显著提升了系统能力,但仍面临挑战。处理多个表征带来的计算复杂度增加可能导致更高的延迟,这对实时应用来说是一个问题。此外,由于分辨率、噪声特性和视野的差异,对齐来自不同模态(如相机、激光雷达和雷达)的特征是困难的。特别是雷达,由于其提供的点数比激光雷达少2-3个数量级,且角分辨率远低于激光雷达,因此使用较少。

总结:表I总结了按其在分类法中的输入表征级别分类的联合感知和预测方法。BEV表征是最常用的,在55项工作中出现了29次。此外,对多视图图像和多表征方法的研究也相当多。图3根据输入表征提供了这些方法的时序概述。值得注意的是,BEV表征是联合感知和预测的开创性选择,并且至今仍被广泛采用。然而,近年来多视图图像受到了广泛关注,突显了密集和语义表征的重要性日益增加。2020年和2021年期间,多表征方法引起了极大兴趣,并且由于能够利用互补传感器和表征的优势,它们仍然是一个可行的选择。最后,三维体素网格方法仍在不断涌现,其推动力是出现了用于联合感知和预测的自监督点云预测方法。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等







请到「今天看啥」查看全文