理解世界动态对于自动驾驶中的规划至关重要。最近的方法试图通过学习一个基于当前观测预测未来周围场景的3D占用世界模型来实现这一点。
然而,要产生有希望的结果,仍需要3D占用标签。考虑到3D户外场景标注的高成本,作者提出了一种半监督的视觉中心化3D占用世界模型,名为Pre World,通过一种新颖的两阶段训练范式来利用2D标签的潜力:自我监督预训练阶段和完全监督的微调阶段。
具体来说,在预训练阶段,作者利用属性投影头来生成场景的不同属性场(例如,RGB、密度、语义),从而通过体积渲染技术从2D标签实现时间监督。此外,作者引入了一个简单而有效的状态条件预测模块,以直接递归预测未来的占用和自我轨迹。在nuScenes数据集上的大量实验验证了作者方法的有效性和可扩展性,并表明Pre World在3D占用预测、4D占用预测和运动规划任务中均取得了具有竞争力的性能。
图1:(a)仅使用2D标签作为监督的自监督3D占用模型可以进行训练,但它缺乏预测未来占用的能力。相比之下,(b)完全监督的3D占用世界模型可以预测未来占用,但由于其间接架构(采用冻结的3D占用模型),它依赖于3D占用标签才能产生有意义的结果。为了应对这些挑战,(c)作者的半监督3D占用世界模型,具有2D渲染监督和端到端架构,可以直接从图像输入中预测未来占用,同时利用2D标签。
1. 引言
3D场景理解是自动驾驶的基础,对后续任务如规划和导航产生直接影响。在众多3D场景理解任务中,3D占用预测在自主系统中扮演着至关重要的角色。其目标是从有限的观察中预测整个场景中每个 Voxel 的语义占用情况。为此,一些先前的方法由于激光雷达在捕捉精确几何信息方面的稳健性能,将其作为输入模态的首选。然而,它们通常被认为是硬件成本高昂。因此,近年来转向以视觉为中心的解决方案(张等,2023c;李等,2023a;郑等,2024)。
尽管上述方法取得了显著进展,但它们主要关注于增强对当前场景的感知。对于高级碰撞避免和路线规划,自动驾驶汽车不仅需要理解当前场景,还需要根据对世界动态的理解预测未来场景的演变。因此,引入了4D占用预测来预测基于历史观测的未来3D占用。最近的研究试图通过学习3D占用世界模型来实现这一目标。然而,在处理图像输入时,这些方法遵循了曲折的路径,如图1(b)所示。通常,使用预训练的3D占用模型来获取当前占用,然后将其输入到预测模块以生成未来占用。预测模块包括一个分词器,它将占用编码为离散 Token ,一个自回归架构来生成未来的 Token ,以及一个解码器来获取未来的占用。在这样的重复编码和解码过程中容易发生信息丢失。因此,现有方法严重依赖3D占用标签作为监督来产生有意义的成果,这导致了显著的标注成本。
与三维占用标签相比,二维标签的获取相对容易。最近,仅使用二维标签进行自监督学习在三维占用预测任务中显示出一些有希望的结果,如图1(a)所示。通过使用体渲染技术,RenderOcc(Pan等,2024)利用二维深度图和语义标签来训练模型。像SelfOcc 这样的方法更进一步,仅使用图像序列作为监督。然而,在四维占用预测任务中尚未有类似的尝试。
基于上述观察,作者提出了PreWorld,这是一种半监督的以视觉为中心的3D占用世界模型,旨在在训练过程中满足2D标签的效用,同时在3D占用预测和4D占用预测任务上实现有竞争力的性能,如图1(c)所示。为此,作者提出了一种新颖的两阶段训练范式:自监督预训练阶段和全监督微调阶段。受RenderOcc的启发,在预训练阶段,作者引入了一个属性投影 Head ,以获取当前和未来场景的多样化属性字段(例如,RGB、密度、语义),通过体积渲染技术利用2D标签进行时间监督。此外,作者提出了一种简单而有效的状态条件预测模块,使作者能够同时优化占用网络和预测模块,并通过端到端方式直接基于多视图图像输入预测未来的3D占用,从而避免可能的信息损失。
为了展示PreWorld的有效性,作者在广泛使用的Occ3D-nuScenes基准(Tian等人,2024年)上进行了大量实验,并与其使用2D和/或3D监督的最近方法进行了比较。实验结果表明,作者的方法在多个任务上均能取得具有竞争力的性能。对于3D占用预测,PreWorld在mIoU方面以34.69超越了之前最佳方法OccFlowNet(Boeder等人,2024年),超过了33.86。对于4D占用预测,PreWorld创造了新的SOTA性能,超过了现有的OccWorld(Zheng等人,2023年)和OccLLaMA(Wei等人,2024年)方法。在运动规划方面,PreWorld与其他视觉中心方法(Hu等人,2022年;Jiang等人,2023年;Tong等人,2023年)相比,结果相当甚至更优。此外,作者还验证了作者两阶段训练范式的可扩展性,展示了其在大规模训练中的潜力。
作者的主要贡献如下:
一种半监督的以视觉为中心的3D占用世界模型,PreWorld,该模型在训练过程中同时利用了2D标签和3D占用标签。
一种新颖的两阶段训练范式,其有效性和可扩展性已通过大量实验得到验证。
一种简单而有效的状态条件预测模块,能够实现与占用网络的同时优化,以及基于视觉输入的直接未来预测。
与SOTA方法进行的大量实验比较表明,作者的方法在多个任务上均取得了具有竞争力的性能,包括3D占用预测、4D占用预测和运动规划。
2. 相关研究工作
2.1 三维占用预测
由于其在自动驾驶中的关键应用,3D占用预测受到了广泛关注。根据输入模式,现有方法可以大致分为基于激光雷达的方法和以视觉为中心的方法。虽然基于激光雷达的方法在捕捉几何细节方面表现卓越,但由于它们丰富的语义信息、成本效益和部署的便捷性,以视觉为中心的方法近年来也引起了越来越多的兴趣。然而,这些方法只专注于理解当前场景,而忽略了未来场景变化的预测。因此,在本文中,作者遵循Occ World(Zheng等人,2023)的方法,力求以统一的方式解决这两个任务。
2.2 自动驾驶的全球模型
世界模型的目标是基于动作和过去的观测来预测未来的场景(Ha & Schmidhuber, 2018)。在自动驾驶领域,世界模型可以用来生成合成数据并辅助决策。一些先前的研究方法旨在利用大型预训练生成模型生成户外驾驶场景的图像序列。然而,仅依赖二维图像作为场景表示会导致结构信息的缺失。一些研究倾向于生成三维点云,但另一方面,又未能捕捉场景的语义。
近期,出现了生成3D占用表示的新尝试,这些方法结合了对语义和几何信息的理解。开创性的Occ World(Zheng等人,2023年)引入了3D占用世界模型,该模型采用自回归架构,可以根据当前观察预测未来的占用情况。在此基础上,OccLLaMA(Wei等人,2024年)将占用、动作和语言整合在一起,使得3D占用世界模型具备推理能力。
然而,对于以视觉为中心的方法,它们都采取了一种间接路径,需要使用预训练的3D占用模型进行当前占用预测,随后通过艰难的编码-解码过程来预测未来的占用情况。这种方式在模型训练中带来了挑战,因此需要3D占用标签作为监督以获得有效结果。考虑到这一点,作者探索了一种直接使用图像输入预测未来占用的简单方法。
2.3 自监督3D占用预测
在3D占用信息为训练提供丰富结构信息的同时,它也要求进行昂贵且费时的标注过程。相比之下,2D标签更容易获取,这为自监督3D占用预测提供了机会。最近,一些研究开始探索使用神经网络辐射场(NeRFs)(Mildenhall等人,2021年)进行场景的体积渲染,从而为模型提供2D监督。RenderOcc(Pan等人,2024年)倾向于使用2D深度图和语义标签进行训练。尽管与现有方法相比性能存在显著差距,SelfOcc 仍做出了有意义的尝试,旨在仅利用图像序列进行自监督学习。
相反,在4D占用预测任务的领域内,尚未观察到自监督方法的应用。尽管Occ World(郑等,2023)提供了一个自监督的环境,但它仅仅依赖现有的自监督3D占用模型来生成当前的占用情况,而没有进行新的探索,并且其性能也不尽如人意。与OccWorld不同,作者尝试直接使用二维标签监督未来场景,从而在3D占用预测和4D占用预测任务中同时优化作者的性能。
图2:作者提出的PreWorld架构。首先,使用占用网络从多视角图像中提取体积特征。随后,采用状态条件预测模块,通过递归地使用历史特征来预测未来的体积特征。在自监督预训练阶段,体积特征通过体积渲染技术投影到不同的属性字段,并由二维标签进行监督。在完全监督的微调阶段,属性投影头不再参与计算,通过占用头直接获取占用预测,并由三维占用标签进行监督。
3 方法
在本研究中,作者采用了一种综合方法来分析和评估人工智能在特定领域的应用。该方法包括以下几个关键步骤:
数据收集与分析
:首先,作者从多个来源收集相关数据,包括公开的数据库、学术出版物以及实际应用案例。接着,作者对这些数据进行预处理和特征提取,以便后续分析。
模型构建与训练
:基于收集到的数据,作者构建了相应的机器学习模型,并使用历史数据对其进行训练。在此过程中,作者采用了多种算法和技术,如深度学习、支持向量机和决策树等。
模型评估与优化
:在模型训练完成后,作者对模型进行评估,以确定其在实际应用中的性能。根据评估结果,作者对模型进行优化,以提高其准确性和鲁棒性。
实验与分析
:为了验证模型的实用性,作者设计了一系列实验,并在实际场景中进行了测试。通过对比不同模型的性能,作者分析了各模型的优缺点,并提出了改进建议。
结果讨论与总结
:最后,作者根据实验结果对人工智能在该领域的应用进行了讨论,并总结了本研究的主要发现和结论。
在整个研究过程中,作者严格遵循了学术规范,确保了研究的可靠性和有效性。
3.1 重探四维占用预测
对于时间戳为
的车辆,视觉中心的3D占用预测任务以
个视图的图像
作为输入,并预测当前的3D占用
作为输出,其中
表示3D体积的分辨率,
代表语义类别的数量,包括未占用(Huang等,2023;Zhang等,2023c;Liu等,2023;Pan等,2024)。一个3D占用模型
通常由占用网络
和占用头
组成。占用预测的过程可以表示为:
从二维图像输入中提取三维体积特征
(其中
代表体积特征的维度),而
作为解码器,将
转换为三维占用空间。
以视觉为中心的4D占用预测任务则相反,它以过去
帧的图像序列
作为输入,旨在预测未来
帧的3D占用情况(郑等,2023;魏等,2024)。一个3D占用世界模型
试图通过采用自回归的方式来实现这一目标:
为了达到这个目的,W使用了一个可用的3D占用模型
来预测过去
个帧的3D占用情况
,并利用场景 Token 器
、自回归架构
和解码器
来预测未来的3D占用。在获得历史占用信息后,
通过
将3D占用编码成离散的 Token
。随后,
基于这些 Token 预测未来的 Token
,该 Token 随后输入到
中生成未来的占用
。形式上,占用预测的过程可以表示如下:
在此,作者需要指出,在训练过程中,
是预训练并冻结的。例如,OccWorld(郑等,2023)将TPVFormer(黄等,2023)作为
使用,而OccLLaMA(魏等,2024)选择了FB-OCC(李等,2023c)。
3.2 状态条件预测模块
与这些方法不同,作者倾向于更直接的方法,这使得作者能够同时优化三维占用模型和预测模块。特别地,作者采用状态条件预测模块
而不是
、
和
的组合,如图3所示。作者将占用预测的方法表述如下:
在本文中,作者利用
从时序图像中提取体积特征
,
直接预测未来的体积特征
,
将
转换成未来的占用状态
。图3:所提出的基于状态的预测模块仅由两个多层感知器(MLP)组成。自我状态可以根据需要整合到网络中,如虚线箭头所示。
在不失一般性的情况下,作者的预测模块仅由两个多层感知器(MLP)组成。作者证明了,即使设计并不复杂,这种简单的架构仍能实现与最先进方法相当甚至更优的结果。这种设计表明,在训练过程中仅优化预测模块的做法有其局限性。通过同时优化占用网络和预测模块,3D占用世界模型可以实现更强的性能。此外,作者的模块可选择性地将自我状态信息,如速度、加速度和历史轨迹纳入网络。在第四章第三节中,作者展示了这种方法可以进一步提高模型的预测能力。
此外,这种架构为作者带来了额外的优势。鉴于之前的预测模块将场景编码为离散的 Token ,它们无法像自监督3D占用模型(张等人,2023a;黄等人,2024)那样,通过体积渲染直接用2D标签监督未来的预测。由于作者的模块保留了未来场景的体积特征,这为作者提供了在自监督方式下训练3D占用世界模型的机会。
3.3 时间二维渲染自监督学习
属性投影。受Pan等人(2024年)的启发,作者通过属性投影头
将当前和未来
帧的时间体积特征序列
转化为时间属性场
。
、
和
分别表示三维体积的密度、语义和RGB字段。在实现中,