专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

OccLLaMA：首个结合3D占用预测、语言、行为构建的生成式世界模型

3DCV · 公众号 · · 2024-09-25 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：深蓝AI

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

导读：

OccLLaMA是首个结合3D占用预测作为视觉表征的生成式世界模型。大量实验表明，OccLLaMA在多个任务上实现了不错的性能，包括4D占用预测、运动规划和视觉问答，展示了其作为自动驾驶基础模型的潜力。 ©️【深蓝AI】编译

多模态大型语言模型（Multimodal Large Language Models，MLLMs）的兴起促进了它们在自动驾驶中的应用。目前基于MLLMs的方法是通过学习感知与动作之间的直接映射来执行动作，忽略了世界的动态性以及动作与世界动态之间的关系。因此，探索如何构建智能体的世界模型对于具身智能（Embodied AI）的进步至关重要。

以自动驾驶为代表的具身智能应用，也不乏有对世界模型的研究。目前，自动驾驶的世界模型主要集中在诸如视频预测、点云预测和占用预测等传感器预测任务上。然而，现有模型无法同时实现场景演变的预测、语言推理和与真实世界的交互。相比之下，本文作者提出了一种能够统一视觉、语言和行动建模（VLA）的模型。然而，构建VLA世界模型面临两个关键挑战，亟待解决：

● 构建一种通用的三维视觉表征，以促进理解和生成；

● 开发一种能够容纳VLA模态的多模态框架。

基于上述背景，本文提出OccLLaMA框架用于解决上述两个关键挑战，该模型是一种统一的三维占用-语言-行动生成世界模型，并且统一了与VLA相关的任务，包括但不限于场景理解、规划和4D占用预测，如图1所示。

本文主要贡献如下：

1）本文提出一种占用-语言-行动生成世界模型OccLLaMA，它使用Occ作为视觉表征，通过基于LLaMA的统一多模态词汇和增强的自回归模型涉及多个任务。

2）该模型利用一种新型场景分词器，能够高效地离散化和重构Occ场景，同时考虑稀疏性和类别不平衡。

3）在与最先进的方法进行了对比实验，在多个任务（包括4D占用预测、运动规划和视觉问答）中，表现超过现有方法。

▲ 图1｜OccLLaMA框架示例©️【深蓝AI】编译

■ 2.1 MLLMs in Autonomous Driving

大语言模型（LLMs）在自动驾驶的应用包括场景理解和端到端决策制定。基于LLM的决策制定方法在解决基于学习的系统中的可解释性和推广性挑战方面有很大潜力，通过在文本空间中进行推理。在自动驾驶场景中，LLMs主要任务是将环境信息传达给模型，以及研究如何更有效地扩展输入模态。例如，基于模板的自然语言场景描述、与语言提示结合的向量嵌入输入、基于相机感知的图像嵌入等。

■ 2.2 World Model in Autonomous Driving

世界模型旨在基于动作和观察预测未来场景。在自动驾驶中，世界模型通常用于数据生成和决策制定。各种模型以不同的方式表示场景，可以分为2D图像表示、3D点云表示和3D占用表示。使用2D图像表示的视觉世界模型由于传感器的灵活性提供了可扩展性，但缺乏3D场景理解。虽然3D点云表示解决了这个问题，但它们缺乏语义信息。一些研究关注多模态表示，但生成的不同模态的结果之间的特征对齐仍然困难。因此，整合3D场景表示和语义理解是建模场景演变的一种有前景的方法。

■ 2.3 Autoregressive Visual Generation

自回归（AR）视觉生成是指使用自回归方法生成图像的模型。早期模型如VQVAE、VQGAN和Dalle将图像转换为离散标记并顺序生成，面临输出性能和可扩展性方面的限制。随后，扩散模型（Diffusion Models）因其独特的范式主导了视觉生成领域。最近，自回归模型的简洁性使得统一理解和生成成为可能，能有效扩展大数据。VAR模型使得基于GPT的自回归模型在图像生成方面超越了扩散模型。Llama-Gen在条件图像生成方面超越了扩散模型，表明纯自回归模型可以作为没有视觉信号归纳偏差的图像生成基础。将AR语言模型与视觉生成整合仍然具有挑战性，特别是在为语言和视觉任务创建统一模型方面。

▲ 图2｜OccLLaMA框架概览©️【深蓝AI】编译

■ 3.1 方法概述

如图2所示，OccLLaMA作为一个统一的占用-语言-动作框架，它的核心组件包括场景分词器（Scene Tokenizer）和占用-语言-动作生成世界模型。为了实现多任务，作者引入了一个三阶段的训练方案，用于场景分词器的训练、占用-语言-动作预训练和指令调优。

■ 3.2 场景分词器

本方法采用类似于VQVAE的架构，通过使用离散标记（Discrete Tokens）来表示场景。然而，占用中的网格大约90%都充斥着空气，导致显著的稀疏性。现有的方法对空气类别应用密集卷积运算既昂贵又效率低下。此外，各类别之间的不平衡进一步也阻碍了学习效率。为了解决这些问题，本文在编码器中引入了一种稀疏编码策略（一种类似于点云处理技术）。同时，将非占用类别与其他语义类别解耦，从而实现更高效的场景重建。

◆ 编码器（Encoder）

原始场景表示为，其中3D空间被划分为密集的体素，每个体素被分配一个语义标签。将进行稀疏化处理，得到，通过丢弃空气体素，并将语义占用体素表示为沿BEV方向排列的1D伪点云集，其中是当前支柱内的非空气体素的数量。每个点是一个向量，其中是高度，是语义标签。然后，利用支柱嵌入(pillars embedding)聚合伪点云特征，并使用swin-transformer块获得BEV特征图，其中是下采样率，是潜在特征维度。

◆ 量化（Quantification）

为了获得离散表示，通过向量量化将转换为一组字典条目。可学习的字典由个向量组成，每个向量的维度为。量化过程用其最近的字典条目替换每个，表示为：

◆ 解码器（Decoder）

由于在量化后BEV特征图中高度信息丢失，解码器通过堆叠卷积块和上采样层恢复密集的3D体素特征。具体来说，为了解决类别不平衡问题，作者分别实例化轻量体素头（voxel head）和类别头（class head），以解码占用的几何和语义信息。其中，体素头为类别头提供了一个占用掩码，允许仅监督占用体素的语义就行。

◆ 损失（Loss）

要训练这个场景分词器，作者参考OccWorld的做法，利用三种损失函数进行优化，其中合成交叉熵损失和Lovasz-softmax损失用于几何和语义的重建学习，以及嵌入损失用于字典学习。

← 左右滑动查看完整公式 →

■ 3.3 生成世界模型

统一词汇（Unified Vocabulary）：通过使用场景分词器，占用场景可以被映射并展平为一个序列，其中，这允许与原始大型语言模型中的相似语言词汇进行联合表示。具体而言，首先将场景标记表示为一个索引序列，其中对应于场景标记的代码索引编号。因此，通过构建一个场景词汇，它与场景字典保持顺序一致。由于一般的大型语言模型很难输出细粒度的数值，本文根据轨迹集的统计经验性地将航点的坐标划分为个区间，并将航点映射到最近的区间，以构建一个动作词汇。此外，作者还添加了若干特殊的功能标记，如

、

来表示模态边界；

用于辅助下一个场景预测。因此，最后构建一个统一的占用-语言-动作词汇，以生成格式表述多种任务，其中输入和输出可以是这三种模态之一或混合，具体取决于要解决的任务。

下一个标记/场景预测（Next Token / Scene Prediction）：由于语言和动作都是时间序列，这使得这些序列中的标记自然适合使用原始因果掩码和下一个标记预测机制进行时间注意力。然而，场景序列中的标记并不固有地遵循时间顺序，并且序列长度往往大于语言和动作。如果在场景中逐行执行下一个标记预测，它无法捕捉空间关系，并会产生高计算成本。为了解决这些问题，本文引入了下一个场景预测，同时保留下一个标记预测。

如图2所示，在与场景标记对应的位置上实现空间注意力，以更好地捕捉场景内的空间关系。相应地，通过初始化可学习的场景查询，以在一次前向步骤中预测整个场景，从而使场景内标记之间的交互更好，并显著减少推理时间。标记/场景预测的机制如算法1所示：

■ 3.4 训练过程

整个框架训练包括三个阶段：

1）场景分词器的训练：首先专注于学习场景字典，以将占用表示为离散标记，使用在公式2中定义的目标函数。一旦优化，场景分词器在后续阶段的管道中保持不变。

2）3D占用-语言-动作预训练：在这个阶段，对占用、语言和动作模态进行对齐。通过使用世界模型目标和场景描述目标进行全面的参数预训练，前者监督占用和动作之间的对齐，以学习世界的演变，后者监督占用和语言之间的对齐，以学习3D场景的语义理解。

3）指令调优：在这个阶段，通过LoRA基于提示的指令对模型进行微调，以应对不同的场景理解和规划任务。

■ 4.1 实验设置

◆ 数据集

NuScenes是自动驾驶领域广泛认可的基础数据集。该数据集包含700个训练视频和150个验证视频，每个视频长度为20秒，关键帧率为2Hz。Occ3D是一个基于NuScenes的大规模3D占用数据集，为每一帧提供语义占用表示。NuScenes-QA是一个基于NuScenes的多模态视觉问答数据集。它包含五类问题：存在性、计数、查询对象、查询状态和比较，这些问题又根据复杂性进一步细分为零跳和一跳。为了对齐占用和语言模态，作者收集了一个基于NuScenes的大型描述数据集。具体来说，这个数据集将占用帧与出现的对象的位置、类别、状态和未来轨迹进行匹配。

◆ 实现细节

在大多数比较中，将语言模型基础设为LLaMA-3.1-8b，场景分词器参数设为50× 256×2048。对于视觉问答（VQA）比较，将语言模型基础设为LLaMA-2-7b，场景分词器的分辨率设为25×25，以确保公平性。对所有训练使用AdamW优化器。场景分词器的训练使用学习率，批量大小为4，

λ λ

OccLLaMA：首个结合3D占用预测、语言、行为构建的生成式世界模型

正文

请到「今天看啥」查看全文