专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
牛叔科技  ·  13199元的安卓机皇来了!2K屏+2亿像素 ... ·  6 小时前  
牛叔科技  ·  13199元的安卓机皇来了!2K屏+2亿像素 ... ·  6 小时前  
机智猫  ·  春季手机市场格局或将出现逆转 ·  昨天  
机智猫  ·  春季手机市场格局或将出现逆转 ·  昨天  
51好读  ›  专栏  ›  自动驾驶之心

全面超越OccWorld!Occ-LLM:Occ世界模型再度问鼎SOTA(港科大&华为诺亚)

自动驾驶之心  · 公众号  ·  · 2025-02-13 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 港科大和华为诺亚的最新工作!基于占用的大语言模型提升感知性能—Occ-LLM! 如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 大语言模型 技术交流群

论文作者 | Tianshuo Xu等

编辑 | 自动驾驶之心

写在前面&出发点

大语言模型(LLMs)在机器人和自动驾驶领域取得了重大进展。本研究提出了首个基于占用的大语言模型(Occ-LLM),这是将大语言模型与一种重要表示方式相结合的开创性尝试。为了有效地将占用信息编码为大语言模型的输入,并解决与占用相关的类别不平衡问题,研究提出了运动分离变分自编码器(MS-VAE)。这种创新方法利用先验知识,在将动态对象和静态场景输入定制的变分自编码器(VAE)之前进行区分。这种分离增强了模型专注于动态轨迹的能力,同时有效地重建静态场景。Occ-LLM在关键任务中的有效性得到了验证,包括4D占用预测、自车规划和基于占用的场景问答。综合评估表明,Occ-LLM显著优于现有的最先进方法,在4D占用预测任务中,交并比(IoU)提高了约6%,平均交并比(mIoU)提高了4%。这些发现凸显了Occ-LLM在重塑机器人和自动驾驶当前范式方面的变革潜力。

行业介绍

大语言模型发展迅速,已成为推动各行业人工智能发展的重要力量。最初为自然语言处理设计的大语言模型,因其强大的泛化能力,在自动驾驶等复杂领域也展现出了卓越的适应性。这些能力对于目前缺乏泛化性的机器人或自动驾驶系统而言至关重要。当前,大语言模型在自动驾驶中的应用主要基于图像输入,但这种方式缺乏全面理解环境所需的空间感知能力。现有的基于视觉和基于激光雷达的方法,虽然增强了车辆导航和环境理解能力,但计算成本高,且中间推理过程往往缺乏透明度。

在自动驾驶中,占用是一种极具表现力的模态,它通过全面表示场景的前景和背景,提供丰富的空间和语义信息。这种通用表示方式有助于感知物体,无论其具体类别是已知还是未知。值得注意的是,像特斯拉这样的领先汽车制造商,正逐步在其车辆中采用基于占用的系统,这凸显了向这种强大的环境解释方法的转变。

我们旨在利用大语言模型复杂的分析和泛化能力,开发一种用于自动驾驶各种下游任务的基础模型,以解释和利用占用网格。然而,将占用表示直接集成到大语言模型中具有挑战性,这是由于占用类别不平衡,以及代表空气的体素占主导地位,导致学习效率低下和内存问题。为了克服这些挑战,提出了一种名为运动分离变分自编码器(MS-VAE)的新方法。该方法将占用场景中与可移动物体(如汽车、行人)相关的体素,与不可移动结构(如街道、绿植)相关的体素分离。这样做增强了模型对动态对象轨迹的关注,并改善了静态场景的重建,类似于残差学习。这种分离显著降低了学习难度,提高了模型的整体性能。

基于占用的大语言模型(Occ-LLM)经过精心设计,可满足自动驾驶领域的多种应用需求。该模型的主要应用包括4D占用场景预测、自车规划和基于占用的场景问答,这些应用对于提高自动驾驶系统的安全性、效率和可靠性至关重要。为了验证模型的有效性,研究人员进行了广泛的评估,将Occ-LLM与其他最先进的方法进行比较。结果显示,Occ-LLM性能卓越,在4D占用场景预测中,IoU达到32.52%,mIoU达到20.99%,显著优于最先进模型(其IoU为26.63%,mIoU为17.14%,3秒平均值)。在自车规划方面,该模型将3秒平均L2距离降至0.28米,而领先的替代模型为1.17米。此外,在基于占用的场景问答中,Occ-LLM始终能提供准确可靠的回答,从而增强了自动驾驶系统的决策能力。

主要贡献如下:

  1. 引入了用于自动驾驶的基于占用的大语言模型Occ-LLM,展示了卓越的场景理解能力。
  2. 提出运动分离变分自编码器MS-VAE,通过区分可移动和不可移动元素来管理大量占用网格数据,在各项指标上提升了系统性能。
  3. 通过在4D占用场景预测、自车规划和基于占用的场景问答中的应用,展示了Occ-LLM的多功能性,说明了其在自动驾驶多个维度上的优越性。
  4. 通过接入现有的占用预测方法,展示了Occ-LLM的泛化能力,说明了其在自动驾驶中的实用性。

相关工作

1)多模态大语言模型

多模态大语言模型的最新进展引发了广泛关注,它将大语言模型的先进推理能力与图像、视频和音频数据相结合。这些模型在零样本和少样本图像分类、分割和目标检测等任务中表现出色,充分利用了视觉和文本数据之间的协同作用。在自动驾驶领域,大语言模型弥补了关键差距,增强了场景理解能力,提供了更丰富的语义上下文,并促进了当前系统所缺乏的决策过程。已经有几种方法被提出,以在自动驾驶中利用大语言模型。基于视觉的方法,如DriveGPT4,通过解释视频输入生成与驾驶相关的文本响应;而像HiLM-D这样的模型,则通过高分辨率视觉数据增强危险识别和意图预测能力。基于激光雷达的方法利用矢量化视觉嵌入,赋予大语言模型环境感知能力,实现对驾驶场景的详细分析。

2)占用网络

近年来,3D语义占用通过明确建模3D网格内每个体素的占用状态,提供了对环境更详细的表示。SSCNet率先引入语义场景补全任务,整合了几何和语义信息。随后的研究通常利用具有明确深度信息的几何输入。MonoScene提出了第一种用于语义场景补全的单目方法,使用3D UNet来处理通过视线投影生成的体素特征。基于转移架构设计了各种网络。此外,一些同期研究专注于提出用于3D语义占用预测的环视基准,推动了占用领域的快速发展。OccWorld基于3D占用学习世界模型,因其可解释性和效率备受关注。这里尝试以大语言模型为桥梁,统一占用任务。

Occ-LLM方法

Occ-LLM框架将大语言模型与占用表示相结合,以改进自动驾驶系统。该框架增强了空间和语义理解能力,有助于场景解释和决策制定。首先使用现有方法将多视图图像转换为占用表示。下面首先介绍核心的运动分离变分自编码器MS-VAE,它能够区分动态和静态元素,降低计算负载并提高学习效率。MS-VAE的输出经过进一步处理和展平,输入到大语言模型中。Occ-LLM专为各种自动驾驶任务设计,支持4D占用预测、自车规划和基于占用的场景问答,提高了自动驾驶的安全性和有效性。

1)运动分离变分自编码器

基于已有的多模态大语言模型集成方法,研究旨在训练一个变分自编码器,以促进模态融合并降低计算成本。将占用表示直接集成到大语言模型中面临挑战,因为占用类别不平衡,且空气体素占主导,导致数据表示稀疏且低效。为了克服这一问题,研究提出了运动分离变分自编码器MS-VAE,它可以分离占用网格中的动态和静态组件。这提高了编码效率,并将重点转移到对自主导航至关重要的动态元素上。因此,MS-VAE能够更平衡、有效地集成到大语言模型框架中。

MS-VAE的核心概念是训练两个不同的VQ-VAEs,分别对移动和静态占用体素进行编码和解码。不过研究发现,使用两个不同的codebook分别处理移动和静态体素,同时保持单个编码器和解码器,也能获得令人满意的结果。为了清晰阐述,用数学公式描述该方法。

表示输入的占用表示, 分别表示移动和静态体素。编码器 将输入 映射到潜在空间 。对于MS-VAE,为移动和静态体素定义两个单独的潜在变量

每个编码后的潜在变量 在相应的codebook 中搜索,并在输入解码器之前,被最相似的codebook entry替换。这个过程表示为:

解码器 从量化后的潜在变量 重建输入:

为了便于在占用表示中分离运动和静态元素,基于体素的分类进行变换。设 表示可移动类别的集合。在修改后的占用表示中,定义运动和空气填充的指示函数如下:

定义指示函数 ,使得:

则修改后的运动占用 和静态占用 为:

其中,air表示静态占用网格中空气的表示,通常编码为代表未占用空间的占位值。

为了重建原始占用表示,利用







请到「今天看啥」查看全文