专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
心禅道  ·  投资#785 ... ·  3 天前  
心禅道  ·  投资#785 ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

清华开源Doe-1:自动驾驶闭环的极限,感知、预测、规划大一统!

3D视觉工坊  · 公众号  ·  · 2024-12-14 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Doe-1: Closed-Loop Autonomous Driving with Large World Model

作者:Wenzhao Zheng, Zetian Xia, Yuanhui Huang, Sicheng Zuo, Jie Zhou, Jiwen Lu

机构:Tsinghua University

原文链接:https://arxiv.org/abs/2412.09627

代码链接:https://github.com/wzzheng/Doe

1. 导读

由于其从大量数据中学习的潜力,端到端自动驾驶受到了越来越多的关注。然而,大多数现有的方法仍然是开环的,并且遭受弱的可扩展性、缺乏高阶交互和低效的决策。在本文中,我们探索了一个用于自动驾驶的闭环框架,并提出了一个用于统一感知、预测和规划的大驾驶世界模型(Doe-1)。我们将自动驾驶公式化为下一个令牌生成问题,并使用多模态令牌来完成不同的任务。具体来说,我们使用自由形式的文本(即场景描述)进行感知,并使用图像令牌直接在RGB空间中生成未来预测。对于规划,我们采用位置感知标记器来有效地将动作编码成离散的标记。我们训练多模态转换器以端到端和统一的方式自回归生成感知、预测和规划令牌。在广泛使用的nuScenes数据集上的实验证明了Doe-1在各种任务中的有效性,包括视觉问答、动作条件视频生成和运动规划。

2. 引言

GPT系列模型的出现推动了具有多种功能的大型模型的快速发展,这些功能包括语言建模、视觉理解和决策制定。大型模型成功的关键在于模型规模和训练数据的扩展。在设计模型时,为了提升性能的上限,可扩展性主张采用大型表征容量(例如,Transformer),而非精心设计的归纳偏置(例如,卷积神经网络)。

为了构建自动驾驶领域的大型模型,一些方法直接应用大型语言模型(LLMs)或视觉语言模型(VLMs)来进行运动规划或场景问答。它们通常将输入与文本对齐(例如,Q-Former),并输出规划结果的语言描述。然而,众所周知,LLMs存在幻觉问题,这阻碍了自动驾驶的可解释性和安全性。为了避免这一问题,其他方法遵循经过充分验证的自动驾驶感知、预测和规划的流程,并探索可扩展的端到端模型来联合完成这些任务。尽管这些方法很有前景,但大多数现有方法仍然是开环的,并存在几个问题。1)可扩展性差。它们使用手动设计的场景表征,无法为下游任务提供全面信息。2)缺乏高阶交互。它们在预测未来场景时没有考虑规划的自我轨迹。3)决策效率低下。它们通常规划多个步骤,但实际上只使用第一步来执行。

为了解决这些问题,我们提出了一个闭环的大型驾驶世界模型Doe-1,用于统一的感知、预测和规划,无需中间潜在场景表征。我们将自动驾驶视为场景演化问题,并用观测、描述和动作令牌来表示每个场景。然后,我们将传统的感知、规划和基于动作条件的视频生成预测公式化为多模态令牌之间的转换,即观测→描述、描述→动作和动作→观测。接着,我们采用生成式自回归世界模型,通过下一个令牌预测来模拟这种演化。具体来说,我们专注于以视觉为中心的自动驾驶,并采用RGB图像作为观测。我们使用图像向量量化变分自编码器对图像进行令牌化。我们使用自由文本作为场景描述,并向模型输入问答对以进行按需感知。我们用鸟瞰图(BEV)空间中的位移来表示动作,并使用位置感知令牌器将其编码为离散令牌。然后,我们的Doe-1顺序且迭代地生成下一个时间帧的观测、描述和动作令牌,这可以通过简单的自回归目标进行高效训练。我们在nuScenes数据集上进行了大量实验,以评估Doe-1的能力。通过不同的提示设置,我们证明了Doe-1无需微调即可成功完成各种任务,包括视觉问答、可控图像生成和运动规划。

3. 效果展示

我们的Doe-1在nuScenes上闭环自动驾驶的可视化。我们提出了一个大驾驶世界模型(Doe-1)来实现统一的生成式闭环自动驾驶。我们将感知、预测和计划分别建模为观察→描述、描述→行动和行动→观察的转变。Doe-1在统一的自回归生成框架内完成感知、规划和预测,首次实现闭环端到端自主驾驶。

4. 方法

我们将自动驾驶公式化为统一的下一个令牌生成问题,并使用观察、描述和动作令牌来表示每个场景。无需额外的微调,Doe-1通过使用不同的输入提示来完成各种任务,包括视觉问答、受控图像生成和端到端运动规划。 推荐课程: 多传感器标定不得不聊的20种标定方案(Lidar/Radar/Camera/IMU等)

我们探索了一种新的闭环自动驾驶范式,该范式结合端到端模型和世界模型来构建闭环。

我们首先将训练数据集重新组织为传感器数据(图像)、感知数据(文本)和动作数据(下一帧的位置)的时间序列。然后,我们使用图像、文本和动作令牌器将它们编码为离散令牌,以构建一维令牌序列。接着,我们使用基于Transformer的架构对该序列进行自回归建模,并将下一个令牌预测作为训练目标。

5. 实验结果

我们采用视觉问答(VQA)来评估Doe-1的感知能力。在OmniDrive-nuScenes基准测试中,我们将所提方法与采用3D Q-Former(OmniDrive-3D)、2D Q-Former(OmniDrive-2D)和稠密鸟瞰图(OmniDriveBEV)的OmniDrive进行了比较,如表1所示。我们用粗体数字表示最佳结果。请注意,OmniDrive使用周围摄像头作为输入,而我们的Doe-1仅使用前置摄像头。尽管如此,我们仍看到我们的模型在视觉描述和反事实推理任务上都取得了具有竞争力的结果。可视化。我们在图7中对视觉问答结果进行了定性分析。我们看到Doe-1能够正确描述场景并回答有关输入图像的问题。

我们评估了Doe-1在基于动作条件的视频生成任务中的预测能力,其中我们采用精确动作(鸟瞰图(BEV)空间中的位移)作为条件。我们在表2中将所提模型与现有的真实世界模型进行了比较。我们看到Doe-1的表现与Drive-WM和GenAD相当,但逊于Vista。尽管如此,我们的模型是首个使用自回归架构而非扩散模型来实现Doe-1的联合感知和规划的模型。

可视化。图8展示了给定图像和轨迹作为条件所生成的图像序列。我们看到Doe-1根据提示动作生成了高质量图像。这些图像在三维结构上保持一致,并展示了Doe-1理解三维世界演变的能力。

我们按照现有的端到端自动驾驶方法评估了Doe-1的动作规划性能,如表3所示。此外,我们还按照VAD的方法在表底计算了每个时间步之前所有帧的平均性能。尽管我们的Doe-1并未取得最佳结果,但它仅使用问答对作为辅助监督,就展现出了与现有方法相当的性能。请注意,使用更多的监督信号通常会带来更好的性能,但代价是昂贵的标注。此外,我们的模型仅使用前置摄像头作为输入,而其他基于视觉的方法则使用周围摄像头。尽管如此,我们的模型在规划未来轨迹时仍保持了令人满意的碰撞率。特别是,Doe-1在1秒内的碰撞率很低,这是在实际闭环场景中最重要的因素。

不同规划策略的影响。Doe-1在生成当前动作之前会利用感知到的描述,并屏蔽生成动作的先前帧以避免误差累积。表4证明了我们设计的有效性,表明规划性能受到文本模态约束的影响。屏蔽机制也有效地防止了显著误差的累积。

6. 总结 & 局限性

本文提出了一个大型驾驶世界模型Doe-1,用于闭环自动驾驶。虽然现有的端到端自动驾驶方法展现出了强大的规划性能,但它们仍然是开环的,且由于手工制作的场景表示而遭受信息损失。我们通过下一个令牌预测公式和用多模态令牌之间的转换来建模感知、预测和规划来解决这个问题。我们在广泛使用的nuScenes数据集上进行了大量实验,并证明了Doe-1在视觉问答、基于动作条件的视频生成和端到端运动规划方面的有效性。

局限性。Doe-1仅将前置视图图像作为输入,因为使用多视图输入的效率较低。然而,环视信息对于安全自动驾驶至关重要,也是未来一个有趣的研究方向。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文