专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
今日悉尼  ·  澳洲洪水肆虐,香蕉价格恐涨至$14澳元/kg ... ·  22 小时前  
51好读  ›  专栏  ›  计算机视觉工坊

开源、通用、鲁棒!OpenEMMA:全新端到端自动驾驶大模型!

计算机视觉工坊  · 公众号  ·  · 2024-12-28 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

作者:Shuo Xing, Chengyuan Qian, Yuping Wang, Hongyuan Hua, Kexin Tian, Yang Zhou, Zhengzhong Tu

机构:Texas A&M University、University of Michigan、University of Toronto

原文链接:https://arxiv.org/abs/2412.15208

代码链接:https://github.com/taco-group/OpenEMMA

1. 导读

自从多模态大型语言模型(MLLMs)出现以来,它们已经在广泛的现实世界应用中产生了重大影响,特别是在自动驾驶(AD)中。他们处理复杂视觉数据和推理复杂驾驶场景的能力为端到端广告系统的新范式铺平了道路。然而,为AD开发端到端模型的进展缓慢,因为现有的微调方法需要大量资源,包括广泛的计算能力、大规模数据集和大量资金。从推理计算的最新进展中得到启发,我们提出了OpenEMMA,一个基于MLLMs的开源端到端框架。通过整合思想链推理过程,OpenEMMA在利用多种多样的MLLMs时,与基线相比实现了显著的改进。此外,OpenEMMA在各种具有挑战性的驾驶场景中展示了有效性、可推广性和鲁棒性,为自动驾驶提供了一种更加高效和有效的方法。

2. 引言

近年来,自动驾驶(AD)技术发展迅速,其推动力来自于人工智能、传感器技术以及高性能计算领域的进步。然而,现实场景中存在不可预测的道路使用者、动态交通模式以及多样的环境条件,这些给自动驾驶带来了重大挑战。要解决这些复杂问题,需要先进的推理能力,使自动驾驶系统能够理解上下文信息、预测用户意图并做出准确的实时决策。传统上,自动驾驶架构采用模块化方法,通过专门的组件处理不同的方面,如感知、地图构建、预测和规划。然而,虽然这种模块化有助于调试和优化单个模块,但往往由于模块间通信错误和僵化、预定义的接口难以适应新情况或未预见的情况,而导致可扩展性问题。

近期的发展见证了端到端系统的出现,这些系统直接从传感器输入中学习驾驶动作,绕过了对符号接口的需求,并允许整体优化。然而,这些系统通常高度专业化,并在狭窄的数据集上进行训练,因此在多样化和复杂的现实场景中难以有效泛化。这正是多模态大型语言模型(MLLMs)发挥作用的地方,它们通过在大范围数据集上进行广泛训练,并通过诸如思维链推理等机制,包含了全面的世界知识和先进的推理能力,从而提供了一种变革性的方法。Waymo的专有EMMA模型[1]基于谷歌的Gemini,就体现了这一趋势,展示了在感知、决策和导航集成方面的重大进展。然而,EMMA的封闭性质限制了更广泛的研究社区对其进行访问和实验。

为了解决像EMMA这样的闭源模型的局限性,我们推出了OpenEMMA,这是一个开源的端到端自动驾驶框架,旨在使用公开可用的工具和模型来复制EMMA的核心功能。OpenEMMA旨在使这些进展民主化,为更广泛的研究和开发提供一个平台。与EMMA类似,OpenEMMA以前置摄像头图像和文本形式的历史自我车辆状态作为输入。驾驶任务被构造成视觉问答(VQA)问题,并采用思维链推理来引导模型生成关键对象的详细描述、行为洞察和元驾驶决策。这些决策由模型本身直接推断得出,为路径点生成提供了必要的上下文。为了缓解MLLMs在目标检测任务中已知的限制,OpenEMMA集成了YOLO的一个微调版本,该版本专门为自动驾驶场景中的3D边界框预测进行了优化,从而显著提高了检测准确性。此外,通过利用MLLMs的现有世界知识,OpenEMMA可以为诸如场景理解等感知任务生成可解释、人类可读的输出,从而提高了透明度和可用性。

3. 效果展示

由GPT-4o提供的OpenEMMA预测的可视化。

4. 主要贡献

我们的主要贡献总结如下:

• 我们推出了OpenEMMA,这是一个开源的端到端多模态自动驾驶模型,利用现有的开源模块和预训练MLLMs来复制EMMA在轨迹规划和感知方面的功能。

• 我们在nuScenes数据集的验证集上进行了大量实验,评估了OpenEMMA在使用不同MLLMs进行端到端轨迹规划时的性能,展示了其有效性和适应性。 推荐课程: Transformer如何在自动驾驶领域一统江湖!

• 最后,我们将OpenEMMA中使用的代码库、数据集和模型权重完全发布在https://github.com/dummy4submission/OpenEMMA,供研究社区利用、改进和扩展该框架,推动自动驾驶技术的进一步发展。

5. 方法

我们开发了OpenEMMA,这是一个基于预训练MLLMs L的计算高效的端到端自动驾驶系统,如图1所示,该系统以历史驾驶状态T和视觉驾驶场景I作为输入,预测未来轨迹P,并检测交通参与者。

6. 实验结果

7. 总结 & 未来工作

本文提出OpenEMMA,这是一个基于多模态大型语言模型的开源、计算效率高的端到端自主驾驶框架。利用历史自我车辆数据和前摄像头捕捉的图像,OpenEMMA采用链式思维推理过程来预测自我车辆的未来速度和曲率,然后将其整合到轨迹规划过程中。此外,通过集成经过微调的外部视觉专家模型,OpenEMMA实现了对3D路上行人物体的精确检测。此外,拟议的OpenEMMA框架在零样本基线之上显示出显著的改进,展示了其在各种具有挑战性的驾驶场景中的有效性、普适性和稳健性。

作为基于现成预训练模型开发端到端自动驾驶框架的第一步,我们在推理过程中仅集成了基本的链式思维推理。虽然这作为基础方法,但通过整合更先进的推理时间推理技术,如COT-SC,还有很大的未开发潜力来增强该框架。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括







请到「今天看啥」查看全文