专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
重庆城市圈  ·  龙湖这一地块将被重庆国资公司回购! ·  昨天  
重庆城市圈  ·  龙湖这一地块将被重庆国资公司回购! ·  昨天  
清廉蓉城  ·  濯锦时评丨“三化”建设 正当其时 ·  2 天前  
明源地产研究院  ·  房地产,正在走出冬天 ·  2 天前  
成都本地宝  ·  成都地铁母婴室站点分布图! ·  2 天前  
楼市小青蛙  ·  收藏!长沙学区房的分类,以及价格汇总! ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

ICML'25 | Sce2DriveX:用于场景到驾驶学习的可泛化MLLM框架

自动驾驶之心  · 公众号  ·  · 2025-03-04 07:45

正文

作者 | 自动驾驶专栏 编辑 | 自动驾驶专栏

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线
>>点击进入→ 自动驾驶之心 『LLM』技术交流群
本文只做学术分享,如有侵权,联系删文

  • 论文链接: https://arxiv.org/pdf/2502.14917
图片

摘要

图片

本文介绍了Sce2DriveX:用于场景到驾驶学习的可泛化MLLM框架。端到端自动驾驶直接将原始传感器输入映射到低级车辆控制,它是具身AI的重要组成部分。尽管目前已经在将多模态大型语言模型(MLLMs)应用于高级交通场景语义理解方面取得了成功,但是将这些概念语义理解有效地转化为低级运动控制指令和在跨场景驾驶中实现泛化和共识仍然具有挑战性。本文引入了 Sce2DriveX ,这是一种类人的驾驶思维链(CoT)推理MLLM框架。Sce2DriveX利用局部场景视频和全局BEV地图中的多模态联合学习,以深入理解远距离时空关系和道路拓扑,从而增强其在3D动态/静态场景中的全面感知和推理能力,并且实现了跨场景的驾驶泛化。在此基础上,它重建了人类驾驶固有的隐式认知链,涵盖了场景理解、元行为推理、行为解释分析、运动规划和控制,从而进一步缩小了自动驾驶和人类思维过程之间的差距。为了提高模型性能,本文开发了首个为3D空间理解和长轴任务推理专门设计的视觉问答(VQA)驾驶指令数据集。大量实验表明,Sce2DriveX从场景理解到端到端驾驶均实现了最先进的性能,并且在CARLA Bench2Drive基准上实现了鲁棒的泛化性。

图片

主要贡献

图片

本文的主要贡献总结如下:

1)本文提出了Sce2DriveX,这是类人的CoT推理MLLM框架,旨在实现从多视图远距离场景理解到行为分析、运动规划和车辆控制驾驶过程的渐进推理学习;

2)本文构建了首个用于3D空间理解和长轴任务推理的综合VQA驾驶指令数据集,并且引入了一个面向任务的三阶段训练过程,以提高Sce2DriveX的感知推理能力;







请到「今天看啥」查看全文