面向端到端自动驾驶的视觉语言模型研究｜上海AI Lab青年研究员司马崇昊GADS演讲预告

智能车情报局 · 公众号 · · 2025-01-13 12:28

正文

2025年1月14日，第四届全球自动驾驶峰会 将在北京中关村国家自主创新示范区展示交易中心-会议中心举行。经过三年的发展，全球自动驾驶峰会已经成长为国内自动驾驶领域最具影响力、规模最大的产业峰会之一。

本次峰会由智一科技旗下 智猩猩、车东西 共同发起，以“技术新周期产业新征程”为主题，全方位呈现自动驾驶端到端新周期里的科研成果、技术探索、产品方案创新与未来趋势。

峰会由 主会场+分会场+展区 组成，主会场将进行开幕式、端到端自动驾驶创新论坛和城市NOA专题论坛，分会场将进行自动驾驶视觉语言模型技术研讨会、自动驾驶世界模型技术研讨会。其中，分会场的两场技术研讨会为闭门会议，主要向持有 峰会通票或贵宾票 的用户开放。

在分会场上午进行的自动驾驶视觉语言模型技术研讨会上，上海人工智能实验室青年研究员、香港大学博士生司马崇昊

将带来报告，主题为《面向端到端自动驾驶的视觉语言模型研究

》。

嘉宾介绍

司马崇昊，上海人工智能实验室青年研究员，香港大学博士生，以第一作者/共同一作身份共在 NeurIPS，CVPR，ICCV，ECCV，PAMI等顶会顶刊发表论文10余篇。他合作的端到端自动驾驶项目 UniAD 获得IEEE CVPR 2023最佳论文奖，BEVFormer 获得2022年百强影响力人工智能论文榜单，CVPR 2023杰出审稿人荣誉，主导的项目 PersFormer 和DriveLM分别获得2022/2024年ECCV口头报告论文荣誉，论文总引用量2400+，GitHub star总数4000+。研究兴趣主要为三维感知，多模态模型与端到端自动驾驶。个人主页：https://github.com/ChonghaoSima。

报告概要

我们探讨了如何将基于海量网络数据训练的视觉—语言模型（Vision-Language Models, VLMs）与端到端驾驶系统相结合，以增强其泛化能力并实现与人类用户的交互。虽然近期有研究尝试通过单轮视觉问答（Visual Question Answering, VQA）将VLMs适配于驾驶场景，但在实际驾驶中，人类驾驶员往往需要多步推理。人类在决策前，通常先定位关键目标，再评估对象之间的相互作用，最终选择具体行动。我们提出了一项名为Graph VQA的新任务，旨在通过感知、预测以及规划三大环节相互关联的问答对，来建模图结构的推理过程。我们发现，该任务可以作为模仿人类多步推理过程的有效代理任务，从而为端到端自动驾驶系统注入与人类类似的可解释、多阶段决策能力。