专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
中国能建  ·  1 +4!全国“安康杯”竞赛喜报 ·  昨天  
中国能建  ·  周小能:谱写高质量市场经营新篇章 ·  昨天  
中国能建  ·  正式入驻!中国能建B站首秀! ·  昨天  
中国能建  ·  这杯光伏咖啡,请细品…… ·  2 天前  
51好读  ›  专栏  ›  智能车情报局

面向端到端自动驾驶的视觉语言模型研究|上海AI Lab青年研究员司马崇昊GADS演讲预告

智能车情报局  · 公众号  ·  · 2025-01-13 12:28

正文


2025年1月14日,第四届全球自动驾驶峰会 将在北京中关村国家自主创新示范区展示交易中心-会议中心举行。经过三年的发展,全球自动驾驶峰会已经成长为国内自动驾驶领域最具影响力、规模最大的产业峰会之一。


本次峰会由智一科技旗下 智猩猩、车东西 共同发起,以“技术新周期 产业新征程”为主题,全方位呈现自动驾驶端到端新周期里的科研成果、技术探索、产品方案创新与未来趋势。


峰会由 主会场+分会场+展区 组成,主会场将进行开幕式、端到端自动驾驶创新论坛和城市NOA专题论坛,分会场将进行自动驾驶视觉语言模型技术研讨会、自动驾驶世界模型技术研讨会。其中,分会场的两场技术研讨会为闭门会议,主要向持有 峰会通票或贵宾票 的用户开放。


在分会场上午进行的自动驾驶视觉语言模型技术研讨会上, 上海人工智能实验室 青年研究员、香港大学博士生司马崇昊

将带来报告,主题为 《面向端到端自动驾驶的视觉语言模型研究


嘉宾介绍

司马崇昊,上海人工智能实验室青年研究员,香港大学博士生,以第一作者/共同一作身份共在 NeurIPS,CVPR,ICCV,ECCV,PAMI等顶会顶刊发表论文10余篇。他合作的端到端自动驾驶项目 UniAD 获得IEEE CVPR 2023最佳论文奖,BEVFormer 获得2022年百强影响力人工智能论文榜单,CVPR 2023杰出审稿人荣誉,主导的项目 PersFormer 和DriveLM分别获得2022/2024年ECCV口头报告论文荣誉,论文总引用量2400+,GitHub star总数4000+。研究兴趣主要为三维感知,多模态模型与端到端自动驾驶。个人主页:https://github.com/ChonghaoSima。


报告概要

我们探讨了如何将基于海量网络数据训练的视觉—语言模型(Vision-Language Models, VLMs)与端到端驾驶系统相结合,以增强其泛化能力并实现与人类用户的交互。虽然近期有研究尝试通过单轮视觉问答(Visual Question Answering, VQA)将VLMs适配于驾驶场景,但在实际驾驶中,人类驾驶员往往需要多步推理。人类在决策前,通常先定位关键目标,再评估对象之间的相互作用,最终选择具体行动。我们提出了一项名为Graph VQA的新任务,旨在通过感知、预测以及规划三大环节相互关联的问答对,来建模图结构的推理过程。我们发现,该任务可以作为模仿人类多步推理过程的有效代理任务,从而为端到端自动驾驶系统注入与人类类似的可解释、多阶段决策能力。


会议程








请到「今天看啥」查看全文