专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
医学影像沙龙  ·  X线片提示颈椎病的五大标准 ·  2 天前  
第十一诊室  ·  这样的化妆品早就过期了,很多姑娘还在用! ·  3 天前  
学术经纬  ·  《自然-医学》:18年无癌!CAR-T治疗致 ... ·  5 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

自动评估大型视觉-语言模型对自动驾驶极端情况的处理

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-24 02:02

正文

24年4月大连理工、香港科技大学、香港中文大学和华为诺亚实验室的论文“Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases”。

大视觉-语言模型(LVLM)由于具有理解图像和视频的视觉推理能力,在自动驾驶领域受到了广泛关注,极大地推动了可解释的端到端自动驾驶的发展。然而,目前对LVLM的评估主要集中在常见场景下的多方面能力,缺乏自动驾驶环境下的可量化和自动化的评估,更不用说即使是最先进的自动驾驶感知系统很难处理的严峻极端路况。

本文提出CODA-LM,一种自动驾驶视觉语言基准,它为可解释的自动驾驶提供一个对 LVLM 的自动定量评估,包括一般感知、区域感知和驾驶建议。CODA-LM 利用文本来描述道路图像,利用纯文本大语言模型 (LLM),无需图像输入来评估 LVLM 在自动驾驶场景中的能力,这表明比 LVLM 评判更符合人类偏好。


如图所示,全面评估LVLM在三个任务和七个道路类别方面的表现。实验表明,几个开源 LVLM [12,26,42,45,46] 的性能与商业 LVLM [31,36] 非常接近,即使 GPT-4V 目前也不能很好地处理道路极端情况,这表明距离一个强大的LVLM驾驶智体还很远。

CODA-LM 包含 5,000 个真实驾驶场景,其中包含关键实体文本注释的28,000 个实例和 10,000 个极端情况目标文本,解决当前自动驾驶多模态数据集中在极端情况情况的显着差距。 影响自动驾驶决策的关键实体分为七个不同组,包括 车辆、弱势道路使用者(VRU)、交通标志、交通灯、交通锥、障碍物和其他(例如动物和交通岛)

CODA-LM涉及三个主要任务,包括 一般感知、区域感知和驾驶建议 。一般感知任务侧重于描述所有显着道路目标的存在并解释它们为什么会影响驾驶行为, 而区域感知任务致力于位置-觉察感知,在给定特定极端情况目标的边框情况下,LVLM 需要描述和解释其对自车的潜在影响。相反,驾驶建议任务旨在根据先前的感知结果提供最佳的驾驶建议。系统化的任务层次结构要求 LVLM 能够深入了解复杂的驾驶环境,从而对由 LVLM 提供支持的智能自动驾驶智体进行全面评估。

如下表是该数据集和其他比较:


对于前面的每个子任务,作者设计了具体的提示,指导 LVLM [31] 根据视觉信息生成文本预注释。首先构建一个全面的场景理解数据结构,并提示 LVLM 以 JSON 格式的文本进行响应,根据对驾驶的影响将目标分为七类。这些类别的每个目标都很详细解释了它们如何影响驾驶。在获得一般感知和区域感知的输出后,将它们与选定的 CODA 图像相结合,形成 LVLM 的复合上下文,生成驾驶建议。最后,要求人工标注者验证和修改所有三个任务的预注释。整体流程如图所示。


强大的LVLM可以作为裁判来评估LVLM,但这并不能满足期望。 一方面,由于LVLM的指令跟踪能力不理想,很难始终以所需的格式进行响应[3],从而影响了自动分析的可行性。 另一方面,它仍然缺乏多模态上下文学习能力,使得小样本评估在复杂多变的自动驾驶场景中不可省。

相反,采用强大的LLM作为评判标准,从多个维度衡量自动驾驶场景中的LVLM。为了评估LVLM,将图像和相应的问题(即一般感知、区域感知和驾驶建议)输入LVLM并收集他们的回答。通过少样本上下文学习,查询强大的LLM根据参考答案对模型回答进行评分,单个评分范围为1到10,以及整个评估的平均分定为最终得分。LLM裁判的评价比LVLM更符合人类的偏好。

在少样本ICL对一般和区域感知进行评估时,采用三个评估标准,包括准确性、幻觉惩罚和一致性。准确度是指 LVLM 感知自动驾驶环境的准确性,而现有的 LVLM 表现出严重的幻觉现象(例如,感知的不存在目标或由于偏差而导致错误识别),需要对其进行惩罚才能获得有效的分数。对于一般感知和区域感知,注释都包括相应目标对自动驾驶影响的描述和原因,一致性衡量原因是否合理。关于驾驶建议,同样采用少样本 ICL,但标准因难易程度而变化,变为响应的合理性、相关性、详细度。特别是对于驾驶建议,回复要求是具体且可操作,而不是模糊或过于宽泛。

默认情况下,采用强大的 LLM 裁判给出的 Text-Score [43] 作为三个任务的评估指标。然而,它无法区分不同LVLM的能力,可能是因为感知和驾驶建议的复杂性。

这项工作总共评估了 8 个 LVLM,包括开源模型和商业模型。商业模型包括Gemini-Pro[36]和GPT-4V[31],而开源模型根据参数大小分为7B和13B。7B 模型包括 InterLM-Xcomposser2-v1(简称 InternLM2-vl-7B)[42]、LLaVA1.5 [25]、MiniGPT-v2 [7] 和 Shikra [12],而 13B 模型包括 LLaVA1 .5 [25]、InfMLLM [45] 和 PureMM [37]。每个模型分别在三个任务上进行评估,全面分析其在自动驾驶极端情况下的性能。为了确保评估结果的可重复性,用相同的提示为所有评估的 LVLM 生成响应,并在推理过程中采用贪婪解码,这会在每个步骤中生成具有最高概率的下一个token作为输出,从而消除了过程中的随机性。采用强大的LLM作为评价裁判,温度系数设为0,固定随机种子,保证不同模型打分的一致性。为了更好地量化LVLM之间的差异,将原始分数标准化为1到100的范围,保留一位小数。

下表是一般感知和驾驶建议的性能比较:


在进行极端案例区域感知评估时,数据以简短句子的形式组织。







请到「今天看啥」查看全文