专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
EETOP  ·  经典资料:CMOS 模拟集成电路设计讲义 ·  17 小时前  
ZOL中关村在线  ·  算力狂飙,中国数字基座的生态竞合与产业跃迁 ·  昨天  
EETOP  ·  报名倒计时1周!FPGA直播:AMD ... ·  2 天前  
51好读  ›  专栏  ›  智驾实验室

ScVLM:提升语言模型对驾驶安全关键城市事件的理解,减少 VLMs 幻觉提升安全性 !

智驾实验室  · 公众号  ·  · 2024-12-12 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

准确识别、理解和描述驾驶安全关键事件(SCEs),包括碰撞和近碰撞事件,对于交通安全、自动驾驶系统以及先进驾驶员辅助系统的研究与应用至关重要。

由于SCEs是罕见的事件,大多数通用视觉语言模型(VLMs)并未充分训练以将SCE视频与叙述进行关联,这可能导致幻觉和关键安全特征的遗漏。

为了应对这些挑战,作者提出了一种混合方法ScVLM,它将监督学习和对比学习相结合,以提高VLMs对驾驶视频的理解和事件描述的合理性。

所提出的方法在第二战略公路研究计划自然驾驶研究数据集(包含8,600多个SCEs的公开可访问驾驶数据集,其中包含视频和SCE标注)上进行训练和评估。

结果表明,所提出的方法在生成上下文准确的事件描述方面具有优势,并可以减轻VLMs的幻觉。

1 Introduction

在自动驾驶领域,VLMs在感知、场景理解、决策以及适应新场景方面展现出强大的鲁棒性能力[1,2,3,4]。与驾驶安全相关,VLMs能够有效解释车辆周围的环境信息,并具备对交通事故和潜在风险因素的基础见解[2,4]。尽管取得了这些进步,VLMs在准确识别安全关键事件(SCEs)仍面临挑战,包括碰撞和近碰撞。此外,理解这些SCEs的性质,如与前车冲突,仍然是个未解之谜。这些信息对于评估驾驶安全至关重要。

图1说明了高级VLM(Video Large Language Model for Learning from All Modalities 2)在理解SCEs(严重事故场景)方面的能力。该模型在理解静态环境上下文中表现出色,包括天气条件和周围环境。然而,它在分析SCE的关键动态元素(如区分碰撞和正常驾驶场景,或识别冲突的性质(例如,与领先的车辆或停驶的车辆))方面仍有局限性。这些发现强调了在SCE视频中更有效地解释动态信息的模型的必要性。

观察到的 VideoLLAMA2 在SCE分析上的性能限制可归因于两个关键因素。实际场景中SCE的稀缺性导致了一般VLMs在建立SCE视频与相应叙事之间的联系方面缺乏足够的训练数据。相关训练例子的匮乏可能导致模型解释中出现幻觉,并遗漏关键的安全特性。此外,事件类型和冲突类型的抽象性对VLMs准确识别[8]带来了巨大挑战。

这项工作提出了一种新颖的混合方法,利用有监督学习、对比学习以及视觉语言模型(VLM)来驱动视频理解,特别关注SCEs。对于事件类型识别,包括碰撞、轮胎接触、即将发生碰撞和正常驾驶,由于其任务特定有效性,因此使用有监督学习技术。对于冲突类型识别,采用对比学习,利用具有丰富文本信息的标签的语义依赖性。为了解释周围环境上下文,利用VLM的准确识别视频中的具体物体能力。最后,将VLM从有监督和对比学习方法以及环境上下文中生成的预测相结合,以生成流畅的事件描述。

本研究的主要贡献是开发了一个准确的事件描述生成器,解决了VLMs中的幻觉问题。所提出的方法提高了这些元素的预测精度,从而引导VLM生成更准确的事件描述。

本文使用来自第二战略公路研究计划(SHRP 2)自然驾驶研究(NDS)的数据进行评估。SHRP 2 NDS是目前最大的公开可访问的NDS数据集,包含超过100万个小时连续驾驶数据[9]。SHRP 2 NDS数据包括来自多个摄像机、运动传感器、雷达和GPS的丰富的驾驶信息。

从连续驾驶数据中,专门进行了一项研究来识别SCEs(严重碰撞事件)和随机选择的正常驾驶 Baseline [9],包括四种不同的event类型:碰撞、轮胎接触、近碰撞和正常驾驶 Baseline 。SCEs经历了一个严格的数据标注过程,以提取冲突的性质。标注为SCEs提供了详细的冲突类型标签,涵盖了与前车冲突、单车冲突以及同向行驶中与其他车辆转向冲突等场景。这个丰富的数据集非常适合评估所提出的混合方法的有效性。

VLM用于驾驶场景理解 VLMs将视觉和语言处理相结合,以解释驾驶场景并辅助决策。DriveVLM采用推理模块进行场景描述和分析,通过提出将VLMs与传统自动驾驶 Pipeline 相结合的混合系统,解决空间推理和计算挑战[3]。DriveScenify利用先进的VLMs根据驾驶场景视频生成上下文相关的回应,旨在通过增强城市机动性和道路安全[10]。Shoman等人[2]提出了一种并行架构,将目标检测、跟踪和自然语言生成集成在一起,生成交通事件详细描述,从而通过全面事件分析提高交通安全。Jain等人[11]将VLMs与多传感器数据相结合,以增强对交通动力学和道路用户及基础设施之间互动的理解。

尽管在驾驶环境中进行通用场景理解的视觉语言模型(VLMs)研究取得了显著进展,但针对自主车辆安全性和可靠性提升至关重要的严重碰撞事件(SCEs)的特定关注度还相对较少。一些提及碰撞或交通事故的研究[2; 3; 4]并未对这些事件进行深入剖析。

监督学习和对比学习 监督学习和多模态对比学习是驱动视频场景分类任务两种流行的方法 。监督学习依赖于 one-hot 或图像编码的标签来训练模型 [17],而多模态对比学习,尤其是在视频-文本方式下,利用数据中不同模态之间的关系来学习有用的表示 [18]。在监督学习中,最先进和高效的方法如 SlowFast [19], Swin Transformer [20], 和 TimeSformer [21] 已被证明对于视频场景理解有效。

与此同时,在对比学习中,受到 CLIP [22] 的启发,显著的方法如 X-CLIP [23] 和 ActionCLIP [24] 在视频理解方面表现出色,尤其是在少样本任务中。X-CLIP 引入了一个轻量级的跨帧注意力机制,并提出了一个视频-自适应文本 Prompt 方案来处理视频-文本数据集 [23]。ActionCLIP 引入了文本和视觉 Adapter 来增强模型处理和理解文本和视频模态的能力 [24]。

3 VLM-based Driving SCE Analysis

为了生成对SCEs(严重碰撞风险事件)的全面且准确的描述,所提出的方法分为三个阶段,如图2所示。第一阶段采用监督学习方法分析正面视频,并分类四种事件类型 - 碰撞、轮胎刮擦、近碰撞和正常驾驶。在第二阶段,利用对比学习方法识别16种冲突类型,如与前车、停车车或后车的冲突。最后阶段将事件和冲突类型信息整合到VLM中,以生成事件的全景描述。

Supervised Learning for Event Type Classification

监督学习从视频中分类事件类型是一个1-of-N投票问题,如图3所示。这种模型将视频作为输入,通过视频编码器生成视频表示。表示随后由分类器处理以产生预测分数。模型通过最小化基于预测分数的交叉熵损失进行优化。形式上,给定输入视频 和来自预定义标签集合 的标签 ,i=1,2,...,N,监督学习方法通常训练一个模型来估计条件概率

监督学习方法采用视频编码器 ,用于提取视频数据表示。然后分类器将视频表示投影到具有标签维度的空间,从而获得预测得分:


随后,需要优化的损失被定义为预测分数与真实值之间的交叉熵损失:


真实的标签 被转换成数值表示或一个长度为 的全零向量,以指示其在整个标签集中的位置。在推理阶段,预测结果中得分最高的索引被认为是对应的类别。

Contrastive Learning for Conflict Type Classification

对比学习方法在图4中得到了说明。这种方法将视频-文本对作为输入。输入视频被输入到视频编码器中,以生成视频表示。同时,标签文本被输入到文本编码器中,以获得文本表示。对比学习方法计算视频和文本表示之间的相似度矩阵,并通过最小化这个相似度矩阵与 GT 视频-文本对矩阵之间的损失进行优化。

在对比学习中,视频分类任务被重新定义为预测 的概率,其中 代表原始标签文本, 表示相似度函数。随后,推理变成了匹配过程,具有最高相似度分数的标签文本是结果:


对比学习方法在一个双流框架中采用独立的编码器 分别处理视频和标签文本。视频编码器 从视频数据中提取空间-时间表示,而语言编码器 从标签文本中捕获表示。为了使匹配的视频和标签表示更接近,相似度分数使用余弦距离定义:


其中, 分别表示 的编码表示。随后,计算软max 归一化的视频到文本以及文本到视频的相似度分数:


真实的相似度分数分别表示为







请到「今天看啥」查看全文