专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

CoVLA:自动驾驶综合视觉-语言-动作数据集

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-24 00:41

正文

24年8月来自Turing公司、东京大学、筑波大学、庆应义塾大学的研究所和日本信息学研究所的论文“CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving”。

自动驾驶,特别是在复杂和意想不到的场景中导航,需要复杂的推理和规划能力。虽然多模态大语言模型 (MLLM) 为此提供了一条有希望的途径,但它们的用途主要限于理解复杂的环境背景或生成高级驾驶命令,很少有研究将其应用扩展到端到端路径规划。一个主要的研究瓶颈是缺乏涵盖视觉、语言和动作的大规模标注数据集。为了解决这个问题,建立 CoVLA(综合视觉-语言-动作)数据集,超过 80 小时的真实世界驾驶视频。该数据集利用一种基于自动数据处理和字幕生成流程的可扩展方法,生成准确的驾驶轨迹,并搭配驾驶环境和操作的详细自然语言描述。这种方法利用原始的车载传感器数据,使其在规模和标注丰富度方面超越现有数据集。使用 CoVLA,研究 MLLM 的驾驶能力,它可以处理各种驾驶场景中的视觉、语言和动作。结果表明模型在生成连贯的语言和动作输出方面非常出色,强调视觉-语言-动作 (VLA) 模型在自动驾驶领域的潜力。


自动驾驶技术面临的一个关键挑战,在于解决多样化和不可预测的驾驶环境的“长尾”问题 [35, 63]。自动驾驶汽车不仅必须应对常见场景,还要应对罕见和复杂的情况,这就需要多样化的世界知识和先进的推理能力 [20]。这就要求对环境有深入的理解,并且具备推理能力,这种推理能力不仅仅是识别物体,还要解释其行为并相应地规划行动。视觉-语言-动作 (VLA) 模型,通过将视觉感知与语言理解和行动规划无缝集成,已成为实现这一目标的一条有希望的途径。VLA 的最新进展,特别是在机器人技术 [4, 28, 40] 和自动驾驶 [45] 方面,展示了它们在实现更稳健、更智能的驾驶系统方面的潜力。

然而,将 VLA 模型应用于自动驾驶的一个主要障碍,是缺乏能够将视觉数据与语言描述和驾驶动作有效结合起来的大规模数据集。现有数据集往往在规模和全面标注方面存在不足,尤其是语言标注,这通常需要耗费大量的人工。这限制了能够处理现实世界驾驶复杂性稳健 VLA 模型的开发和评估。

本工作开发了多辆数据收集车辆,用于获取真实世界的驾驶数据,包括前置摄像头、控制器局域网 (CAN) 总线、全球导航卫星系统 (GNSS) 和惯性测量单元 (IMU) 的传感器数据,并将它们部署在日本东京各地。

  • • 数据收集期:6 个月(夏季至冬季),产生超过 1000 小时的原始数据

  • • 数据收集环境:东京及周边的各个地点(城市中心、复杂的高速公路立交桥、狭窄的住宅街道、道路蜿蜒的山区)、不同的天气条件(晴天、多云、下雨、大雨)和一天中的不同时间(白天、傍晚、夜间)

  • • 设备:前置摄像头(1928×1208 像素、20 FPS、H.265 编解码器)、CAN 总线(加速器/制动踏板位置、方向盘角度、转向信号状态、档位、车速)、GNSS 和 IMU(带时间戳的二进制格式)、车载存储设备

从 1,000 多个小时的原始驾驶数据中精心挑选出几百个小时符合以下标准的数据:(1) 在车辆处于驾驶档时记录,(2) 最高速度不超过 100 公里/小时,(3) GNSS 数据持续可用。

为了强调驾驶场景的多样性,以与给定特征集的预计算经验分布成反比的权重对各个数据点进行采样。具体来说,选择转向角的最大绝对值、加速度的最大绝对值和转向信号作为要平衡的特征,对前两个特征分成多个bins。计算这些分类特征的经验联合分布。在应用平滑参数为 δ = 50 的加法平滑 [11] 后,在采样期间使用这些值的倒数作为概率权重。基于这些调整,选择 10,000 个不同的 30 秒场景,总共得到 6,000,000 个视频帧,相当于 83.3 小时的驾驶数据。

如图CoVLA 框架概述。CoVLA-Dataset,作为一个全面的自动驾驶数据集,包含 10,000 个独特的视频片段、描述驾驶场景的帧级语言字幕和未来的轨迹动作。另外 CoVLA-Agent,是一个基于 VLM 的路径规划模型,能够预测车辆的未来轨迹并提供其行为和推理的文本描述。


如图所示数据集生成流程概述。 自动标记视频帧和传感器信号以生成轨迹和其他标签。 此外,将自动字幕应用于视频帧以生成行为和推理字幕。


为了获取 VLA 模型将预测的未来轨迹数据,用 GNSS 和 IMU 传感器通过卡尔曼滤波器 [25] 估算车辆的行驶路径。 对于每个时间戳,注释接下来三秒(60 帧)的未来轨迹数据点。 轨迹数据以数据采集车辆为中心的全局坐标系表示。 在某些情况下,GNSS 数据不稳定偶尔会导致以明显振动为特征的错误轨迹。 实施一种启发式方法来识别并从数据集中删除这些不准确的轨迹。

交通信号灯是驾驶环境中最关键的物体之一,准确检测其状态为 VLA 模型的训练提供了强有力的支持。采用专为交通信号灯检测设计的深度学习模型(OpenLenda-s1)来注释数据。该模型不仅可以准确识别交通信号灯的颜色,还可以准确识别箭头信号的方向,从而全面了解每帧的交通信号灯信息。

此外,准确检测和跟踪领先车辆对于了解交通流量和预测潜在危险至关重要,这使其成为数据集的另一个重要元素。为了确保稳健性,采用传感器融合方法,结合雷达和前置摄像头的数据。数据集包括检测的领先车辆全面信息,包括其速度、加速度和相对于自车的位置。

字幕对于视觉-语言-动作数据集至关重要,但手动注释带来了重大挑战。人工注释成本高昂、耗时,并且字幕质量往往不一致。为了解决这些限制并确保可扩展性,本文开发了一种自动字幕方法。

基于规则的自然语言字幕是第一步。考虑车辆运动和检测物体的各个方面,包括速度、加速度、轨迹曲率、领先车辆存在和交通信号灯状态,为数据集中的每一帧生成全面的基于规则字幕。

虽然基于规则的字幕高效且具有成本效益,但它通常缺乏自然语言的丰富性,可能会忽略关键细节,例如特定标志或不常见的物体。为了增强字幕的表现力和信息量,用预训练的 VLM 来增强基于规则的字幕。虽然某些数据集(例如 OpenDV-2K [58])使用 BLIP-2 [30] 等模型进行单帧自动字幕制作,但这种方法无法捕捉驾驶场景中固有的关键时间信息。为了解决这一限制,使用预训练的 VideoLLaMA 2,这是一个大型视频语言模型,擅长时空建模,在视频问答和字幕任务中表现出色 [12]。

字幕制作器模型在 60 帧(三秒)窗口上运行,处理从输入视频中采样的八个代表性帧,包括窗口的第一帧和最后一帧。为了管理处理负载,每个 30 秒的场景被分成十个窗口。这种方法在整合基于规则和 VLM 生成的字幕后,产生了 100,000 个 VLM 生成的字幕和 6,000,000 个组合字幕。字幕生成在八个 NVIDIA H100 GPU 执行,整个过程在一天内完成,与手动注释相比节省了大量时间。

CoVLA-Dataset 通过无缝集成视觉、语言和动作模态而与其他数据集区分开来。这种集成是专注于从各种传感器同步获取真实世界数据的结果,并结合了自动标记和字幕流水线。这种全面的注释方法可以捕捉驾驶环境的所有相关方面,使其成为训练和评估自动驾驶系统的宝贵资源。

如表所示,CoVLA-Dataset 展示几个关键优势。用类似于 OpenDV-2K [58] 的自动标记和基于 MLLM 的自动字幕构建数据集。这种自动化方法对于构建大规模数据集至关重要,这是自动驾驶研究 [31] 的一个日益增长的趋势,并且能够开发比依赖手动标注数据集大得多的数据集。此外,数据集结合轨迹注释,这是 OpenDV-2K 等缺乏足够元数据的数据集所没有的功能,它来自 GPS 和 IMU 数据。







请到「今天看啥」查看全文