24年11月来自Manifold Research、
Metarch.ai
、Georgia Tech和MIT的论文“Benchmarking Vision, Language, & Action Models On Robotic Learning Tasks”。
视觉-语言-动作 (VLA) 模型代表了开发通用机器人系统的一个有前途的方向,展示了将视觉理解、语言理解和动作生成结合起来的能力。然而,对这些模型在不同机器人任务中的系统评估仍然有限。这项工作提出一个用于评估 VLA 模型的综合评估框架和基准套件。在 Open-X-Embodiment 的 20 个不同数据集中,运行三种最先进的 VLM 和 VLA——GPT-4o、OpenVLA 和 JAT,并评估它们在各种操作任务中的表现。几个关键见解:(1) 当前的 VLA 模型在不同任务和机器人平台上的性能存在显著差异,其中 GPT-4o 通过复杂的提示工程表现出最一致的性能,(2) 所有模型都难以完成需要多步骤规划的复杂操作任务,(3) 模型性能对动作空间特征和环境因素特别敏感。
可泛化的机器人系统的开发仍然是机器学习和机器人技术面临的核心挑战。虽然最近的进展已使受控环境中的能力令人印象深刻,但学习的策略往往无法在其训练分布之外进行泛化。这种限制体现在多个维度上:模型难以对新的任务指令做出适当的反应 [4, 23]、处理目标位置和方向的变化 [3]、适应不断变化的光照条件或部分遮挡的场景 [6]、与以前没见过的目标交互,或在有干扰目标的情况下保持性能 [25, 22]。这种脆弱性对在不受约束的现实环境中部署学习机器人系统构成了重大障碍。
基础模型的同时进步,特别是在视觉和语言领域,为这些挑战提供了令人信服的可能解决方案。网络规模的训练使模型能够实现视觉识别 [15, 17]、关于目标-智体交互的复杂推理 [2, 8, 24]、代码生成 [5] 和多模态理解中的最新 功能。这些模型恰恰展现了传统机器人方法难以实现的强大泛化能力。这些模型所展示的语义推理、问题解决和视觉解释能力,对于开发能够在动态现实环境中执行各种任务的通用机器人具有巨大的价值。
这个方向与机器学习中关于统一神经序列模型优势的新兴趋势相一致。即使在数据、计算和模型规模的前沿,此类模型也继续显示出性能改进 [11, 10]。此外,历史趋势表明,能够有效利用计算的通用模型最终会取代专门的特定领域方法 [21]。统一序列模型提供了几个引人注目的优势:它们消除了对具有特定领域归纳偏差的手工制作策略架构的需求,可以通过序列序列化利用不同的训练数据,并随规模的扩大而表现出持续的改进。
然而,将这些模型应用于机器人技术仍然存在重大挑战。虽然基础模型通常是在网络上数十亿个 token 和图像上进行训练的,但短期内收集相当数量的机器人交互数据仍然不可行 [7, 13]。此外,将基础模型直接应用于机器人任务带来了根本性的技术挑战:这些模型擅长语义推理和高级理解,但机器人需要精确、扎实、低级的控制动作,例如笛卡尔末端执行器命令。最近的研究试图通过将语言模型 (LLM) 和视觉语言模型 (VLM) 整合到机器人系统中来弥补这一差距(Ahn,2022;Driess,2023;Vemprala,2023)。然而,许多这些方法将基础模型限制在高级规划上,有效地将它们用作复杂的状态机,将命令解析为原始动作,然后由无法利用基础模型中编码的丰富语义知识的单独低级控制器执行。
最近的研究探索使用预训练语言和视觉语言模型引导机器人表征 [19, 18, 12]。还探索了将这些模块应用于规划系统的组件 [8, 20]。一个有前途的方向是视觉-语言-动作模型 (VLA),它通常涉及通过预训练 [3]、协同训练 [22] 或微调 [14, 4, 16] 视觉条件语言模型来扩展不同类型的预训练机器人基础模型,以控制机器人的动作。这些模型已经显示出对新任务场景的显著迁移,这是朝着机器人和智体普遍有用的策略迈出令人信服的第一步。
随着这些模型的不断发展,迫切需要系统地评估它们在预期的多模态训练领域和分布外场景中的能力。
近年来,用于评估不同领域和能力的多模态模型基准测试层出不穷。相关工作的讨论分为三类:通用多模态基准测试、机器人专用基准测试和多模态语言模型评估。
通用多模态基准测试
。MultiBench 是首次系统性地评估不同领域多模态学习的尝试之一,涵盖医疗保健、机器人、情感计算和金融。MultiBench 强调评估模型性能多个方面的重要性,包括泛化、复杂性和鲁棒性。然而,虽然 MultiBench 涵盖了广泛的领域,但其机器人评估范围有限。MMMU 提供了另一个全面的基准测试,专注于大学-级的多模态理解。作者通过需要细致入微的感知和领域特定知识的专家级问题来评估工程和科学等技术学科的模型,但没有专门解决机器人控制任务。
多模态语言模型评估
。多模态评估的发展已从 VQA、OK-VQA、MSCOCO 和 GQA 等单任务基准发展到更全面的评估框架。最近的基准涵盖了各种功能,从基本的 OCR 到对抗鲁棒性和幻觉检测(例如 POPE 和 HaELM)。通过 LAMM、LVLM-eHub、SEED、MMBench 和 MM-Vet 等基准,出现了更全面的评估。MathVista 等专业基准专注于数学推理等特定领域,而 GAIA 则测试推理和多模态处理的基本能力。
机器人-专用基准
。机器人数据集的发展已在各个维度上表现出相当大的多样性,尤其是随着模仿学习和行为克隆 (BC) 的进步。虽然许多机器人基准专注于评估模型对新任务、功能或环境的适应性,但在模拟和现实世界环境中系统地评估不同 BC 模型方面仍然存在差距。COLOSSEUM 通过提供一个专注于机器人操作的系统评估框架来解决这一差距,评估 14 种不同环境扰动下的泛化能力。类似的努力包括 FactorWorld(研究 19 项任务中的 11 个变化因素)和 KitchenShift(评估厨房环境中 7 个变化因素的零样本泛化能力)。其他几个专门的机器人基准测试已经出现:RLBench 在模拟中提供了一套 100 个操作任务;RAVENS 专注于基于视觉的操作;FurnitureBench 为长期复杂操作提供了可重复的真实世界基准测试。LIBERO 为终身机器人学习中的知识转移提供了基准测试,而 FMB(功能操作基准测试)则强调跨复杂任务的可泛化机器人学习。最近的研究还引入了用于机器人文档操作的 DUDE 和用于程序生成的大规模具身 AI ProcTHOR。
本文工作在几个关键方面与这些先前的基准测试不同。首先,本文专注于评估模型处理和生成来自真实世界机器人轨迹(而不是模拟环境或静态视觉语言任务)的动作的能力。其次,通过利用 OpenX 数据集,本文评估了各种机器人平台和任务,从而更全面地了解了模型的能力。第三,本文评估框架专门衡量模型在不同动作空间和机器人形态上执行零样本泛化的能力,这是通用机器人系统的关键能力。
该评估框架利用 Open X-Embodiment 数据集 (OpenX),这是目前最大的真实机器人轨迹开源存储库。OpenX 代表了 21 家机构的重大合作努力,从 22 种不同的机器人实例中汇总了超过 100 万条真实机器人轨迹,从单臂操纵器到双手系统和四足机器人。该数据集的综合性,使其特别适合评估通用模型,因为它涵盖了各种操作和运动任务、环境条件和机器人配置。
该数据集采用强化学习数据集 (RLDS) 格式,将数据存储在序列化的 tfrecord 文件中。这种标准化格式有效地适应了机器人数据的异构性,处理不同机器人设置中的各种动作空间和输入模式。例如,该格式无缝集成来自具有不同传感器配置系统的数据,包括不同数量的 RGB 摄像头、深度传感器和点云生成器。
对于基准测试 0.1 版,利用 72 个可用 OpenX 数据集中的 53 个。报告 3 个模型的 20 个数据集结果,并提供 JAT 的全部 53 个数据集。选择此子集是为了确保全面覆盖不同的任务类型、实施方案和环境条件,同时保持数据质量和一致性。对于不包含预定义评估集的数据集,创建并提供新的评估分割,以确保对模型性能进行可靠的评估。这 53 个数据集的训练分割,包含大约 32 TB 的数据。
OpenX 数据集为评估框架提供了几个优势:
-
1. 规模和多样性:大量的轨迹和不同的机器人实施方案允许全面评估模型的泛化能力。
-
2. 现实世界相关性:由于数据集完全由真实机器人数据而非模拟交互组成,因此它更好地反映了物理机器人部署的挑战。
-
3. 标准化:一致的 RLDS 格式,有助于跨不同机器人平台和任务类型进行系统评估。
-
4. 跨领域评估:包含操作和运动任务,可以跨根本不同的机器人控制类型评估模型性能。
为了确保基准测试的质量和实用性,为 OpenX 数据集实施了系统的管理流程。此流程旨在最大限度地提高所包含数据的多样性和相关性,同时保持大规模评估的实际考虑。
提出的管理方法包括几个步骤。首先,对数据集的质量和可访问性进行了高层次的审查,结果排除了三个数据集:Austin BUDS、Austin Sailor 和 Stanford Kuka Multimodal。对于仅包含训练分割的数据集,根据用于数据收集的机器人平台进行了详细的比较分析。此分析考虑了多个特征:机器人模型和形态、夹持器规格、动作空间特征、传感器配置(RGB 摄像头、深度摄像头和腕戴式摄像头的数量和类型)、语言标注的存在、摄像头标定数据的可用性、本体感受信息的包含。
当多个数据集在同一机器人平台的所有这些特征上共享相同值时,只保留情节数较多的数据集。做出此决定是为了最大限度地减少冗余,同时最大限度地提高评估集的多样性。这种方法可确保每个包含的数据集都通过不同的机器人配置、传感器设置或任务规范为基准贡献独特的信息。
由于通过 TensorFlow 数据集 (TFDS) 构建器(这是 OpenX 的推荐数据加载机制)访问这些数据集存在技术限制,因此基准 0.1 版排除几个额外的数据集。随着底层基础设施的发展,这些兼容性问题将在基准的未来版本中得到解决。这种过程产生了一个在全面覆盖和实际考虑之间取得平衡的基准,确保包含的数据集提供有意义的评估场景,同时保持可管理的计算要求。
在评估中,重点关注三种最新的视觉-语言-动作 (VLA) 模型,它们代表了通用机器人学习的最新水平: