24年6月来自伯克利分校的论文“LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning”。
指令调优的大型多模态模型 (LMM) 已成功完成多项任务,包括图像字幕和视觉问答;然而,如何利用这些模型对机器人技术来说仍然是一个悬而未决的问题。之前用于机器人应用的 LMM, 已在语言和动作数据上进行了广泛的训练,但它们在不同环境中的泛化能力往往不尽如人意。为了解决这个问题,机器人视觉和动作的大语言模型(
LLARVA)
,一种使用指令调优方法训练的模型,利用结构化提示,统一一系列机器人学习任务、场景和环境。此外,预测中间二维表示(称之为视觉轨迹)有助于进一步协调机器人学习的视觉和动作空间。从 Open X-Embodiment 数据集生成 8.5M 个图像-视觉轨迹对,以便对模型进行预训练,并在 RLBench 模拟器以及物理 Franka Emika Panda 7-DoF 机器人中对 12 个不同的任务进行评估。
如图所示LLARVA 概述:
视觉轨迹在视觉动作指导方法中起着关键作用。
选择 2-D 轨迹,是为了与 OXE 等基于图像的大型机器人数据集的高可用性相匹配,但该方法也可以用 3-D 数据实现。
为了实现视觉输入和机器人动作之间的对齐,将预测视觉轨迹作为辅助任务,因为这有助于获得更好的细粒度定位,从而更准确地预测机器人动作。
将 2-D 视觉轨迹定义为二维空间中的坐标序列 (x, y),它与时间步骤 t 的输入图像 o/t 对齐。这些坐标表示夹持器(或末端执行器、手等)在整个过程中的轨迹。
语言模型解码器对于将多模态输入转换为机器人中的可操作输出至关重要。通过利用共享的视觉-动作嵌入空间,解码器可以产生机器人系统可以使用的响应。
LLARVA 架构的输入包括两个部分。首先,有视觉观察 o/t,即在时间步 t 处捕捉环境状态的图像。其次,有语言指令输入 l/t,它提示模型预测指定数量的后续步骤,整合具体信息,例如机器人、控制模式和之前的本体感受状态以及任务指令。具体来说,制定一个指令模板,其中包含机器人类型 R(例如,Franka、UR5、xArm)、控制模式 M(例如,关节或末端执行器控制、绝对或增量控制)、任务指令 I(例如,“打开抽屉”)、本体感受信息 S(例如,位置或速度),以及指示要预测的未来动作数量的查询,表示为 n。
为了开发一个多功能且自适应的框架,能够适应具有不同时间范围的任务的训练,本文为本体感受信息输入增加灵活性。具体来说,此信息的结构为 S = s/t−h:t,表示过去关节和/或夹持器状态的序列。这里,h 是模型所依赖的先前时间步骤的数量,并根据任务决定。这种方法可确保在一系列任务持续时间内具有鲁棒性和适应性,从而能够有效地训练短期和长期目标。
工作的目标是开发一个能够预测机器人动作的模型,该模型在各种机器人任务、场景和环境中表现出泛化能力。模型架构如图所示。指令调优模型 π 旨在利用当前视觉观察 o/t 和伴随的语言指令 l/t 作为输入。随后,它预测接下来 n 个步骤 A/t:t+n−1 的动作序列和末端执行器 P/t:N 的未来 2-D 视觉轨迹,从当前步骤到该episode中的最后一步。
在提出的流水线中,输入图像经过冻结视觉编码器 v/φ(·) 的处理,该编码器提取视觉特征并通过 MLP 层 H 投射到潜空间中。这将视觉特征与语言tokens的维数对齐。同时,语言输入使用语言编码器进行token化。然后将视觉tokens 和单词 tokens 连接起来并输入到 LMM f/θ 的自回归transformer中,这些transformer经过训练以进行下一个 token 预测。
在保持视觉编码器和语言编码器冻结的同时,用指令调优来训练自回归transformer,在预训练和微调阶段均使用标准 LoRA 适配器 [11]。每个episode的每个图像 o/t 都伴随着语言指令 l/t,真实注释由机器人动作 Aˆ/t:t+n−1 和视觉轨迹 Pˆ/t:N 组成。接下来,给定 o/t 和 l/t,预测下一步动作和二维视觉轨迹。
为了计算损失,用具有这些概率的标准交叉熵函数。采用一种两步训练过程,即大规模预训练和下游任务的微调。
步骤 1:视觉-动作指令预训练。从一个已经在视觉-语言 (VL) 任务上进行过预训练的 LMM 开始。为了在机器人任务、场景和环境中进行推广,该模型在大规模视觉-动作指令数据集上进行预训练。由于该数据集的多样性,模型同时针对多种提示变量配置进行训练,例如机器人类型 R、控制模式 M 或任务指令 I。使用语言作为输入能够弥合这些不同配置带来的子集之间根本差距。这种广泛而多样的训练过程,可以建立一个强大的 LMM 框架,该框架可以进一步微调和适配以处理各种机器人设置。这个预训练阶段与标准 LMM 预训练不同。与在 VL 中使用投影器对齐两种模态不同,在这里对齐两种模态以推广机器人配置。
步骤 2:针对下游任务进行微调。与其他领域不同,由于现实世界物理特性的实际考虑,机器人模型必须在下游任务上进行微调,然后才能进行评估。因此,用一个小型数据集对预训练模型进行微调,该数据集具有固定配置(例如,指令具有相同的机器人类型 R、控制模式 M 等)。查看不同的数据样本后,模型可以轻松适应特定的下游设置,类似于它在预训练中已经遇到的情况。
为了预训练 LLARVA,从 Open X-Convention (OXE) 数据集 [10] 中生成 8.5M 个图像-视觉轨迹对。数据集包含来自 37 个 OXE 子集的多样化图像,这些子集涉及 13 种不同的机器人,包括各种各样的任务、环境、摄像机(以及图像)和末端执行器等。对于一集中的每张图像,计算末端执行器的二维视觉轨迹 P/t:N。为此,用边框检测器 [12],该检测器专门针对 OXE 中每个不同的末端执行器进行训练。边框的中心点用于更简单的表示,步骤 t 的视觉轨迹就是从图像 t 到图像 N 的所有中心点有序列表。