24年11月来自谷歌DeepMind、UPenn和斯坦福的论文“Vision Language Models are In-Context Value Learners”。
根据视觉轨迹预测时间进度对于能够学习、适应和改进的智能机器人来说非常重要。然而,在不同任务和领域中学习这种进度估计器或时域价值函数,需要大量多样化的数据和可规模化和泛化的方法。为了应对这些挑战,生成价值学习 (GVL),一种通用价值函数估计器,利用视觉语言模型 (VLM) 中嵌入的世界知识来预测任务进度。由于连续帧之间存在很强的时域相关性,天真地要求 VLM 预测视频序列值,效果不佳。相反,GVL 将价值估计作为对混洗视频帧的时间排序问题;这个看似更具挑战性的任务鼓励 VLM 更充分地利用其底层语义和时间基础能力,根据感知的任务进度区分帧,从而产生明显更好的价值预测。无需任何机器人或特定任务的训练,GVL 便可以针对各种机器人平台,针对 300 多个不同的真实世界任务(包括具有挑战性的双手操作任务)进行上下文零样本和少样本预测有效值。此外,GVL 允许通过来自异构任务和具身(例如人类视频)的示例进行灵活的多模态上下文学习。GVL 的通用性使与视觉运动策略学习相关的各种下游应用成为可能,包括数据集过滤、成功检测和优势加权回归 - 所有这些都无需任何模型训练或微调。
如图所示:GVL 可以有效地零样本和少样本预测多样化和具有挑战性现实任务的任务进度;这些功能支持广泛的下游应用,包括数据集过滤、成功检测和策略学习。
根据视觉轨迹预测时间进展是与物理世界交互具身智体的一项重要任务。具有可泛化进度估计能力的机器人,原则上可以辨别出可取和不可取的行为,从而在新环境中学习视觉运动技能。这在强化学习文献 [51] 中研究得最频繁,其中进度估计相当于在特定奖励函数选择下进行普适价值学习。然而,普适价值估计面临着许多关键挑战:(1)广泛泛化到新任务和场景,(2)准确估计部分观察环境中状态的能力,以及(3)长范围的时域一致性(即满足贝尔曼方程)。大多数现有的方法都是在相对少量的视觉数据上训练的 [8, 40, 1],缺乏在视频时空流形中确定任务进展所需的语义、空间和时间理解,从而阻碍了泛化。此外,它们通常对单个帧进行推理,在部分观察的环境中引起高度的不确定性,这反过来会影响对估计不佳的状态预测一致性。然而,这些挑战并非不可克服:现代视觉语言模型 (VLM) 表现出显著的泛化和推理能力,可能使其可用于价值估计。
虽然 VLM 通常不被视为价值估计的候选者,但它在上述核心挑战方面表现出色。首先,最先进的 VLM 在各种视觉任务中表现出强大的空间推理和时间理解能力 [44、9、25、21],使它们能够泛化到新场景。其次,基于大型 Transformer 的 VLM 具有必要的上下文窗 [22],可以推理大量历史信息,以便在预测任务进度时准确估计观察序列的状态。最后,VLM 以自回归的方式进行预测,这意味着它们将自己的输出作为后续预测的输入,对长范围生成施加一致性约束。例如,如果 VLM 在上下文中已经有 50% 的完成预测,则它不太可能估计任务已完成 50%。然而,如何使用 VLM 来预测价值尚不清楚。从经验上看,简单地将视频放在上下文中并提示模型返回每帧的进度预测是失败的——连续帧之间的强时域相关性通常导致 VLM 产生无信息的单调值,而忽略了轨迹的实际质量和帧之间的差异——需要采用不同的方法。
奖励和价值基础模型。有几项研究尝试从各种数据中学习可迁移的奖励和价值函数。早期研究使用机器人 [52] 甚至人类视频与鉴别器 [8]、对比学习 [3] 或离线 RL [40、41、4] 来指导操作任务。随着近期语言和视觉基础模型的出现,有几项研究将它们集成到各种机器人应用中,如语义规划 [1、27、56、70、14]、模仿学习 [6、57] 和符号编程 [58、36、56、63、26、39、55、14、38、67]。LLM 和 VLM 已被用作奖励模型。Kwon [34]、Mahmoudieh [43] 使用语言模型为 RL 智体提供奖励值,而 Klissarov [32]、Wang [64]、Kwon [34] 使用它们来提供偏好反馈。Ma [42]、Yu [69]、Xie [66] 甚至使用 LLM 生成代码。这些作品只使用了基础模型的语言功能。最近的工作直接将 VLM 用作零样本奖励模型 [50] 或成功检测器 [15, 23]。至关重要的是,在这些方法中,VLM 仅充当预测成功的(通常是稀疏的)奖励函数,而不是预测任务进度的价值函数。虽然有些方法使用了思维链(CoT)提示 [61] 或主动学习 [33],但它们通常不利用最先进的 VLM 的自回归、长上下文或上下文学习能力。因此,他们通常只在简单和模拟任务上评估奖励预测。
机器人的上下文学习。上下文学习已在机器人学习文献中得到探索,主要侧重于动作生成 [16、19、11、68、13、37、20]。然而,所有这些先前的研究都需要对机器人任务进行明确的、通常是广泛的训练,才能实现上下文学习能力,而且泛化只能在狭窄的任务分布上实现。相比之下,视觉价值估计已经从预训练的 VLM 中获得了灵活的多模态上下文学习,而无需任何特定于机器人的微调。
如图所示:生成价值学习 (GVL) 通过自回归预测混洗帧上的任务完成比率来生成价值,实现上下文价值学习。
将机器人任务建模为目标条件下的部分观察马尔可夫决策过程 (POMDP)[48]:M (𝜙) := (𝑂, 𝐴, 𝑅, 𝑃, 𝑇𝜇, 𝐺),其中观察空间𝑂、动作空间𝐴、奖励函数𝑅、转换函数𝑃、任务范围𝑇、初始状态分布𝜇(𝑜) 和在语义上指定任务的目标空间𝐺。以任务 𝑔 为条件,智体 𝜋 : 𝑂 → 𝐴 旨在最大化其价值函数,即任务范围内的预期累积奖励,𝑉^𝜋(𝑜/1;𝑔) = 𝔼𝜇,𝜋,𝑃 [𝑟(𝑜/1;𝑔) + ··· + 𝑟(𝑜/T;𝑔)]。然而,由于机器人应用的异质性,奖励和价值函数可能难以定义。鉴于此,一个流行的普遍价值概念是任务进度 [52, 53, 18, 60, 35]。这种时域价值函数,将观察和目标规范映射到 0 到 1 之间的实数:𝑉 : O × G → [0, 1],其中环境的初始观察值为 0,而满足目标的观察值为 1。根据此定义,专家轨迹 𝜏 = (𝑜/1, . . . , 𝑜/T) ∼ 𝜋/E 具有价值函数 𝑉^𝜋/𝐸 (𝑜/t; 𝑔) = 𝑡/T。这项工作的目标是获得这样一个时域价值函数 V,可以预测视频的每一帧 𝑜/1,...,𝑜/T 的任务进度𝑣/1,...𝑣/T。
虽然试图利用大基础模型中的先验知识,但仅使用视频帧提示一个 VLM,无法产生有意义的估计。为了使 VLM 适合价值预测,构成 GVL 方法的三个关键组件有:1) 自回归价值预测,2) 输入观察混洗,以及 3) 上下文价值学习。
自回归价值预测
当价值函数参数化为前馈神经网络时,这通常通过最小化bellman方程的均方误差来实现。由于同一轨迹内不同观测的价值通过bellman方程相关联,因此即使仅使用单个观测值进行查询,所得价值函数仍保持一致。另一方面,VLM 本身并未使用任何一致性目标进行训练。因此,如果使用来自同一轨迹的不同观测值独立查询 VLM,则可能会产生不一致的价值。本文见解是,提供整个轨迹作为输入而不是仅提供单个观测值,可以为 VLM 提供更大的机会来生成自洽价值估计。具体来说,给定任务 𝑙/task 的语言描述,要求 VLM 以整个视频作为上下文自动回归生成价值,简记为 𝑣/1, . . . , 𝑣/T = VLM(𝑜/1, . . . , 𝑜/T; 𝑙/task)。这种简单的机制允许 VLM 在进行下一个价值预测时关注所有先前的预测和帧,从而使其能够在长视界序列上产生全局一致的估计,而无需像经典前馈价值函数那样进行训练。虽然这种设计选择使 VLM 能够产生一致的价值,但它并不要求这些价值有意义。以这种方式天真地提示 VLM 往往会为每个视频产生线性、单调的价值函数,而不管其最优性如何。
输入观察混洗
通过实证研究发现,当呈现按时间顺序排列的帧序列时,VLM 会发现输出单调递增价值的捷径解决方案,而这通常会忽略任务描述或轨迹的实际质量。一种假设是,由于 VLM 是在有序的视频帧上进行训练以进行字幕和问答,因此时间顺序本身是与价值预测无关的下游任务线索。因此,模型幼稚的提示,会导致不忠实的低质量价值预测。为了打破这种时间偏差,建议随机打乱输入帧。通过这种方式,GVL 迫使 VLM 关注每个单独的帧并使用上下文中提供的所有信息输出忠实的价值预测。
然而,不能对每一帧都进行混洗。如果这样做,那么原始视频中的时间箭头可能会不明确——也就是说,在许多情况下,反向视频在物理上也是合理的,这使得无法预测真实顺序。因此,根据第一个输入帧来调整 VLM,允许它使用第一个观察值作为所有其他混洗帧的锚点。
上下文价值学习
虽然自回归预测和混洗足以获得良好的性能,但 GVL 可以利用 VLM 的吸引人特性,从而获得更好的性能。值得注意的是,大模型通常表现出上下文学习,只需提供示例即可学习任务 [7]。这使得上下文价值学习变得灵活且多功能,GVL 的预测可以通过在测试时提供示例来稳步改进,而无需任何模型微调。具体来说,可以简单地将混洗后的视频及其基本任务进度作为上下文示例添加在前面,通过少样本学习提高价值预测质量。
GVL 受益于灵活的上下文示例形式,包括来自不相关任务甚至人类的视频。尽管 GVL 零样本已经在广泛的任务和机器人中有效,但上下文学习仍然可以在最困难的双手灵巧任务上实现显着改进。
实际实施
为了在实践中预测时域价值函数,GVL 要求 VLM 输出 0 到 100 之间的整数值百分比数。鉴于现实世界的机器人视频数据集的长度不同且以不同的频率拍摄,对所有视频进行子采样,以便输入序列中有 30 帧,确保跨数据集的可比结果。
首先,考虑 Open X-Embodiment (OXE) 数据集 [45]。它是来自 50 个独立学术机器人数据集的轨迹数据集合,包含各种任务、机器人和摄像机视点。对于这 50 个数据集中的每一个,随机抽样 20 条轨迹,并在每个采样轨迹上评估 GVL 零样本。请注意,并非所有 OXE 数据集都具有语言任务注释,因此当未提供文本注释时,使用轨迹的最后一帧作为目标规范。为了更好地将 GVL 的价值预测质量上下文化,将其与最先进的多模态价值模型 LIV [41] 进行比较,LIV 是一种对比视觉语言模型 [49],使用人类视频的价值学习目标进行微调,用于野外价值估计。LIV 通过计算输入观察与目标图像或任务描述的嵌入之间嵌入距离来预测输入观察的时域价值。
OXE 数据集主要关注较简单、短期单臂任务。为了进一步对 GVL 进行压力测试,在双手 ALOHA 系统上对 250 个不同的家庭桌面任务的新多样化数据集进行评估 [71, 2]。该数据集包括极具挑战性的长期技能,例如从 NIST 板上顺序取下三个齿轮、将裙子折成八分之一折、将 T 恤挂在衣架上。对于每个任务,根据 2 个人类遥控演示进行评估,以评估 GVL 零样本。
如图所示用于成功检测和过滤模仿学习实验的六个模拟任务。对于每个任务,用 VR 远程操作收集 500 条轨迹以进行初始策略训练。在策略收敛后,将最后一个检查点推出 1000 个 imtes,从而产生自然平衡的混合质量数据集,其中成功轨迹约占一半,失败轨迹约占一半。
在 ALOHA 设置中,用四个摄像机视点收集所有演示。除了自上而下的视图之外,还测试了 GVL 在使用其他视点时是否仍然保持高性能,尤其是夹持器视图,这些视图可能与用于 VLM 训练的自然图像分布不均。如图显示了汇总的零样本和单样本结果。平均而言,GVL 零样本在桌面视点上效果最佳。这并不奇怪,因为使用前置桌面摄像机拍摄的图像在视觉上可能更接近用于 VLM 训练的自然捕获图像。然而,通过上下文示例,GVL 在所有摄像机视点上都不断改进。在实践中,这意味着 GVL 对摄像机视点具有鲁棒性 - 即使事后确定摄像机视点不是最优的,从业者也可以通过提供一些上下文示例来弥补这一点。