专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
相关文章推荐
91运营网  ·  91运营网vip会员早鸟票抢座ing!! ·  20 小时前  
91运营网  ·  视频号运营体系(2025版) ·  昨天  
运营研究社  ·  2025做小红书获客,怎么低成本高效拿线索? ·  2 天前  
运营研究社  ·  《运营总监实战手册3.0》包邮送,真香 ·  3 天前  
51好读  ›  专栏  ›  arXiv每日学术速递

清华+中国电信颠覆 RL 训练 | 视觉语言偏好VLP出世,免标注实现具身操作零样本泛化

arXiv每日学术速递  · 公众号  ·  · 2025-02-23 11:55

正文




导读

奖励工程是强化学习(RL)中的关键挑战之一。基于偏好的强化学习通过学习人类反馈有效地解决了这个问题。然而,收集人类偏好标签既耗时又昂贵。

在本文中,作者提出了一种新颖的视觉-语言偏好学习框架,命名为VLP,该框架学习一个视觉-语言偏好模型,为具身操作任务提供偏好反馈。为此,作者定义了三种类型的语言条件偏好,并构建了一个视觉-语言偏好数据集,其中包含无需人工标注的多样化隐式偏好顺序。偏好模型学习提取与语言相关的特征,然后作为偏好标注者在各种下游任务中发挥作用。策略可以通过奖励学习或直接策略优化根据标注的偏好进行学习。在模拟的具身操作任务上的大量实验结果表明,VLP提供了准确的偏好,并且能够泛化到未见过的任务和未见过的语言指令,显著优于 Baseline 方法。

1 引言

强化学习(RL)近年来取得了巨大成就,包括棋类游戏、自动驾驶和机器人操作。然而,应用RL算法的一个关键挑战是奖励工程。首先,设计一个准确的奖励函数需要大量的专家知识。其次,智能体可能会破解设计的奖励函数,在不完成任务的情况下获得高回报。此外,获取主观人类目标的奖励函数也很困难。

为了解决上述问题,许多研究利用专家演示进行模仿学习(IL)。然而,专家演示通常成本高昂,IL的性能受到演示质量的影响。另一类研究利用视觉-语言模型(VLMs)为下游策略学习提供多模态奖励。然而,这些工作中产生的奖励标签通常具有高方差和噪声。基于偏好的强化学习(RL)是另一种更有前景的方法,它从人类对轨迹对的偏好中学习。一方面,作者可以从偏好中学习一个奖励模型,然后根据奖励模型优化策略。另一方面,策略可以直接根据偏好进行优化。

然而,基于偏好的强化学习需要在线 Query 大量专家偏好标签或标注的离线偏好数据集,这相当耗时且成本高昂。随着大语言模型(LLMs)推理能力的显著提升,先前的方法提出使用LLMs/VLMs来提供偏好标签,但生成的标签的准确性无法保证,并且假设可以访问环境信息。

本文提出了一种名为VLP的新型视觉语言偏好对齐框架,用于根据语言指令为视频对提供偏好反馈。具体来说,作者从增强语言指令下的各种策略中收集了一个视频数据集,该数据集包含基于轨迹最优性和视觉语言对应关系的隐式偏好关系。然后,作者定义了语言条件下的偏好,并提出了一种新颖的视觉语言对齐架构来学习用于偏好标注的轨迹式偏好模型,该模型包括视频编码器、语言编码器和跨模态编码器,以促进视觉语言对齐。偏好模型通过数据集中隐含的任务内和任务间偏好进行优化。在推理阶段,VLP为目标任务提供偏好标签,甚至可以推广到未见过的任务和未见过的语言指令。作者提供了一种分析,表明在轻微条件下,学习到的偏好模型类似于段落的负后悔。VLP提供的偏好标签被用于各种下游偏好优化算法,以促进策略学习。

总之,作者的贡献如下:

  1. 1. 作者提出了一种新颖的视觉-语言偏好对齐框架,该框架学习一个视觉-语言偏好模型,为具身操作任务提供偏好反馈。
  2. 2. 作者提出了语言条件化偏好,并构建了一个包含带有语言指令和隐式语言条件化关系的视频的视觉-语言偏好数据集。
  3. 3. 在模拟的具身操作任务上的大量实证结果表明,VLP提供了准确的偏好,并且能够泛化到未见过的任务和未见过的语言指令,大幅优于 Baseline 方法。

2 背景

问题设置 。作者将强化学习问题表述为马尔可夫决策过程(MDP),表示为元组 ,其中 是状态空间, 是动作空间, 是转移函数, 是奖励函数, 是折扣因子, 是初始状态分布。在时间步 ,智能体根据策略 观察到状态 并选择动作 。然后,智能体从环境中获得奖励 ,并根据转移函数过渡到 。智能体的目标是找到一个策略,以最大化期望累积奖励 E 。在多任务设置中,对于任务 ,一个特定任务的MDP表示为

基于偏好的强化学习 。基于偏好的强化学习与强化学习不同之处在于,它假设无法访问真实奖励。在基于偏好的强化学习中,人类教师为轨迹对提供偏好标签,并从这些偏好中学习奖励模型。形式上,长度为 的轨迹段 表示为 ,段对为 。偏好标签 表示哪个段更受欢迎,其中 0 表示 更受欢迎(即 ,1 表示 更受欢迎(即 ,0.5 表示两个段同等受欢迎。之前的基于偏好的强化学习方法通过Bradley-Terry模型构建了一个具有奖励模型 的偏好预测器:

表示根据当前奖励模型 预测的 被偏好于 的概率。假设作者有一个带有偏好标签的数据集 ,奖励学习过程可以表示为一个分类问题,并使用交叉熵损失:

通过优化公式(2),奖励模型与人类偏好保持一致,为策略学习提供奖励信号。

3 方法

本节首先介绍了VLP的整体框架,包括模型架构和视觉-语言偏好数据集。接着,作者介绍了语言条件下的偏好以及视觉-语言偏好学习的详细算法,该算法通过视觉-语言偏好对齐学习轨迹式偏好模型。

3.1 模型与数据集

VLP的目标是学习一个通用的偏好模型,能够为新的具身任务提供偏好。为了实现这一目标,偏好模型接收视频和语言作为输入,其中视频作为 Agent 轨迹的通用表示,语言作为通用且灵活的指令。为了获得这两种模态的高质量表示,作者利用在大量图像-文本数据上预训练的CLIP作为作者的视频和语言编码器。提取的视频和语言特征被输入到跨模态Transformer中,以进行跨模态注意力交互,捕捉与语言相关的视频特征以及与视频相关的语言特征。这些特征随后被用于预测视觉-语言偏好学习中的偏好分数。整体框架如图2所示。

模型架构 。视频 被表示为一系列视频帧,即 ,其中 分别表示每个视频帧的高度和宽度,而 表示视频帧的数量。视频编码器用于获取视频 Token ,其中 是视觉 Token 的数量, 是CLIP ViT的 Patch 大小, 是视觉 Token 的维度。给定语言输入 ,通过语言编码器获得语言 Token ,其中 是语言 Token 的数量, 是语言 Token 的维度。

视频 Token 和语言 Token 被用于跨模态编码器,以促进多模态特征学习,使不同模态的 Token 能够完全融合。视频 Token 和语言 Token 分别输入到自注意力层。然后,利用输出视频 Token 作为 Query ,输出语言 Token 作为 Key和Value ,如图2(b)所示,跨注意力层生成与输入视频密切相关的语言特征。同样,跨注意力层产生与语言相关的视频特征。多模态 Token 沿第一维平均,然后连接为 ,其中 。这些新 Token 被输入到最终的多层感知器(MLP)进行视觉-语言偏好预测,输出轨迹 Level 的偏好分数。

视觉-语言偏好数据集。尽管存在带有语言指令的开源具身数据集,但缺乏一个用于泛化偏好学习的多模态偏好数据集。为此,作者构建了MTVLP,一个基于Meta-World的多任务视觉-语言偏好数据集。为此,作者考虑以下方面:

  1. 1. 应收集各种最优性水平的轨迹,以在每个任务中定义清晰的偏好关系;
  2. 2. 每个轨迹对都应伴随相应的语言指令,以学习语言条件下的偏好。

描述专家轨迹和随机轨迹的优化性是容易的,因为在这两种轨迹中理解 Agent 的行为较为直观。然而,在没有明确奖励的情况下定义中层次策略则具有挑战性。幸运的是,作者发现大多数机器人任务可以划分为多个阶段,每个阶段完成整体任务的一部分。因此,作者将中层次策略定义为成功完成任务一半的阶段。例如,作者将打开抽屉的任务划分为两个子任务:(i) 移动并抓取抽屉把手和(ii) 拉动抽屉把手。中层次策略仅完成第一个子任务。

作者为每个任务利用脚本策略推出三个优化 Level 的轨迹:专家级、中级和随机级。对于专家级轨迹,作者使用带有高斯噪声的脚本策略进行交互。中级轨迹也是使用脚本策略收集的,但当子任务完成一半时终止。至于随机级轨迹,在推出过程中从均匀分布中随机采样动作。对于相应的语言,作者通过将一个视频与多个类似的语言指令对齐,以改善VLP的一般化能力。作者 Query GPT-4V以生成包含各种动词结构示例和每个任务的同义词名词的语言指令。每个任务收集轨迹和语言指令的详细信息见附录C。

3.2 视觉-语言偏好对齐

语言条件下的偏好 。之前的RLHF方法根据单个任务目标定义轨迹偏好。然而,这种单模态方法由于其偏好定义的刚性,难以泛化到新任务。相比之下,通过将语言作为条件进行整合,作者可以建立更灵活的偏好定义。考虑两个视频 ,以及来自任务 的语言指令 ,还有另一个视频 与来自任务 的语言指令 配对。作者将语言条件下的偏好分为三种形式:任务内偏好(ITP)、跨语言偏好(ILP)和跨视频偏好(IVP),如表1所示。

ITP对应于同一任务内偏好关系的传统情况,其中视频和语言指令来自同一任务,偏好依赖于视频相对于任务目标的优化程度。ILP考虑的是语言指令与视频任务不同的场景。因此,在这种语言条件下,两个视频被同等偏好。IVP处理的是来自不同任务的两个视频的偏好,语言指令来自任一任务。定义偏好,即来自同一任务的视觉-语言对其他对更受偏好,是直接的。

本框架允许建立通用且可适应的偏好关系,其中同一任务的视频根据语言条件可以产生不同的偏好标签。值得注意的是,即使是与特定任务的语言指令随机配对的轨迹,也比来自其他任务的专家轨迹更受欢迎。

视觉-语言偏好学习 。在上述定义的语言条件偏好基础上,作者进一步介绍了作者的视觉-语言偏好学习算法。作者的目标是开发一个视觉-语言偏好模型,该模型能够在特定的语言条件下预测出被偏好的视频。然而,直接将两个视频和一个语言指令输入到模型中会影响计算效率。因此,作者考虑了从偏好标签学习的一种传统方法,即首先通过Bradley-Terry模型构建偏好预测器。先前的研究揭示了学习偏好模型相对于奖励模型的优点。基于这些见解,作者提出的偏好模型 以视频和语言指令作为输入,并输出一个标量偏好得分。然后,可以通过比较给定语言指令下两个视频的偏好得分来获得偏好标签,即 如果

给定代表 的视频 和代表 的视频 ,语言条件下的偏好分布 是在条件 被偏好于 的概率。

给定任务 ,作者考虑以下与语言条件偏好关系一致的目标:

(a)学习任务内偏好:在同一任务中,更符合 的视频应被优先选择,类似于之前的RLHF目标;

(b)学习跨语言偏好:在任务 的语言条件下,来自任务 的视频应同等偏好;

(c)学习跨视频偏好:在任务 的语言条件下,来自 的视频应优先于来自 的视频。

在视觉-语言偏好学习过程中,从所有训练任务中采样一个任务 ,然后采样一个迷你批次 IVP↑1:B。这里,上标 6 表示从迷你批次中采样自任务 的数据,而 表示来自其他任务的数据。 分别是ITP、ILP和IVP的 GT 标签。视觉-语言偏好学习的总损失如下:







请到「今天看啥」查看全文