专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
证券时报  ·  重磅提示!交易仅剩一天 ·  22 小时前  
中国证券报  ·  “停牌潮”!什么原因? ·  昨天  
中国证券报  ·  宇树科技,高薪求才 ·  昨天  
中国证券报  ·  凌晨爆发!中国资产全线大涨 ·  2 天前  
上海证券报  ·  茶饮巨头突变:暂停加盟申请 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

RT-Affordance:Affordance是机器人操作的多功能中间表示

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-31 00:02

正文

24年11月来自谷歌 DeepMind 和 TX Austin 的论文“RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation”。

探索中间策略表示如何通过提供如何执行操作任务的指导来促进泛化。现有的表示(例如语言、目标图像和轨迹草图)已被证明是有帮助的,但这些表示,要么没有提供足够的上下文,要么提供过度指定的上下文,从而产生不太稳健的策略。所谓基于affordance的条件策略,这些affordance可以捕捉机器人在任务关键阶段的姿态。affordance提供了富有表现力但轻量级的抽象,易于用户指定,并通过从大型互联网数据集传输知识来促进高效学习。 RT-Affordance 是一个分层模型,它首先根据任务语言提出 affordance 规划,然后根据此 affordance 规划条件化策略以执行操作。本文模型可以灵活地连接异构监督源,包括大型网络数据集和机器人轨迹。还在廉价收集的域内 affordance 图像上训练模型,能够学习新任务而无需收集任何额外的昂贵机器人轨迹。一系列新任务上展示 RT-Affordance ,比现有方法的性能高出 50% 以上,并且通过经验证明 affordance 对于新设置具有稳健性。

如图所示:通过affordance连接机器人和互联网数据。先前的工作已经展示了在机器人和网络数据集上进行联合训练的实用性。然而,机器人动作和网络内容在结构上仍然是脱节的。用 affordance 作为弥合这一差距的手段。关于affordance的推理需要语义和空间推理,这在 VQA 和空间推理任务(如物体检测)中是必需的。通过在机器人控制任务中明确加入affordance推理,可以更好地将这些网络数据集中的知识迁移到机器人控制任务中。



近年来,看到用于学习机器人策略的大型预训练模型的兴起。视觉-语言-动作 (VLA) 模型 [8, 32] 在视觉-语言模型 (VLM) [48] 的基础上使用大规模机器人数据进行预训练,有望推广到新的目标、场景和任务。然而,VLA 还不够可靠,无法部署在它们训练的狭窄实验室环境之外。虽然可以通过扩大机器人数据集的范围和多样性来缓解这些缺点,但这会耗费大量资源,并且难以扩展。

或者,有各种与策略交互的方式,可以通过提供有关如何执行操作任务的有用指导来潜在地促进泛化。这些策略表示的示例包括语言规范 [4, 53]、目标图像 [6]、目标草图 [45] 和轨迹草图 [22]。这些接口引入了中层抽象,使策略免于在高维输入空间中推理——从而产生可以在这些中间表示上泛化的策略。虽然最常见的策略表示之一是基于语言的条件,但实践中大多数机器人数据集都标有任务的未充分指定描述,而语言条件并不能提供足够的关于如何执行任务的指导。或者,基于目标图像的条件策略提供了关于场景最终目标配置的详细空间背景。然而,目标图像是高维的,由于过度指定问题,这带来了学习挑战 [40, 45]。此外,在评估时提供目标图像对人类用户来说很麻烦。这导致人们探索其他中间表示——轨迹或目标草图 [22, 45],或关键点 [19, 52]——试图为策略提供空间规划。虽然这些空间规划很有用,但它们仍然缺乏足够的信息供策略如何操作——例如拿起衣架时,抓手应采取什么姿势。

机器人操作的affordance 。affordance [2] 和抓握姿势预测在机器人运动规划、抓握和分层控制研究中得到了广泛利用。现代数据驱动方法 [35, 46] 建立在利用基于优化的方法的基础上,并在给定大规模抓握数据集 [18] 和点云 [34] 或基于几何归纳偏差 [17] 的情况下实现了高性能的抓握姿态预测能力。最近,机器人操作系统提出将视觉语言模型 (VLM) 与affordance或抓握预测模型和下游控制策略相结合 [16, 24, 25, 47]。

从非动作数据中学习预训练表示 。与扩大 VLM 规模的趋势类似 [49],机器人领域也在探索如何利用大规模互联网数据来提高感知和推理能力 [15],这对于下游机器人策略学习非常重要,尤其是使用视觉-语言-动作 (VLA) 模型 [8]。非机器人交互数据集尤其令人感兴趣,因为现实世界的机器人动作数据(如遥控专家演示)成本高昂 [31, 50];已经提出了从互联网数据和人类视频中学习affordance预测的表示学习方法 [13, 21] [3, 5, 41]。特别是 RoboPoint [52],它提出通过利用模拟中的程序化 3D 场景生成来微调 VLM 以预测表示空间affordance的点。

策略条件的中间表示 。先前的研究已经研究了如何根据各种类型的表示和界面来调节多任务机器人操作策略以执行不同的操作技能。流行的界面包括one-hot任务向量 [30]、潜技能或任务嵌入 [23、27、39]、模板化或自然语言 [9、28、36、42、53]、以目标为中心的表示 [19、29、43、44]、轨迹 [22、51]、目标图像或草图 [6、7、10-12、37、45] 和视频 [14、20、26]。

如图所示策略界面比较。对语言进行条件调节是直观的,但语言通常不能提供足够的指导:如何执行任务。目标图像和轨迹草图通常被过度指定,并带来学习挑战。本文提出对中间 affordance 表示进行条件调节的策略,这些表示是任务富有表现但紧凑的表示,使其易于指定和学习。



目标是实现一个中间策略接口,该接口 (1) 是广泛操作任务的富有表现且紧凑的表示,(2) 可以有效地桥接来自外部数据集的知识并促进泛化,以及 (3) 通过廉价的域内数据收集实现学习新任务。

提出 RT-Affordance (RT-A),这是一种分层策略,它首先通过affordance生成器提出affordance规划,然后通过affordance条件策略生成操作。如图所示模型概述。分层模型首先根据任务语言和任务的初始图像预测affordance规划。将affordance(原始文本形式的像素 xy 值)叠加到图像上,随后根据叠加affordance规划的图像调整策略。在网络数据集(最大的数据源)、机器人轨迹和少量标有affordance的廉价图像上共同训练模型。


affordance条件策略

给出一个机器人轨迹数据集 D = {l, {(o/i, e/i, g/i, a/i)}};每个轨迹由一个语言指令 l 和一个图像序列 o/i、动作 a/i、末端执行器姿势 e/i 和夹持器状态 g/i 组成。学习一个affordance条件策略 π(a | l, o, q),该策略根据语言指令 l、当前图像 o 以及 affordance规划 q 生成动作。将affordance规划定义为与轨迹中的关键时间步骤相对应的机器人末端执行器姿势序列,q = (e/t/1, e/t/2, ..., e/t/n)。这些时间步骤捕获任务执行中的关键阶段,例如当机器人即将接触物体或遇到瓶颈状态时。可以采用多种方法来提取这些时间步骤。在实践中,采用一种简单且可扩展的解决方案:当夹持器状态从打开变为关闭(g/i−1 > α 且 g/i < α,其中 α 为常数)或从关闭变为打开时,或者轨迹的最终时间步长时,会自动从本体感受数据中提取时间步长。这隐式地捕获与机器人接触、抓取、推动或放开目标时的任务阶段相对应的以目标为中心交互。

与先前研究 [8] 中对语言进行条件限制相比,RT-A 策略中的affordance规划揭示了有关如何操纵目标的精确空间信息。这些affordance规划不仅揭示了机器人末端执行器的位置,还揭示了方向,这对于细粒度操纵至关重要。然而,仅仅对affordance规划进行条件限制可能无法揭示有关任务的完整背景,因此选择同时对affordance规划和语言进行条件限制。这确保保留语言条件策略的完整表达能力,同时受益于affordance规划提供的额外背景。

通过行为克隆训练affordance条件策略,并在网络数据集上进行联合训练,方式与 RT-2 类似。可以将这些affordance表示,要么作为传递给策略输入的token化文本值,要么使用视觉运算符 ψ(o, q) 将它们叠加到图像上,这遵循了先前工作中的类似技术 [22, 38]。在实现中,将机器人手在姿势 e/i 下的轮廓以视觉方式投影到图像上。具体来说,给定 e/i,计算最左端执行器尖端、最右端指尖、末端执行器顶部和手臂的 3D 位置,并将这些点投影到 2D 图像上。将这些点连接起来以形成轮廓。有关说明,如上图所示。为叠加在图像上的每个affordance指定唯一的颜色以捕捉时间顺序。请注意,此投影步骤假设了解机器人相机的内外参,这对于许多机器人平台来说都是现成的。如果没有这些信息,可以选择直接将affordance规划作为token化的文本值来调节策略。







请到「今天看啥」查看全文