24年12月来自微软、悉尼大学和新加坡国立大学的论文“UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping”。
UniGraspTransformer,是一种基于 Transformer 的通用网络,用于灵巧的机器人抓取,可简化训练,同时增强可扩展性和性能。与之前的方法(例如 UniDexGrasp++)不同,UniGraspTransformer 需要复杂的多步训练流程,而 UniDexGrasp++ 则遵循简化的流程:首先,使用强化学习针对单个目标训练专用策略网络以生成成功的抓取轨迹;然后,将这些轨迹提炼为一个通用网络。其方法使 UniGraspTransformer 能够有效扩展,结合多达 12 个自注意模块来处理数千个具有不同姿势的目标。此外,它在基于状态和基于视觉的设置中进行评估后,可以很好地泛化到理想化和现实世界的输入。值得注意的是,UniGraspTransformer 为各种形状和方向的目标生成更广泛的抓取姿势,从而产生更多样化的抓取策略。实验结果表明,与最先进的 UniDexGrasp++ 相比,在各种目标类别中都有了显著的改进,在基于视觉的设置中,见过的目标、见过类别中的未见过目标和完全未见过目标的成功率分别提高了 3.5%、7.7% 和 10.1%。
该方法在多种目标类型上始终优于 UniDexGrasp++ [51],包括见过的目标、见过类别中的未见过目标和完全未见过目标,如图所示:
机器人抓取
。机器人抓取 [18, 20, 25, 59] 是机器人和计算机视觉领域的一项长期研究,旨在使机器人能够可靠且自适应地与目标交互。尽管基于夹持器的机器人抓取已经取得了重大进展 [3, 8, 26, 27, 54, 61],但夹持器结构的复杂性有限,限制了它们对有复杂几何形状目标的适应性。
灵巧抓取 [21, 24, 33, 34, 51, 53, 55, 56, 58] 引入了先进的多指操作,可以对各种形状的目标进行更灵活的抓取。然而,控制高度灵巧的多指系统对传统分析技术提出了重大挑战 [1, 23, 48, 53]。最近的进展利用基于学习的方法来实现有效的灵巧操作。一种方法将抓握过程分解为两个阶段:生成
静态抓握
姿势,然后通过轨迹规划或目标条件强化学习执行
动态抓握
[2, 5, 16, 22, 46, 57, 58, 60]。尽管具有多样性的潜力,但生成的静态抓握姿势通常未在动态环境中得到验证,这会对整体成功产生不利影响。或者,另一种方法直接通过人类或强化学习智体的
专家演示
来学习整个抓握过程 [19, 29, 30, 38, 40, 51, 52]。这些方法虽然有效,但通常涉及复杂的训练流程,并且由于演示数量有限和学生网络容量受限,当将单一策略应用于广泛的目标时,性能会下降。
为了克服这些限制,扩展后一种方法,提出一种流程,将在线强化学习与大型模型离线提炼相结合,简化训练,同时提高可扩展性和抓取性能。
策略蒸馏
。策略蒸馏 [6、7、12、15、35、39、41、42、49] 提供了一种有效的方法,可以将知识从高性能策略转移到单一的通用策略,从而促进模型的紧凑性和跨不同任务的泛化。
在机器人技术领域,最近的研究主要集中在将模仿学习和强化学习结合起来 [19、30、38、39、49、51],使学生能够从老师的演示中学习。这项研究通常遵循基于演示来源的两种主要方法。第一种方法直接在预先收集的人类演示上训练学生策略,例如遥控人类动作或录制的人类视频 [4, 10, 19, 30, 38, 43]。虽然有效,但收集大量演示的成本可能很高,特别是对于复杂任务,例如灵巧地抓取各种姿势的各种目标,这会限制学生的泛化能力。第二种方法使用通才-专才学习框架内的预训练策略生成演示 [11, 15, 31, 47, 51, 52, 58]。在这里,任务空间被划分为子任务,强化学习策略针对每个子任务进行专门化和训练。然后,这些策略被蒸馏为一个通用策略,从而增强智体在整个任务空间中进行泛化的能力。尽管取得了进展,但由于教师策略有限以及学生网络容量受限,单个网络在处理广泛目标时经常会出现性能下降的情况,难以捕捉整个任务空间的复杂性。
目标是训练一个强大的通用网络 UniGraspTransformer,使灵巧的五指机械手能够以不同的初始姿势抓住各种桌面目标。用 Isaac Gym 3.0 [28] 作为模拟器。
灵巧手。在实现中用 Shadow Hand [45],它的手指有 18 个主动自由度 (DOF)——拇指 5 个,小指 4 个,其余手指各 3 个——以及手腕处的额外 6 个 DOF。这使灵巧的手总共有 24 个主动 DOF。手腕的主动 DOF 通过力和扭矩控制,而手指的主动 DOF 通过关节角度管理。此外,除拇指外,每根手指都有一个不会直接控制的被动 DOF。
概述。如图所示,UniGraspTransformer 的训练过程包括三个主要阶段:1)专用策略网络训练,其中训练单独的强化学习 (RL) 策略网络,每个策略网络专用于各种初始姿势的单个目标;2)抓取轨迹生成,其中每个策略网络生成 M 条成功的抓取轨迹以供下游训练。每条轨迹都是一系列步骤,用于捕获有关环境的全面知识,包括机器人动作(例如手指关节角度)和目标状态(例如姿势和点云);3)UniGraspTransformer 训练,其中来自各种目标和初始姿势的所有成功抓取轨迹都用于在基于状态和基于视觉的设置中训练 UniGraspTransformer。这种监督训练过程使得 UniGraspTransformer 能够很好地推广到见过和未见过的目标。
训练集包含 3,200 个独特的桌面目标。对于每个目标,用 PPO [44] 作为强化学习优化算法,针对各种初始姿势训练专用策略网络。在训练期间,每个目标都会随机旋转以增强初始姿势多样性。训练完成后,每个策略网络都可以在各种姿势下成功抓取其对应的目标。
每个专用策略网络都能够在各种初始姿势下抓取指定目标,在 3,200 个训练目标中实现 94.1% 的平均成功率。对于每个目标,随机旋转它并使用其对应的策略网络生成成功的抓取轨迹。每个物体重复此过程 M(默认 M = 1000)次,产生包含 3,200 × M 条成功抓取轨迹的数据集 D。每个轨迹 T ={(S1,A1),...,(St,At),...,(ST,AT)},是步骤序列,其中 At 表示时间步 t 处的机器人动作(手指有 18 个活动 DOF,手腕有 6 个活动 DOF),St 表示本体感觉、之前动作、目标状态、手-目标距离、时间和目标点云的信息。然后使用数据集 D 以监督的方式训练 UniGraspTransformer。
训练目标是使用生成的轨迹数据集 D 来训练通用抓取网络 UniGraspTransformer,该网络能够抓取各种初始姿势的桌面目标。UniGraspTransformer 旨在推广到训练集中的见过目标以及见过或未见过类别中以前没见过的目标。
在两种设置下训练 UniGraspTransformer:(1) 基于状态的设置,其中目标点云非常准确,可以直接访问目标的位置和旋转;(2) 基于视觉的设置,其中使用安装在桌子顶部和边缘的五个摄像头估计和重建目标点云,目标的位置和旋转是估计的而不是直接获得的。这两种设置之间的主要区别在于获取目标点云的方法和 oracle 级目标状态的可用性。
下面用基于状态的设置来说明 UniGraspTransformer 的关键组件。
在基于视觉的设置中,用安装在桌子顶部和边框的五个摄像头来估计目标点云。估计的点云由两部分组成:1)部分目标点云和2)手点云。在实现中,分割并删除手点云,只留下部分目标点云。相反,在基于状态的设置中,目标点云是从目标网格中均匀采样的,是完整和准确的。这种差异对UniGraspTransformer的输入有如下影响:1)对于目标状态表示,用部分目标点云的中心作为目标位置,并对该部分云应用PCA来表示目标旋转;2)用部分目标点云来计算手-目标距离;3)重训练一个专用的目标编码器,称为V-Encoder,从部分目标点中提取特征。其他配置,如网络架构、损失函数和监督信号,保持不变。
对于基于状态的设置,训练一个 S-Encoder(如图所示),它将完整的目标点云编码为目标特征。相比之下,在基于视觉的设置中,只能访问部分目标点云。为了提取它们的特征,重新训练一个 V-Encoder,保持与 S-Encoder 相同的网络架构。关键的修改如下:1)输入由来自部分目标点云的 1,024 个采样点组成;2)应用蒸馏损失来正则化 V-Encoder 的潜特征,并由 S-Encoder 提取的相应完整目标点云的潜特征提供监督。训练后,V-Encoder 可以从部分目标点云中提取 128 维目标特征。
初始化
。用 Isaac Gym 3.0 [28] 构建模拟环境,每个环境包含一张桌子(棕色)、一个放在上面的物体(蓝色)、一只可控制的影子手(绿色)[45] 和五个周围的摄像头(黑色),如图所示。系统的原点定义为桌子的中心,所有物体最初都放在这里。影子手位于桌子中心上方 0.2 米处,目标位于桌子中心上方 0.3 米处。
对于项目中使用的每个目标,将其随机放置在桌子上并进行任意旋转,以生成一个包含 12K 个静态桌面姿势的数据集。该数据集分为三个子集用于特定目的:10K 个姿势用于专用策略训练,1K 个姿势用于离线轨迹生成,1K 个姿势用于评估。