(本文素材源于论文2412.01791v1)机器人最重要但又最具挑战性的技能之一是灵巧抓取各种形状和属性的物体。然而,许多现有研究受限于速度、灵巧性或对深度图的依赖。在本文中,我们提出了DextrAH-RGB,一个从立体RGB输入实现端到端灵巧臂手抓取的系统。我们通过强化学习在仿真中训练了一种基于几何织物动作空间的教师策略(FGP),以确保系统的反应性和安全性。随后,我们将这一教师FGP蒸馏为基于立体RGB输入的学生FGP策略,并同样在仿真中完成训练。据我们所知,这是首次成功实现端到端RGB策略的稳健sim2real(从仿真到现实)转移,适用于复杂、动态且接触丰富的任务,如灵巧抓取。我们的策略能够推广到具有未知几何形状、纹理或光照条件的全新物体。有关我们的系统抓取多种未知物体的视频,请访问:https://dextrah-rgb.github.io/
图1:DextrAH-RGB(Dexterous Arm-Hand RGB)是一种端到端的基于RGB的策略,能够对各种各样的物体进行灵巧抓取。
I. 引言
准确控制多指机器人手以抓取物体一直是机器人学中的一项长期挑战。任何解决方案都必须能够泛化到新的物体类别,对环境变化具有鲁棒性,并使用在以人为中心的环境中适用于各种物体的传感器。这样的系统将有助于释放多指手臂系统的潜力,而这些系统目前仍难以开发通用策略,限制了它们在下游任务中的应用。
最近,在模拟中利用强化学习进行操作和移动方面取得了巨大进展。域随机化等工具使机器人学家能够成功地将模拟中训练的策略转移到现实世界。它使从业者能够轻松地扩展策略的数据收集,实现能够考虑本体感受和基于视觉输入的反应行为。
尽管取得了这些成功,使用这些工具开发的当前解决方案仍然有限。现有系统几乎总是将创建抓取策略的问题分解开来,避免训练直接的端到端 RGB 到动作的视觉运动策略。一种常见的方法是将问题视为寻找静态抓取配置的运动学问题。这些方法在中等物体上效果良好,但它们无法持续反应,并且在应对扰动或处理异常未见过的物体时难以纠正。其他通过模拟进行连续基于视觉的抓取的方法几乎总是限制于深度,因为大多数模拟器无法高效地大规模渲染高保真图像。这在处理半透明或透明物体以及红外相机产生的噪声时会导致问题。
为了解决这些挑战,我们提出了一种从 RGB 输入端到端执行灵巧臂手抓取的方法,称为 Dextrah-RGB。我们的主要贡献有:1)仅通过模拟训练基于 RGB 的 FGP(抓取生成策略);2)成功将我们的 RGB 策略部署到现实世界,实现了安全、可靠和反应迅速的抓取行为。
我们希望我们的方法不仅能作为一个有用的模块,还能作为一个系统,用于开发更复杂的技能,并作为更大规模像素到动作基础策略的数据源。
II. 相关工作
灵巧抓取已经被广泛研究,拥有丰富的前期工作历史。经典方法通常涉及优化解析抓取指标 [16, 5, 7]。这些工作通常仅限于合成精确抓取。它们还依赖于真实物体模型,当准确模型不可用时,其性能会下降 [13]。数据驱动的灵巧抓取方法涉及利用抓取数据集来训练抓取规划网络。这些数据集的一些例子包括 MultiDex [11]、DexGraspNet [27]、Grasp’D-1M [25] 和 Get a Grip [13]。许多过去的工作涉及基于点云/深度信息的抓取合成。这些方法不仅捕捉了物体的几何形状,而且与高保真 RGB 渲染相比,更容易在模拟中实现。UniDexGrasp 从完整的点云中学习灵巧抓取策略 [30],UniDexGrasp++ 通过引入几何感知课程改进了这一方法 [26]。这两项工作仅在模拟中展示了结果。DexRepNet [12] 学习了一种结合手和物体的空间几何特征的表示,并展示了成功的 sim2real 结果;然而,他们需要访问物体的 CAD 模型以注册点云进行姿态估计,从而限制了方法的泛化能力。DexPoint 能够展示其点云策略成功的 sim2real 转移。他们的关键观察是,在现实世界中部署时,由于遮挡,手指上通常会缺少许多点。他们利用机器人的本体状态对手进行前向运动学,并在手指的网格上采样各种点以填补缺失点,然后将这个组合点云输入到他们的策略中 [19]。Agarwal 等人 [1] 通过匹配 DINO-ViT 特征与物体的先前实例来预测一个预抓取姿态。然后,他们使用仅本体感知的策略执行动作以实现抓取。该策略预测不同本征抓取的权重,这些本征抓取是通过对从动作捕捉数据中收集的一组抓取姿态执行 PCA 计算得到的。Singh 等人通过在模拟中重建物体并将人类手动作重新定向到机器人手动作,在人类视频上预训练他们的策略 [22]。预训练后,他们能够通过在模拟中使用 PPO 微调来训练一个基于深度图像的策略,展示了令人印象深刻的 sim2real 结果。与我们工作最相似的工作是 DextrAH-G [14]。在这项工作中,他们使用学生-教师蒸馏框架训练一个基于状态的教师策略,从 Visual Dexterity [3] 数据集中拾取物体。为了实现更具功能性的抓取,他们将手的动作空间转换为通过重新定向人类抓取数据得到的机器人手指关节动作的 PCA 子空间。这个动作空间还被嵌入到几何结构中 [20] 以确保控制器的安全和反应性。然后,教师被蒸馏为基于深度的学生,并展示了显著的 sim2real 转移,能够抓取训练集中未见过的物体。
III. DEXTRAH-RGB
在本节中,我们详细介绍了基于RGB的策略的训练方法。为了确保机器人的安全性,我们使用了几何织物(geometric fabrics)。这也有助于暴露一个适合灵巧抓取任务的动作空间。我们首先在模拟中使用强化学习训练一个基于状态的教师织物引导策略(FGP)。然后,我们使用在线版本的DAgger将教师FGP蒸馏为学生FGP。关键是,学生不接收任何状态信息,而是接收来自立体配置的一组摄像头的两张RGB图像作为输入。这个学生策略完全基于模拟数据进行训练,并用于在现实世界中部署。
A. 几何织物与织物引导策略(FGPs)
几何织物是一个框架,推广了经典机械系统,用于设计安全、反应迅速且鲁棒的策略。它涉及指定一个人工二阶动力系统的期望行为,然后通过扭矩定律(例如关节级PD控制)将其连接起来,以在实际机器人上实现该行为 [29]。我们通过几何项和强制项的组合来表达这种行为。几何项用于指定策略的名义行为,关键是创建与速度无关的路径。这确保了无论机器人移动得多快或多慢,它仍然遵循相同的路径。另一方面,强制项用于扰动机器人,使其偏离名义行为,通常用于确保安全(例如关节限制)或由强化学习策略指导机器人完成期望任务。在可能的情况下,我们旨在将期望行为推入基础几何中,因为多个强制项可能相互冲突,导致期望行为的崩溃。就本工作的目的而言,我们使用了与DextrAH-G完全相同的几何织物和动作空间,因此我们简要概述了几何织物,并请读者参考 [14] 以获取深入细节。
表 I:我们的方法与以往工作的成功率比较。
碰撞避免行为嵌入在基础几何和强制织物中。大部分的碰撞避免由几何项强制执行,只有当两个物体接近碰撞时,强制项才会激活将它们推开。由于机器人的运动学冗余,我们添加了一个几何吸引项,名义上将机器人带到肘部外展、手指卷曲的配置。这保留在基础几何中,以确保来自强化学习策略的扰动不会被这个吸引器抵消。我们施加强制项以确保机器人保持在其关节位置限制内,因为这是一个安全关键的方面,不应受到扰动。强化学习策略的动作空间是手掌的六自由度姿态和手的简化五维PCA动作空间。我们创建了两个强制项,一个用于手掌姿态,另一个用于PCA手指空间。这些织物项及其相关的优先级指标,使我们能够求解织物加速度。然后,我们制定了一个二次规划,试图将机器人的加速度与织物系统的加速度匹配,同时尊重加速度和冲击限制。
B. 基于状态的教师 FGP 训练
我们在 NVIDIA Isaac Lab 中对 DextrAH-RGB 进行大规模的模拟训练,涵盖了许多不同的物体。由于强化学习(RL)的样本效率低,我们不会直接使用 PPO 从零开始训练基于 RGB 的策略。相反,我们首先训练一个接收特权状态信息的教师 FGP。然后,如第 III-C 节所述,我们将教师策略蒸馏为基于 RGB 的学生策略。教师 FGP 通过 PPO 使用与 [14] 中相同的超参数进行训练,具有等效的价值函数和策略网络,这些网络由两个 512 单元的多层感知器(MLP)层组成,后接一个 512 单元的长短期记忆(LSTM)层。在通过最终读出层之前,我们还在 LSTM 周围添加了跳跃连接。这些网络的输入包括测量到的机器人关节位置和速度、指尖和手掌点的位置和速度、物体姿态、物体位置目标、物体的一热编码、上一个 FGP 动作以及织物的位置、速度和加速度。
我们使用了一种较[14]更为简化的奖励函数,包含四个奖励项:驱动手靠近物体的奖励、将物体移动到自由空间目标位置的奖励、将物体从桌面抬起的奖励,以及防止手指过度弯曲的正则化惩罚。第一个奖励项基于dhand obj定义,dhand obj表示Allegro手(包括四个指尖位置和一个手掌位置)任意一点与物体之间的最大距离:dhand obj = maxi∈{palm pos,fingertips} ∥xi − xobj∥。相应的奖励项为rhand obj = exp(−10 dhand obj)。目标位置的奖励定义为robj goal = exp(−βobj goal ∥xobj − xgoal∥);抬升奖励定义为rlift = exp(−βlift (xobj z − xgoal z )²),其中z为垂直方向。最后,正则化奖励项用于防止手指过度弯曲:rcurl = −βcurl∥qhand − qcurl∥²,其中qcurl表示特定的手部姿态配置。所有β系数为正标量。最终的奖励函数是这些奖励项的加权和:r = whand obj rhand obj + wobj goal robj goal + wlift rlift + wcurl rcurl。
类似于[18, 8],我们在训练教师策略时使用了自动领域随机化(ADR)。ADR通过逐步增加任务和环境条件的难度,随着智能体技能的提高,诱导出一个学习课程。在本文中,我们通过设定各种参数的初始值和终值(或范围)来实现ADR。当策略性能足够高时,这些参数的值或范围会以线性方式逐步向终值靠近。增量的粒度在训练前预先指定。与[8]不同,ADR控制下的所有参数会同步向其最大设定值调整。各参数的终值经过合理设定,期望策略能够达到这些最大值。有关ADR控制的参数及其初始和终值范围的更多详细信息,请参见表II。
表 II:学习过程中通过自动领域随机化控制的各类物理参数。
C. RGB学生策略FGP训练
为了训练基于RGB的学生策略,我们采用了学生-教师蒸馏方法,并使用类似于DextrAH-G [14]的在线版本DAgger [21]。学生接收形式为机器人关节状态和速度的本体感知数据,以及左右摄像头对应的两张RGB图像。我们选择了立体摄像头设置,以使学生能够从图像中推断深度。训练过程中,我们使用了Isaac Lab [17]仿真框架,该框架提供了光线追踪和平铺渲染功能,可在每个环境中实现快速且逼真的渲染。
图 3:我们使用 PPO(Proximal Policy Optimization,近端策略优化)训练一个基于状态的 FGP 教师模型(顶部)。然后,我们通过 DAgger(Dataset Aggregation,数据集聚合)将该教师 FGP 蒸馏为基于 RGB 的学生策略(中间)。最后,我们在实际环境中部署学生 FGP(底部)。
为了创建逼真的场景,我们采用了类似于Synthetica [23]的方法。以30%的概率随机化穹顶光HDRI背景。在每个训练回合开始时,会随机化机器人、桌子和物体的材质属性,包括反照率、粗糙度、金属常数和镜面反射。此外,还会随机化桌子和物体的纹理。由于初始使用的物体没有纹理,为了使其更逼真,我们从Omniverse资产库中绑定了随机的日常物品纹理。尽管这些纹理与物体几何形状在语义上可能不匹配(UV映射完全偏离),但物体仍然看起来相对真实。除了这些随机化,我们还加入了数据增强,包括随机背景、颜色抖动和运动模糊。
表 III:各类视觉领域随机化参数及其概率分布。
表 IV:各类数据增强及其对应的概率。
表III和表IV详细列出了随机化范围和概率。在训练学生策略时,我们将ADR的增量设置为最大值。图4展示了左摄像头渲染的各种图像示例。顶排显示了应用了各种光照和材质随机化的仿真渲染图像;底排显示了经过上述数据增强后的图像效果。
图 4:第一行显示了模拟中不同环境的左侧相机渲染图。第二行展示了应用于这些模拟渲染图的各种数据增强处理,这些数据被传递给学生策略。
学生策略的架构如图3所示。我们选择了立体视觉的设置,因为在仿真中发现立体策略比单目策略表现更好。策略输入为两张320×240分辨率的图像。图5展示了仿真中生成的立体图像示例。左右图像分别通过图像编码器进行处理,输出图像嵌入。图像编码器由一个具有[16, 32, 64, 128]个卷积滤波器和ReLU激活的CNN组成。CNN的输出通过平均池化层后展平,并投影到一个32维空间,作为嵌入向量。嵌入向量与本体感知输入拼接后送入一个具有512单元的LSTM。LSTM的输出与其输入拼接后传递到一个多层感知器(MLP)。这种架构类似于DenseNet [10]的连接方式,之前的研究[24]表明密集架构更适合策略学习。MLP包含三层,单元数分别为[512, 512, 256]。LSTM的输出和MLP的输入拼接后传递到一个辅助头,用于预测物体位置,该辅助头是一个单层MLP,单元数分别为[512, 256]。所有激活函数为elu。
图 5:来自左侧相机的立体图像(顶部)和右侧相机的立体图像(底部)。
学生FGP的输入与教师FGP相同,不同之处在于物体姿态和独热编码被立体RGB图像对替代。我们选择使用小型CNN编码器,而不是预训练的骨干网络(如ResNet [9]或ViT [6])。原因是反向传播梯度通过图像编码器可以让网络学习任务特定的特征,而冻结的骨干网络无法实现这种学习。我们未采用微调这些大型模型的方法,因为它们需要跟踪的梯度较多,会显著减少我们可以并行运行的环境数量,从而降低训练速度。
学生策略的输出与教师策略相同,并通过模仿损失和辅助损失进行联合监督,损失函数定义为L = Laction + Laux,其中Laction = DKL(πstudent∥πteacher),Laux = ∥x̂obj − xobj∥。其中,xobj是物体位置的真实值,x̂obj是网络预测的物体位置。对于模仿损失,我们选择使用KL损失(KL divergence),而不是对均值和方差使用L2损失,因为在测试的所有4个种子实验中,基于KL损失训练的策略始终优于使用L2损失的策略。由于教师和学生策略的方差均为固定值,方差误差会被驱动为零。因此,KL损失可以简化为(µstudent − µteacher)⊤Σteacher^−1 (µstudent − µteacher),其中使用对角高斯分布时,进一步简化为Σi 1/σi² (µi student − µi teacher)²。这一形式优先沿着低方差维度最小化误差,相较于传统的L2损失(对所有维度误差赋予相同权重)更具表现力。
在教师策略训练中,最大回合长度设置为10秒。这是为了给教师策略提供足够的探索时间以完成抬起物体的任务,并确保物体一旦被抬起,能够保持牢固的抓取。然而,如果学生策略的训练也采用相同的最大回合长度,那么大部分回合时间都将涉及物体已经被抬离地面的场景。学生策略与教师策略的主要分歧可能发生在回合开始时,即教师智能体尝试抓取物体的阶段。因此,较长的回合可能会相对弱化这部分轨迹的重要性。然而,仍然需要保证回合长度足够长,以便学生策略能够学习在首次抓取失败后进行恢复的重要行为。因此,在对学生策略进行蒸馏时,如果物体已经被抬离地面持续2秒,回合会提前结束。
IV. 实验
我们将策略部署在一台7自由度的Kuka LBR iiwa机械臂上,机械臂顶部安装了16自由度的Allegro Hand v4。此外,桌面上固定安装了两台Intel Realsense D415摄像头。机器人系统的配置如图6所示。Kuka机械臂的低级PD控制器以1 kHz的频率运行,而Allegro手的控制器以333 Hz运行。摄像头以60 Hz的频率流传输RGB信息。通过对策略进行CUDA图捕获,我们降低了内核启动的开销,确保策略也以60 Hz的频率运行。在实际实验中,我们发现策略以60 Hz运行时性能显著优于30 Hz。所有策略和控制进程均在一台NVIDIA Jetson Orin上运行。
图 6:真实机器人设置
灵巧抓取能力最常见的评估方式之一是量化单个物体的抓取成功率。为评估成功率,我们在来自常用数据集(例如[2])的11个物体上测试了策略,这些数据集常被其他抓取研究使用。每个物体被放置在桌面上的五种不同姿态中进行测试。在每次实验中,我们部署RGB抓取策略,记录成功抓取并将物体抬离桌面的姿态比例,作为成功率。如果抓取失败且机器人无法恢复,则实验结束。能够连续运行策略的一个优势是,其递归架构允许策略逐步适应环境。表I展示了我们的方法与现有工作的对比。对于许多物体,我们的成功率接近当前最先进水平。需要注意的是,最先进的方法使用深度信息,而我们使用的是立体RGB,这使得我们的任务更具挑战性。
V. 局限性
本研究展示了出色的抓取能力,但仍存在一些重要的局限性需要讨论。首先,我们使用PCA动作空间继承了DextrAH-G的局限性,即对抓取行为的专注在根本上限制了机器人的灵活性。此外,为确保系统安全性,我们在底层几何框架中嵌入了避免与桌子碰撞的行为。这会导致机器人在抓取靠近桌面的较小物体时遇到困难。在未来,这种行为更适合通过策略从传感器输入中学习。我们的蒸馏方法需要一个两阶段的策略训练流程,这种训练方式可能较为繁琐。针对探索策略的进一步研究可能实现单阶段端到端的强化学习管道,从而简化训练框架。另一个关键局限性是我们的抓取行为并非功能化。例如,如图1所示,锅被从底部抓取,而不是设计意图上的把手位置。此外,我们的策略只能处理场景中的单一物体,这意味着它无法在物体杂乱的场景中完成任务。
VI. 结论
我们提出了DextrAH-RGB,这是一种基于RGB输入实现灵巧抓取的方法。为实现这一目标,我们首先在仿真中训练接收状态信息的教师策略,然后将其蒸馏为基于RGB的学生策略。我们利用实时光线追踪功能,提供快速且逼真的平铺渲染来支持学生策略训练。我们进一步使用几何框架,为教师和学生策略提供动作空间。该动作空间不仅确保安全性和反应能力,还为灵巧抓取行为提供了强大的归纳偏差。我们成功展示了端到端RGB策略从仿真到现实的迁移效果。未来工作包括提高DextrAH-RGB的性能,并进行仓储整理能力评估。
参考文献
[1] Ananye Agarwal, Shagun Uppal, Kenneth Shaw, and Deepak Pathak. Dexterous functional grasping, 2023. URL: https://arxiv.org/abs/2312.02975.
[2] Berk Calli, Aaron Walsman, Arjun Singh, Siddhartha Srinivasa, Pieter Abbeel, and Aaron M. Dollar. 用于操控研究的基准:使用耶鲁-CMU-伯克利对象和模型集。IEEE机器人与自动化杂志, 22(3):36–52, 2015年9月。ISSN: 1070-9932. DOI: 10.1109/mra.2015.2448951. URL: http://dx.doi.org/10.1109/MRA.2015.2448951.
[3] Tao Chen, Megha Tippur, Siyang Wu, Vikash Kumar, Edward Adelson, and Pulkit Agrawal. 视觉灵巧性:对新颖且复杂物体形状的手中重新定位。《科学机器人学》, 8(84), 2023年11月。ISSN: 2470-9476. DOI: 10.1126/scirobotics.adc9244. URL: http://dx.doi.org/10.1126/scirobotics.adc9244.
[4] Zoey Qiuyu Chen, Karl Van Wyk, Yu-Wei Chao, Wei Yang, Arsalan Mousavian, Abhishek Gupta, and Dieter Fox. 通过隐式形状增强学习现实世界中的灵巧抓取策略, 2022. URL: https://arxiv.org/abs/2210.13638.
[5] Matei T. Ciocarlie, Corey Goldfeder, and Peter K. Allen. 通过Eigengrasps实现灵巧抓取:一种解决高复杂性问题的低维方法, 2007. URL: https://api.semanticscholar.org/CorpusID:6853822.
[6] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 一张图片相当于16x16个单词:用于图像识别的Transformer, 2021. URL: https://arxiv.org/abs/2010.11929.
[7] C. Ferrari and J. Canny. 规划最优抓取。在1992年IEEE国际机器人与自动化会议论文集中,页面:2290–2295,第3卷,1992年。DOI: 10.1109/ROBOT.1992.219918.
[8] Ankur Handa, Arthur Allshire, Viktor Makoviychuk, Aleksei Petrenko, Ritvik Singh, Jingzhou Liu, Denys Makoviichuk, Karl Van Wyk, Alexander Zhurkevich, Balakumar Sundaralingam, Yashraj Narang, Jean-Francois Lafleche, Dieter Fox, and Gavriel State. Dextreme: 从仿真到现实的灵巧手内操控转移, 2024. URL: https://arxiv.org/abs/2210.13702.
[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 深度残差学习用于图像识别, 2015. URL: https://arxiv.org/abs/1512.03385.
[10] Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q. Weinberger. 密集连接卷积网络, 2018. URL: https://arxiv.org/abs/1608.06993.
[11] Puhao Li, Tengyu Liu, Yuyang Li, Yiran Geng, Yixin Zhu, Yaodong Yang, and Siyuan Huang. Gendexgrasp: 通用化灵巧抓取, 2023. URL: https://arxiv.org/abs/2210.00722.
[12] Qingtao Liu, Yu Cui, Qi Ye, Zhengnan Sun, Haoming Li, Gaofeng Li, Lin Shao, and Jiming Chen. Dexrepnet: 基于几何和空间手-物体表示学习灵巧抓取网络, 2023. URL: https://arxiv.org/abs/2303.09806.
[13] Tyler Ga Wei Lum, Albert H. Li, Preston Culbertson, Krishnan Srinivasan, Aaron D. Ames, Mac Schwager, and Jeannette Bohg. Get a Grip: 通过大规模评估多指抓取实现稳健的仿真到现实转移, 2024. URL: https://arxiv.org/abs/2410.23701.
[14] Tyler Ga Wei Lum, Martin Matak, Viktor Makoviychuk, Ankur Handa, Arthur Allshire, Tucker Hermans, Nathan D. Ratliff, and Karl Van Wyk. Dextrah-g: 像素到动作的几何框架灵巧手臂抓取, 2024. URL: https://arxiv.org/abs/2407.02274.
[15] Martin Matak and Tucker Hermans. 通过视觉-触觉结合规划精确抓取, 2022. URL: https://arxiv.org/abs/2212.08604.
[16] A.T. Miller and P.K. Allen. Graspit!:一种用于机器人抓取的多功能仿真器。IEEE机器人与自动化杂志, 11(4):110–122, 2004. DOI: 10.1109/MRA.2004.1371616.
[17] Mayank Mittal, Calvin Yu, Qinxi Yu, Jingzhou Liu, Nikita Rudin, David Hoeller, Jia Lin Yuan, Ritvik Singh, Yunrong Guo, Hammad Mazhar, Ajay Mandlekar, Buck Babich, Gavriel State, Marco Hutter, and Animesh Garg. Orbit: 一个用于交互式机器人学习环境的统一仿真框架。《IEEE机器人与自动化快报》, 8(6):3740–3747, 2023. DOI: 10.1109/LRA.2023.3270034.
[18] OpenAI, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, Jonas Schneider, Nikolas Tezak, Jerry Tworek, Peter Welinder, Lilian Weng, Qiming Yuan, Wojciech Zaremba, and Lei Zhang. 使用机器人手解决魔方, 2019. URL: https://arxiv.org/abs/1910.07113.
[19] Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Hao Su, and Xiaolong Wang. Dexpoint: 用于仿真到现实灵巧操控的通用点云强化学习, 2022. URL: https://arxiv.org/abs/2211.09423.
[20] Nathan Ratliff and Karl Van Wyk. Fabrics: 一种用于编码先验经验的基础性稳定媒介, 2023. URL: https://arxiv.org/abs/2309.07368.
[21] Stephane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. 将模仿学习和结构化预测简化为无悔在线学习, 2011. URL: https://arxiv.org/abs/1011.0686.
[22] Himanshu Gaurav Singh, Antonio Loquercio, Carmelo Sferrazza, Jane Wu, Haozhi Qi, Pieter Abbeel, and Jitendra Malik. 从视频中预训练手-物体交互, 2024. URL: https://arxiv.org/abs/2409.08273.
[23] Ritvik Singh, Jingzhou Liu, Karl Van Wyk, Yu-Wei Chao, Jean-Francois Lafleche, Florian Shkurti, Nathan Ratliff, and Ankur Handa. Synthetica: 用于机器人感知的大规模合成数据, 2024. URL: https://arxiv.org/abs/2410.21153.
[24] Samarth Sinha, Homanga Bharadhwaj, Aravind Srinivas, and Animesh Garg. D2rl: 强化学习中的深度密集架构, 2020. URL: https://arxiv.org/abs/2010.09163.
[25] Dylan Turpin, Tao Zhong, Shutong Zhang, Guanglei Zhu, Jingzhou Liu, Ritvik Singh, Eric Heiden, Miles Macklin, Stavros Tsogkas, Sven Dickinson, and Animesh Garg. Fast-grasp’d: 通过可微分仿真生成灵巧多指抓取, 2023. URL: https://arxiv.org/abs/2306.08132.
[26] Weikang Wan, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang, Li Yi, and He Wang. Unidexgrasp++: 通过几何感知课程和迭代的通用专家学习提升灵巧抓取策略学习, 2023. URL: https://arxiv.org/abs/2304.00464.
[27] Ruicheng Wang, Jialiang Zhang, Jiayi Chen, Yinzhen Xu, Puhao Li, Tengyu Liu, and He Wang. Dexgraspnet: 基于仿真的通用对象大规模灵巧抓取数据集, 2023. URL: https://arxiv.org/abs/2210.02697.
[28] Zehang Weng, Haofei Lu, Danica Kragic, and Jens Lundell. Dexdiffuser: 使用扩散模型生成灵巧抓取, 2024. URL: https://arxiv.org/abs/2402.02989.
[29] Karl Van Wyk, Ankur Handa, Viktor Makoviychuk, Yijie Guo, Arthur Allshire, and Nathan D. Ratliff. Geometric Fabrics: 一种用于策略学习的安全指导媒介, 2024. URL: https://arxiv.org/abs/2405.02250.
[30] Yinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, and He Wang. Unidexgrasp: 通过生成多样化的抓取提议和目标条件策略实现通用机器人灵巧抓取, 2023. URL: https://arxiv.org/abs/2303.00938.
声明:本文素材来源 https://arxiv.org/pdf/2407.02274v2 致敬原作者。侵权可后台联系删除。