20年9月来自德国斯图加特大学和Fraunhofer IPA的论文“A Survey on Learning-Based Robotic Grasping”。
本综述全面概述基于视觉的机器人抓取和操作的机器学习方法。提供当前的趋势和发展以及方法分类的各种标准。“无模型”方法因其对新目标的泛化能力而具有吸引力,但大多局限于自上而下的抓取,并且不允许精确的目标放置,这会限制其适用性。相反,“基于模型”的方法可以精确放置,并旨在实现自动配置,而无需任何人工干预,从而实现快速简便的部署。本文讨论具有和不具有特定目标知识的机器人抓取和操作方法。由于训练基于人工智能的方法需要大量数据,因此模拟是机器人学习的一个有吸引力的选择,此外本文还概述从模拟到现实世界的迁移技术。
人类看到新目标后,几乎可以立即决定如何拾取它们。而机器人的能力却远远落后。机器人的抓取和操作是一项关键挑战 [1]。几十年来,人们一直在研究制造能够像人类一样灵活操作的认知机器人。尽管研究和工业界对此很感兴趣,但这仍然是一个未解决的问题 [2] [3]。
较短的产品生命周期和稳步增长的定制需求需要更灵活、更可变的生产系统,从而需要对机器人系统进行自动配置(即插即用)[4]。开发能够在动态和非结构化环境(即,bin-拾取、家庭或日常环境、专业服务)中操作的机器人引起了人们的极大兴趣。机器人抓取方法利用基于学习的方法来自动配置给定的任务,而无需任何人工干预,从而可以大大减少编程工作量 [5]。由于对新目标的泛化能力,机器学习是一种很有前途的机器人抓取方法。
基于视觉的机器人抓取方法可以按照多种不同的标准进行分类。一般来说,方法可以分为
分析方法
或
数据驱动
方法 [6, 7]。分析(有时称为几何)方法通常分析目标物体的形状以确定合适的抓取姿势。数据驱动(有时称为经验)方法基于机器学习,近年来越来越受欢迎。由于数据可用性的提高、计算资源的改善和算法的改进,它们取得了重大进展。这篇评论文章重点介绍基于学习的机器人抓取和操作方法。
此外,方法可以分为
基于模型
或
无模型
两种,具体取决于是否使用有关目标的特定知识(例如,CAD 模型或先前扫描的模型 [10])来解决所考虑的任务。它们可以进一步区分为专注于抓取和操纵刚性、铰接式或柔性/可变形目标,以及该方法是否能够处理已知、熟悉或未知目标 [6]。如图概述机器人抓取的典型流程。基于模型的已知刚体方法通常包括姿势估计步骤,并允许精确放置目标。无模型方法直接提出抓取候选,通常旨在推广到新目标。
另一个标准是机器学习的类型,即系统是使用监督学习 (SL) 还是强化学习 (RL) 进行训练 [11]。注释可以由人类提供,也可以以自监督的方式获得,即标签是自动生成的。方法通常要么对抓取候选进行采样,然后使用神经网络对其进行排序(判别方法)[12, 13],要么直接生成合适的抓取姿势(生成方法)[14, 15]。此外,方法的不同之处在于它们是在模拟环境中训练,还是在现实世界中训练,或者两者兼而有之,并且利用各种传感器数据(RGB 图像、深度图像、RGB-D 图像、点云、可能的多个传感器等)。此外,方法可以以开环(即没有任何反馈)或闭环方式运行 [3, 16, 17]。使用基于视觉特征的连续反馈通常称为
视觉伺服
(visual servoing)[17]。除了机器人硬件之外,夹持器类型(两指夹持器、吸盘夹持器等)和夹持器自由度(4D、6D 等)也会区分方法。此外,一些方法仅关注单个分离目标的抓取,而另一些方法则针对密集杂乱目标中的抓取。此外,一些方法能够执行预抓取操作,以便将目标移动到更好的抓取配置中。下表概述所讨论的方法,并从文献中可用的各种方法中展示一小部分示例性选择。除了上述标准之外,还指出报告的抓取成功率,尽管该成功率是根据不同的基准确定的。
机器人抓取的目标姿态估计
基于模型的机器人抓取可以看作是一个三阶段过程,首先估计目标姿态,然后确定抓取姿态,最后规划一条无碰撞且运动学上可行的路径以拾取目标 [34, 35]。
第一阶段,其目标是估计场景中可能多个目标相对于给定参考系(通常是相机)的平移和旋转。这项任务具有挑战性,因为传感器噪声、不同的光照条件、杂波和遮挡以及现实世界中目标的多样性。此外,目标对称性会导致姿态模糊,必须解决这个问题,因为对称性可以对相同的观察结果提供不同的注释 [36–39]。
当利用特定于目标的知识时,方法通常需要特定于目标的配置(大量手动调整),直到达到令人满意的系统性能,这限制了对新目标的可扩展性 [5]。更具体地说,需要用于姿势估计的模板或特征匹配方法的参数 [41, 42] 或稳健抓取姿势的定义以及(静态)优先级 [35],并且必须在现实世界的实验中进行调整。因此,基于模型的方法旨在实现自动配置,尽量减少用户输入,无需专家进行任何调整,以便快速轻松地转移到新目标。
利用监督学习的优势进行 6D 目标姿势估计需要大量标记数据进行训练。创建和注释具有 6D 姿势的数据集非常繁琐、耗时,并且无法扩展 [43]。因此,在合成数据上训练模型是一种趋势,因为模拟是一个丰富的数据来源,并且可以自动获得完美的真值注释。迁移技术用于部署到现实世界。[18,20]
近年来,6D 目标姿态估计的研究主要由基于卷积神经网络 (CNN) 的方法主导。这些方法通常要么将姿态空间离散化并预测类别 [44,45],要么根据回归任务解决姿态估计问题 [19,20•,46]。DOPE [18] 使用深度神经网络处理 RGB 图像,输出物体 3D 边框的 2D 图像坐标,并使用 PnP 算法 [47] 估计每个实例的 6D 姿态。该模型完全基于合成数据进行训练,而对于从模拟到现实世界的迁移,DOPE 采用了域随机化 [48] 和真实感渲染的组合。作者进一步证明,基于合成数据训练的姿势估计器可以在现实世界的抓取系统中以足够的精度运行。
姿势估计挑战 [49, 50] 和姿势估计的标准基准测试系统 [51] 可以推进最先进的技术,并实现不同方法的透明和公平比较。特别是,对大量目标进行稳健的姿势估计是一项巨大的挑战,具有重要意义。这些场景通常出现在工业bin-拾取场景中,由于存在的大量杂波和遮挡,这些场景具有挑战性。IROS 2019 组织一项针对bin-拾取的 6D 目标姿势估计的挑战 [49],并使用一个大规模数据集 [43],该数据集包含完全 6D 姿势注释的合成和真实世界场景。为了进行评估,使用 Brégier 的度量标准 [36, 37],该度量标准正确考虑目标的对称性,并考虑可见度超过 50% 的目标。
总的来说,基于学习的方法已被证明对遮挡具有鲁棒性,因为它们可以学习合理的目标姿势配置 [49]。上述挑战的获胜方法 PPR-Net [19] 在点云上运行,并利用 PointNet++ [52] 估计点云每个点的 6D 姿势,并在 6D 空间中应用聚类,通过对每个已识别的聚类取平均值来计算最终的姿势假设。在嘈杂的 Siléane 数据集 [36] 上,该方法的平均精度优于 OP-Net [20]。此外,OP-Net 比 PPR-Net 快得多,因为它提供更紧凑的输出参数化,并且不需要后处理。该方法离散化场景的 3D 空间,并为每个生成的体元素回归姿势和置信度。
基于学习的目标姿态估计器的主要优势在于,它们不需要手动调整参数来配置新目标 [41, 42]。此外,它们可以完全在合成数据上进行训练,这些数据可以通过物理模拟轻松获得,例如在拾取-bin [43] 的情况下,将目标以随机位置和方向放在一个 bin 上方,或者将(家用)目标放置在虚拟场景中 [18]。
无模型机器人抓取
无模型方法之所以具有吸引力,是因为它们能够推广到未见过目标 [53],并且是机器人抓取研究的主导方向。它们不使用关于目标的先验知识,因此无需姿势估计步骤。这些方法通常在对新目标的泛化能力方面显示出有希望的结果,并且模型通常以端到端的方式进行训练。主要不考虑拾取后目标的放置,并且拾取的目标类型未知。
机器人抓取的监督学习
监督学习涉及基于标记训练数据学习(非线性)映射。根据抓取配置是输入还是输出,将该类型方法分为判别式方法或生成式方法。
判别式方法对抓取候选点进行抽样(例如,使用 CEM [54])并使用神经网络对其进行排序。对于抓取执行,机器人选择得分最高的抓取点。这些方法通常运行时间较长,因为它们需要神经网络的多次前向传递才能获得高质量的抓取。尽管如此,这些方法的优势在于可以评估任意数量的抓取姿势,并且这些方法不受抓取基元/输出空间离散化的限制。此外,可以应用/采用基于梯度的细化过程来提高抓取成功率 [32]。
生成式方法输出抓取配置。其中一种方法(称为机器人抓取检测)是在图像平面中检测定向矩形 [55],这些矩形代表平行钳口抓取器的有希望的抓取候选目标。该参数化包括夹持器的位置、方向和开口宽度。机器人抓取检测问题类似于计算机视觉中的目标检测 [56–58],唯一的区别是增加夹持器方向的项。
机器人抓取和操作的强化学习
深度强化学习已成为一种有前途且强大的技术,可通过反复试验自动获取控制策略。通过处理原始感官输入(例如图像),可以执行复杂的行为。