0. 论文信息
标题:A Survey of Embodied Learning for Object-Centric Robotic Manipulation
作者:Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau
原文链接:https://arxiv.org/abs/2408.11537
github链接:https://github.com/RayYoh/OCRM_survey
1. 摘要
以对象为中心的机器人操作中的具身学习是具身人工智能中一个快速发展且充满挑战的领域。它对推动下一代智能机器人至关重要,并且最近引起了广泛关注。与数据驱动的机器学习方法不同,具身学习侧重于机器人通过与环境的物理交互和感知反馈来学习,这使其特别适用于机器人操作。在本文中,我们全面综述了该领域的最新进展,并将现有工作分为三个主要分支:1)具身感知学习,旨在通过各种数据表示来预测对象的姿态和可负担性;2)具身策略学习,侧重于使用强化学习和模仿学习等方法生成最优的机器人决策;3)具身任务导向学习,旨在根据对象抓取和操作中不同任务的特点来优化机器人的性能。此外,我们还概述并讨论了公共数据集、评估指标、代表性应用、当前挑战以及潜在的未来研究方向。与本文调查相关的项目已建立在https://github.com/RayYoh/OCRM survey上。
2. 引言
在过去十年中,以深度学习为中心的机器学习研究取得了显著进展,彻底改变了包括计算机视觉和自然语言处理在内的各个领域。传统机器学习方法依赖于使用预先构建的数据集进行模式识别和预测来训练模型。然而,这些数据集主要来源于静态资源,如图像、视频和文本,这可能会限制其适用性和有效性。
具身学习作为具身人工智能的基石,与传统机器学习形成鲜明对比。它强调通过物理交互和实践经验来获取知识。其数据源包括广泛的范围,如感官输入、身体动作和即时的环境反馈。这种学习机制高度动态,通过实时交互和反馈循环不断优化行为和操作策略。在机器人技术中,具身学习至关重要,因为它为机器人提供了增强的环境适应能力,使它们能够处理不断变化的条件并承担更复杂和精细的任务。
尽管已经提出了大量的具身学习方法,但本综述主要关注以对象为中心的机器人操作任务。该任务的输入是从传感器收集的数据,输出是机器人执行操作任务的操作策略和控制信号。其目标是使机器人能够高效、自主地执行各种以对象为中心的操作任务,同时提高其在不同环境和任务中的通用性和灵活性。这项任务极具挑战性,因为涉及对象的多样性和操作任务的复杂性、环境的不确定性和复杂性,以及现实应用中的噪声、遮挡和实时性限制等挑战。
图1(a)展示了一个典型的机器人操作系统。它包含一个配备有摄像头等传感器和抓手等末端执行器的机械臂,使其能够操作各种对象。该系统的智能围绕三个关键方面展开,对应于图1(b)中所示的三种具身学习方法。1)先进的感知能力,涉及利用不同传感器捕获的数据来理解目标对象和外部环境;2)精确的策略生成,涉及分析感知到的信息以做出最优决策;3)任务导向,确保系统能够通过优化执行过程以适应特定任务,从而实现最大效率。
近年来,围绕上述三个关键方面进行了大量研究,特别是随着大型语言模型(LLMs)、神经辐射场(NeRFs)、扩散模型(Diffusion Models)和3D高斯溅射(3D Gaussian Splatting)的兴起,催生了许多创新解决方案。然而,目前还缺乏一个全面综述这一快速发展领域最新研究的综合性调查报告。这促使我们撰写本综述,系统地回顾前沿进展,总结遇到的挑战,并展望未来的研究方向。
A. 与近期综述的比较
过去几年中,涌现了许多关于具身人工智能和机器人学习的综述文章,涵盖了导航、规划、抓取和操作等不同领域。表I总结了该领域的一些近期相关综述。Cong等人(2021)的综述论文与我们的工作最为相关。他们的研究重点是基于3D视觉的机器人操作,主要回顾了截至2021年的3D视觉感知研究。相比之下,我们的工作不仅限于3D视觉感知方法,还系统地总结和分类了基于图像、3D感知技术和触觉感知的表示方法。此外,我们还对机器人操作的关键方面,如策略和任务导向学习,进行了全面介绍。值得注意的是,我们的综述涵盖了2021年之后发表的大量最新研究成果,提供了更前沿和全面的视角。
B. 文本组织
本文全面综述了以对象为中心的机器人操作中的具身学习方法,涵盖三个主要领域和七个子方向。三个领域分别是具身感知学习(第二节)、具身策略学习(第三节)和具身任务导向学习(第四节)。七个子方向包括数据表示(第二节A)、对象姿态估计(第二节B)、可负担性学习(第二节C)、策略表示(第三节A)、策略学习(第三节B)、对象抓取(第四节A)和对象操作(第四节B)。我们还广泛涵盖了该领域常用的数据集和评估指标(第五节),以及几个代表性应用(第六节)。此外,我们深入探讨了主要挑战,并提供了对未来研究方向的见解(第七节)。
3. 潜在研究方向
在过去的几年中,以对象为中心的机器人操作任务的具身学习方法研究显著增加,推动了该领域的快速发展。然而,当前技术仍面临一些极具挑战性的问题。进一步探索这些问题对于促进智能机器人在各个领域的广泛应用至关重要。本节将讨论几个挑战和潜在的未来研究方向。
A. 从模拟到现实的泛化
收集现实世界中的机器人操作数据是困难的,因此创建大规模数据集面临挑战。为了解决这个问题,当前研究主要集中在在模拟环境中训练模型,这些环境提供了安全、可控且成本效益高的学习场景,并能够生成几乎无限量的模拟训练数据。然而,现实环境往往存在模拟环境无法准确复制的意外挑战和变化。这种差异可能会显著降低在模拟环境中训练的模型在现实世界中的性能。具体来说,虚拟世界与现实世界之间的差距源于多种因素,如感知差距、控制器不准确和模拟偏差。近期研究已经关注于通过使用领域随机化、物理约束正则化和迭代自训练等方法来缩小这一差距。对这一问题的进一步研究将有助于提升机器人操作方法对现实环境的适应性和在实际场景中的表现。
B. 多模态具身大语言模型(LLMs)
人类拥有丰富的感知能力,如视觉、听觉和触觉,这些能力帮助他们收集周围环境的详细信息。此外,人类还能利用学习到的经验来执行各种任务。这种多功能性也是通用智能机器人的最终目标。为了实现这一目标,机器人必须配备多个传感器来感知环境并收集多模态数据。此外,机器人还必须快速学习和适应新环境和新任务以执行有效操作。然而,这对智能机器人来说是一个重大挑战。
近期研究已经关注于使用多模态LLMs来增强机器人的感知、推理和动作生成能力。例如,Xu等人介绍了一种调整推理的方法,该方法利用LLMs的广泛先验知识为机器人抓取生成准确的数值输出。Huang等人将可负担性和物理概念整合到LLMs中,超越了常规的图像和文本模态,从而在机器人操作中取得了更好的性能。这些工作推动了多模态具身LLMs的发展,但总体而言,该领域仍处于起步阶段,需要进一步广泛和深入的研究。
C. 人机协作
智能机器人有潜力彻底改变制造业、医疗保健和服务等行业。为了充分发挥这一潜力,人机协作至关重要。通过协同工作,机器人可以辅助人类,提高效率并减少人类的工作量和安全风险。同时,人类可以指导和监控机器人操作以提高准确性。然而,实现完美的人机协作存在沟通和协调障碍、过度依赖和安全问题等挑战。
研究界已经在解决人机协作挑战方面取得了一些进展。例如,Jin等人提出了一种基于深度强化学习的两级分层控制框架,以建立最优的人机合作策略。Wang等人介绍了一种名为Co-GAIL的策略训练方法,该方法基于人机交互演示和交互式学习过程中的协同优化。然而,这些方法通常在模拟环境中实施或只能执行有限数量的任务,因此不适合实际应用。未来,人机协作将继续成为重要的研究领域,需要不断探索以提高效率和安全性。
D. 模型压缩和机器人加速
在嵌入式系统、移动设备和边缘计算等应用中,具有具身智能系统的机器人通常具有有限的计算资源。这使得优化和压缩深度模型以满足存储空间、实时性和准确性的要求变得至关重要。虽然基于LLMs的方法在具身AI方面取得了显著进展,但也导致了计算资源需求的增加,这对在计算能力有限的设备上实施构成了挑战。
因此,未来的模型压缩研究有望促进智能机器人的实际应用。在现实应用中,长时间的等待往往导致用户体验不佳。因此,期望机器人能够快速完成任务。然而,许多当前的主流模型操作频率较低。例如,Google的RT-2模型根据使用的VLMs的参数规模,其决策频率在1-5 Hz之间,表明在实际应用之前仍存在巨大差距。最近,人形机器人Figure 014能够以200 Hz的频率生成动作指令,这得益于OpenAI的LLMs和高效的端到端网络架构。这一成就为未来关于机器人加速的研究带来了更大的乐观情绪。
E. 模型可解释性和应用安全性
基于深度学习的方法通常被称为“黑箱”,因为难以直观地理解其决策过程。对于基于深度学习的智能机器人来说,这种黑箱特性可能导致用户的怀疑和不信任。特别是在机器人与人类紧密互动的环境中,缺乏透明度还可能引发对个人安全的担忧。因此,研究具身学习方法的可解释性至关重要,这有助于人们理解模型的决策过程并增加对机器人的信任。
除了模型可解释性之外,还需要从其他角度保证智能机器人的安全性,包括实施更可靠的在线学习和控制技术以防止机器人运动可能造成的潜在伤害。此外,还需要采用对抗性训练来保护机器人免受攻击,并设计稳健的安全监控方法来检测可能的安全风险。这些领域的进一步研究有望提高机器人在实际应用中的安全性和可靠性。
4. 总结
综上所述,本文全面综述了以对象为中心的机器人操作中具身学习的现有方法。我们首先介绍了该任务的概念及其基本组成部分,然后将其与相关综述文章进行了比较。接下来,我们系统地介绍了三个类别的主要工作。然后,我们探讨了常用的数据集和评估指标,并突出了一些代表性应用。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
这里给大家推荐一门我们最新的课程
《
具身智能,从入门到实战系统教程!》