24年10月来自的论文“ALPHA-α and Bi-ACT Are All You Need: Importance of Position and Force Information/Control for Imitation Learning of Unimanual and Bimanual Robotic Manipulation with Low-Cost System”。
日常任务中的自主操作需要灵活的动作生成来处理复杂多样的现实环境,例如具有不同硬度和柔软度的目标。模仿学习 (IL) 使机器人能够从专家演示中学习复杂任务。然而,许多现有方法依赖于位置/单侧控制,这给需要力信息/控制的任务带来了挑战,例如小心地抓住易碎或硬度不同的目标。随着对多样化控制的需求增加,需要考虑各种运动输入的低成本双手机器人的需求也随之增加。为了应对这些挑战,引入基于 Transformer 动作分块的双边控制模仿学习 (Bi-ACT) 和一种考虑多种运动控制模式的低成本物理硬件用于日常双手机器人操作研究 (ALPHA-α)。Bi-ACT 通过双边控制来利用位置和力信息,增强机器人对目标特征(例如硬度、形状和重量)的适应性。 ALPHA-α 的理念是价格实惠、易于使用、可修复、易于组装和多种控制模式(位置、速度、扭矩),允许研究人员/开发人员使用 ALPHA-α 自由构建控制系统。在实验中,对单手操作任务中的 Bi-ACT 进行详细分析,证实其与没有力控制的 Bi-ACT 相比具有更优越的性能和适应性。基于这些结果,将 Bi-ACT 应用于 ALPHA-α 的双手操作任务。实验结果显示,在多个任务中协调双手操作的成功率很高,验证了方法在复杂现实场景中的有效性。通过全面的现实世界实验可以看到 Bi-ACT 和 ALPHA-α 的有效性。
由于环境的多样性需要产生自适应运动,因此在现实世界中自主操作仍然是一项艰巨的挑战。
模仿学习 (IL)
推动了机器人操作的最新进展,它使机器人能够从专家演示中学习复杂任务 [1]–[4]。这些方法有助于提高机器人处理复杂操作任务的适应性和熟练程度。
IL 成功的关键是有效的数据收集 [5], [6],通常由遥操作系统实现,例如带有手部跟踪机制的虚拟现实耳机 [7]、智能手机 [8]、键盘输入 [9]、
UMI
[10] 和领导者-追随者系统 [11], [12]。特别是,像
ALOHA
[12]–[14] 和移动 ALOHA [15] 这样的系统成本低廉,有利于研究人员和开发人员更广泛地参与构建和试验这些系统,从而显著推动研究领域的发展。此外,拥有一套价格合理的数据收集系统对于机器人研究(例如开发机器人基础模型)至关重要。
ALOHA
[12]–[14] 和
Mobile ALOHA
[15] 使用主-从系统,采用单边控制收集机器人关节角度和图像数据,在数据收集方法方面取得了重大进展。单边控制是一种从操作员向机器人单向发出控制命令的方法,没有传感反馈回路根据与环境的交互调整动作。然而,缺乏力信息和反馈控制带来了限制,使得很难掌握目标的特性,例如硬度、形状和重量。因此,人们对通过双边控制系统收集数据的兴趣日益浓厚,这种系统可以在不使用力/触觉传感器的情况下处理位置和力信息/控制 [1]、[16]。同样,YAY Robot [24] 开发了类似于 ALOHA 系统去积累单侧控制和语言信息的系统。
单边控制
,即从操作员向机器人发出一个方向的控制命令,没有任何传感反馈回路来根据环境交互修改动作,存在一定的局限性,如图所示。缺乏力信息和反馈控制,难以准确确定目标的特性,如硬度和形状。
在 IL 领域,模型选择对于机器人准确理解和复制复杂行为至关重要。传统方法,如 RNN、LSTM [17] 和 Transformer [18],已用于处理时间序列数据,但存在“复合误差”问题,即动作预测中的小错误会导致随时间推移误差变大 [19]。使用通过 ALOHA 收集的数据进行训练的
Transformer 动作分块 (ACT)
[12] 通过预测多个未来步克服了这些挑战,从而减少了错误累积。这种方法还解决演示过程中的暂停等问题,这些问题很难使用马尔可夫单步策略进行建模 [20]。
ACT 的诞生标志着机器人行为克隆算法的一次飞跃 [12]、[15]。ACT 利用条件变分自动编码器 (CVAE) 来建模不同的场景,并使用 Transformer 从多模态输入中预测动作序列 (动作分块)。此方法有助于减轻分布外状态下的错误和不可预测的响应。此后,基于 ACT 开发大量用于模仿学习的模型,证明了其广泛的适用性和稳健性 [1]、[12]、[15]、[23]、[28]、[30]– [33]。
在 ACT 的基础上,
One ACT Play
方法作为该领域的增强而出现 [30]。One ACT Play 通过使用机器人的末端执行器位置和姿势以及图像作为输入,与 ACT 对关节角度和图像的依赖形成鲜明对比,从而脱颖而出。这种转变使机器人与环境的交互更加直观、直接。然而,ACT 和 One ACT Play 都没有在数据收集或操作中包含力信息。因此,Bi-ACT 有望更全面地理解和操纵机器人环境,从而实现更精确、适应性更强的执行。Comp-ACT 提出了一种针对刚性机器人的触觉反馈遥操作系统,其最低级驱动接口是位置/速度控制 [28]。这些研究的主要区别在于,Bi-ACT 通过基于位置和力信息的双边控制收集数据,而无需使用力/扭矩传感器,通过 Bi-ACT 进行学习,机器人通过扭矩命令进行操作。
双边控制
用于数据收集,涉及环境中跟随机器人的远程操作,由人类控制的领头机器人引导。这是通过位置跟踪和使用动作-反应原理实现的,如图所示。使用这些基于双边控制的模仿学习方法已经完成了各种任务。例如,Adachi 报告使用机器人沿着尺子画线 [29]。Sakaino 报告了切黄瓜任务 [16]。这些方法之前已经通过使用 LSTM 的双边控制实现模仿学习。此外,还有 Kobayashi 使用Transformer编码器的方法 [21] 和 Tsuji Mamba [22] 等创新方法。双边控制使机器人能够以与人类相当的速度自主操作,这对于现实世界的动作至关重要。然而,这些方法中的大多数并不像 ACT [12]、[15] 那样利用图像数据进行机器人操作,限制了它们对操作环境变化的适应性。为了弥补这一差距,Buamanee & Kobayashi 等人提出了 Bi-ACT [1],这是一种基于图像和机器人关节位置、速度和扭矩的学习模型,它整合基于双边控制的模仿学习和 ACT 的最佳方面。通过使用单手机器人执行涉及不同硬度、大小、形状一致性和重量分布的物体的“拾取和放置”任务,证明了 Bi-ACT 的有效性。然而,详细的分析和验证仅限于使用单手机器人的简单任务,尚未实现对双手机器人的适应。
然而,详细的分析和验证仅限于使用单手机器人的简单任务,尚未实现对双手机器人的适应性。因此,本文对 Bi-ACT 单手任务进行更深入的分析,并提出 ALPHA-α 将 Bi-ACT 应用于双手任务,如图所示,ALPHA-α 是一种考虑多种运动控制模式的低成本物理硬件,可用于日常双手机器人操作的研究。
虽然 ALPHA-α 比 ALOHA 成本更低,但本文并不声称硬件的优劣,因为每个平台的适用性取决于具体任务和用例。不过,其想强调的是 ALPHA-α 硬件的一个重要贡献是它价格低廉,从而使更多研究人员能够构建由 6 自由度手臂和夹持器组成的双手机器人硬件系统,这可能促进机器人研究领域的进步。
如图所示,由于 ALPHA-α 的操作需要双手配合,开发 3D 打印的引导夹爪。操作员将拇指和中指插入操作 3D 打印引导夹爪的孔中,从而操纵机械臂,使机械臂操作并打开和闭合夹爪。
如图显示通过双边控制收集 ALPHA-α 数据的图像图。ALPHA-α 能够以 1000 Hz 的频率获取领导者和跟随者的关节角度、速度和扭矩数据。此外,它使用四个 RGB 摄像头以大约 100 Hz 的频率捕获 RGB 图像数据。这种能力源于力/扭矩信息是在不需要直接力/扭矩传感器的情况下估计的,而是采用双边控制。由于要求操作者用双手控制ALPHA-α,因此通过操作者踩脚踏板来完成数据收集。
本文采用一种受 ACT 研究启发的方法,利用关节和图像数据来预测运动,结合基于双边控制的模仿学习原理,实现强大的机器人控制方法,如图所示。为了提高研究中环境的可理解性,其基于 ACT,并在输入和输出数据中增加了一个新维度。除了之前在原始工作中使用的关节角度和图像数据外,还在输入数据中添加角速度和扭矩。