专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
内蒙古自治区文化和旅游厅  ·  过大年 闹元宵 | ... ·  18 小时前  
精明常旅客  ·  携程春促今晚12点开启,要抢就别早睡! ·  2 天前  
成都日报  ·  最新,九寨沟景区紧急辟谣! ·  2 天前  
成都日报  ·  最新,九寨沟景区紧急辟谣! ·  2 天前  
甘肃省文化和旅游厅  ·  兰州新区:“非遗贺新春 新区过大年”社火展演 ... ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

谷歌进军乒乓球机器人!能打进奥运会?

3D视觉工坊  · 公众号  ·  · 2024-08-10 00:05

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

在现实世界任务中实现人类水平的速度和性能是机器人研究领域的北极星。这项工作朝着这一目标迈出了一步,并展示了第一个在竞技乒乓球中达到业余人类水平表现的学习型机器人代理。乒乓球是一项对身体要求很高的运动,需要人类运动员经过数年的训练才能达到高水平的熟练程度。在本文中,我们的贡献包括(1)一种分层和模块化的策略架构,该架构由(i)具有详细技能描述符的低级控制器组成,这些控制器模拟了代理的能力并有助于弥合模拟与现实的差距,以及(ii)选择低级技能的高级控制器;(2)实现零样本模拟到现实的技术,包括一种迭代方法来定义基于现实世界的任务分布,并定义自动课程;(3)对未见过的对手进行实时适应。通过29场机器人与人类之间的比赛评估了策略性能,其中机器人赢得了45%(13/29)的比赛。所有参赛者都是未见过的玩家,他们的技能水平从初学者到锦标赛水平不等。虽然机器人在与最顶尖选手的比赛中全部落败,但它赢得了与初学者的100%比赛和与中级选手的55%比赛,充分展示了业余人类水平的性能。比赛视频可在此处观看。

近年来,机器人学习取得了令人鼓舞的进展,诞生了能够烹饪、打扫,甚至表演后空翻的机器人。尽管学习到的机器人策略的能力得到了显著提升,但在许多领域,要达到人类水平的准确性、速度和泛化能力仍是一项艰巨的挑战。乒乓球就是这样一个领域——它是一项对身体要求很高的运动,需要人类运动员经过数年的训练才能达到高水平的熟练程度。事实上,竞技比赛往往紧张激烈,涉及复杂的动作、快速的眼手协调和适应对手优缺点的高级策略。为了让乒乓球机器人系统模仿这些能力,它需要高速运动、精确控制、实时决策和人机交互。由于这些苛刻的要求,乒乓球为提升机器人能力提供了丰富的环境,自20世纪80年代以来一直是机器人研究的基准。此后,人们开发了众多乒乓球机器人,并在将球击回对方场地、击中目标位置、扣杀、合作对打以及乒乓球的许多其他关键方面取得了进展。然而,此前还没有工作解决竞技比赛问题,即机器人与未见过的人类对手进行完整的乒乓球比赛。

从根本上讲,我们的论文旨在将机器人学习扩展到可能涉及人类伙伴或对手的复杂物理任务中。在机器人学习领域,存在两种主要范式。强化学习(RL)是动态控制任务的首选方法,例如四足行走。由于其高样本复杂性,强化学习通常首先在模拟环境中进行,然后再转移到现实世界,从而加快训练时间。然而,确保模拟任务的分布基于现实可能是个相当大的挑战。例如,在乒乓球比赛中,每一击的竞争性比赛所引起的初始球状态集合与一组“所有可能的”初始球状态集合大相径庭。相比之下,模仿学习(IL)是那些可以从专家用户或过程(通常通过远程控制或运动捕捉收集)中收集演示的任务的流行选择,例如操作。基于现实世界数据的模仿学习锚定于已知能解决所需任务的示例。此外,它还避免了模拟任务(们)的挑战和不可避免的从模拟到现实的差距。然而,它通常需要对每个单一任务进行多次演示,并且可能无法覆盖状态空间的关键部分。在本文中,我们介绍了一种混合训练方法,该方法结合了上述两种方法的优点。我们收集少量的人与人之间的游戏数据来设定初始任务条件。然后,我们使用强化学习在模拟环境中训练一个智能体,并采用一系列(已知和新颖的)技术将策略无缝部署到真实硬件上。该智能体与人类一起游戏,以生成更多的训练任务条件,并重复训练-部署周期。随着机器人的改进,比赛标准逐渐变得更加复杂,同时仍然基于现实世界的任务条件。这种方法基于现实世界的数据迭代地改进技能组合。随着机器人的游戏,它收集数据并揭示其能力中的差距,然后通过在模拟环境中继续训练来解决这些问题。这种混合模拟-现实循环创建了自动任务课程,并使机器人的技能随时间不断提高。

我们方法的最后一个但至关重要的要素是,

能够迅速适应未知人类对手的能力和比赛风格。能够适应各种环境条件下的移动,但不适用于人类或对抗性条件。我们通过实时跟踪比赛统计数据来实现对对手的迅速适应,这些统计数据代表了机器人和对手的优缺点。此外,

对于每个低级技能,我们都会在线估计偏好,以补充离线技能统计数据。这两者用于制定策略。这种在线适应有助于控制器适应新的对手,并使机器人能够学习和完善其决策过程,从而提高对不同人类对手的鲁棒性。

上述组件最终实现了人类水平的竞技游戏,人类实际上喜欢与这种游戏互动——所得策略灵活、可适应、可扩展,且比单一系统更具可解释性。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Achieving Human Level Competitive Robot Table Tennis

作者:David B. D'Ambrosio, Saminda Abeyruwan, Laura Graesser, Atil Iscen, Heni Ben Amor, Alex Bewley, Barney J. Reed, Krista Reymann, Leila Takayama, Yuval Tassa, Krzysztof Choromanski, Erwin Coumans, Deepali Jain, Navdeep Jaitly, Natasha Jaques, Satoshi Kataoka, Yuheng Kuang, Nevena Lazic, Reza Mahjourian, Sherry Moore, Kenneth Oslund, Anish Shankar, Vikas Sindhwani, Vincent Vanhoucke, Grace Vesom, Peng Xu, Pannag R. Sanketi

机构:Google DeepMind

原文链接:https://arxiv.org/abs/2408.03906

官方主页:https://sites.google.com/view/competitive-robot-table-tennis

2. 摘要

在现实世界任务中实现人类水平的速度和性能是机器人研究领域的北极星。这项工作朝着这一目标迈出了一步,并展示了第一个在竞技乒乓球中达到业余人类水平表现的学习型机器人代理。乒乓球是一项对身体要求很高的运动,需要人类运动员经过数年的训练才能达到高水平的熟练程度。在本文中,我们的贡献包括(1)一种分层和模块化的策略架构,该架构由(i)具有详细技能描述符的低级控制器组成,这些控制器模拟了代理的能力并有助于弥合模拟与现实的差距,以及(ii)选择低级技能的高级控制器;(2)实现零样本模拟到现实的技术,包括一种迭代方法来定义基于现实世界的任务分布,并定义自动课程;(3)对未见过的对手进行实时适应。通过29场机器人与人类之间的比赛评估了策略性能,其中机器人赢得了45%(13/29)的比赛。所有参赛者都是未见过的玩家,他们的技能水平从初学者到锦标赛水平不等。虽然机器人在与最顶尖选手的比赛中全部落败,但它赢得了与初学者的100%比赛和与中级选手的55%比赛,充分展示了业余人类水平的性能。比赛视频可在此处观看。

3. 效果展示

在本文中,我们展示了第一个能够与人类进行竞技乒乓球比赛的机器人智能体。该机器人结合了多种(已知和新颖的)技术,以在不同抽象层次上获得技能。乒乓球运动员必须准备好在各种位置、速度和旋转(即角速度)下回球,而竞技选手必须知道如何操纵这些因素来设置有利的比赛或利用对手的弱点。因此,比赛有两个层次:高级的战略决策和执行这些战略所需的低级身体技能。这种组织为机器人体育比赛增加了另一层挑战,与纯粹的战略游戏(如国际象棋或围棋)不同,策略不仅需要决定最有利的动作,还需要具备执行它的身体技能,甚至如果它对自己成功执行某个动作没有信心,可能不得不选择战略上不那么优越的动作。为了应对这一挑战,我们提出了一种分层和模块化的策略架构。我们的系统由多个低级技能策略和一个高级控制器组成,高级控制器负责在这些策略之间进行选择。每个低级技能策略都专注于乒乓球的一个特定方面,如正手拉球、反手定位或正手发球。训练是高效的——每个技能都是在给定类别(如正手、反手)的相同基础策略之上构建的,一旦训练出一个好的技能,它就可以随后进行专门化。除了学习策略本身之外,我们还离线和在线收集和存储了关于每个低级技能的优点、缺点和局限性的信息。生成的技能描述符为机器人提供了有关其能力和不足的重要信息。反过来,负责协调低级技能的高级控制器会根据当前比赛统计数据、技能描述符和对手的能力选择最佳技能。

4. 主要贡献

综上所述,本文介绍了第一个机器人学习系统,该系统通过用户研究证明,能够在与未知人类对手的竞技运动中达到业余人类水平的性能。为实现这一目标,我们做出了以下技术贡献:(1)分层和模块化策略架构,特别是(i)具有技能描述符的低级控制器和(ii)选择低级技能的高级控制器;(2)实现零样本模拟到现实的技术,包括一种迭代方法,用于定义基于现实世界的训练任务分布,并定义自动课程;(3)实时适应未知对手;(4)用户研究,以测试我们的模型在物理环境中与未知人类进行实际比赛的能力。

5. 基本原理是啥?

我们的代理架构和训练方法都是为了解决与人类竞技乒乓球中的众多挑战而设计的。图2所示的乒乓球代理包括两级控制,我们称之为高级控制器(HLC)和低级控制器(LLC)。LLC是代表不同乒乓球技能的策略,并经过训练以产生50Hz的关节速度命令。例如,LLC可能代表用正手击球和回击横穿球场的球、用反手保守回击,或用正手回击下旋发球。

HLC负责选择每个来球回合应执行哪个LLC。HLC没有固定的控制频率,而是在对手每次击球时被触发执行一次。在HLC内部,有六个组件结合起来产生LLC的选择;(1)风格:这是一个根据来球选择正手或反手打法的策略,(2)旋转分类器:这个分类器提供来球旋转的信息,识别是上旋还是下旋,(3)LLC技能描述符:这是代理自身能力的模型。它们为每个LLC提供性能元数据,如估计的回球率、击球速度和落点位置,这些数据根据特定的来球进行调整,(4)关于对手和机器人表现的比赛统计数据,(5)策略:这些策略将(1)、(3)和(4)作为输入,并输出LLC的短名单,以及(6)LLC偏好(H值):这些值估计当前玩家每个LLC的性能,并在每次击球后更新。HLC结合(3)、(5)和(6)来产生最终的LLC选择。HLC内的整个控制流程在20毫秒内完成。

我们选择训练多个模块化的低级控制器(LLC)而不是单一的整体低级控制器(LLC),原因如下:避免灾难性遗忘——一旦学习了良好的技能,它就不会被遗忘,同时仍然可以作为进一步学习技能的初始化点。可扩展性——通过添加新的LLC,可以很容易地融入新技能。评估效率——这反过来又加快了实验速度。一旦在现实世界中对低级技能进行了测试,其能力就会得到很好的理解,无需重新测试。相比之下,每次模型权重发生变化时,整体学习系统都需要在预期的全部能力上进行测试。快速推理——在CPU上,每个LLC的推理时间仅为3毫秒。

LLC和高级控制器(HLC)风格的策略是通过迭代训练的,在模拟训练和现实世界中的零样本部署之间交替进行,在此期间人类对手与机器人对战。任务中固有的人机交互性促使我们完全在模拟环境中进行所有训练。在现实世界中,让人类参与循环以微调复杂技能过于耗时,不太可行,尤其是因为先前的工作表明,需要6小时的现实世界微调才能训练出一个与单个人类合作的策略。这促使我们付出了巨大努力来缩小模拟与现实的差距。

6. 实验结果

代理是否会根据对手的技能水平制定不同的策略?H值表示对特定低级控制器(LLC)的相对偏好。由于所有比赛都以相同的初始H值开始,因此可以跨技能组比较最终H值,以评估策略是否有所不同。表III展示了这些值,显然存在一些策略变化。例如,与玩家技能组中的最小值和最大值相比,LLC 1、2、5、8和9的H值相差约2倍。查看每个技能组的顶级LLC(加粗显示),我们可以看到,虽然有一些共同偏好的LLC(4、7、10和11),但在策略上也存在一些差异,尤其是初学者与其他玩家相比最为明显。初学者偏好LLC 0、1和9,而中级和高级玩家则偏好LLC 2。我们还可以看到,初学者技能组拥有最多相对高分数的LLC。这表明许多LLC都是初学者的有效选择,这是直观的,因为这是技能水平最低的一组。

7. 总结 & 未来工作

在本文中,我们展示了一个学习型机器人代理,该代理在竞争激烈的乒乓球比赛中达到了业余人类水平的表现,乒乓球运动以其动态性和高技能要求而闻名。通过与具有不同乒乓球技能且均表示喜欢与机器人一起玩的未见过的人类玩家进行29场竞技比赛,对机器人的表现进行了评估。

第五节中提到的限制为乒乓球机器人领域的未来研究指明了多个方向。为了解决阻碍机器人对快速球反应时间的延迟限制,我们建议研究高级控制算法和硬件优化。这可能包括探索预测模型以预测球的运动轨迹,或者在机器人的传感器和执行器之间实施更快的通信协议。此外,训练策略以选择重置姿势,或者简单地完全取消击球之间的重置,都可以为策略提供更多反应时间和灵活性。低球挑战可以通过开发更复杂的碰撞检测和避免算法来解决。这些算法可以对与球桌的不同潜在碰撞进行分类,并在某些情况下允许机器人更接近球桌,同时确保球拍的安全性。通过训练持续整个回合的场景来更好地捕捉游戏状态,甚至可能探索自我对弈技术,可以提高机器人的战略能力。此外,高级和高级+玩家能够在机器人的能力中找到并利用漏洞,并在采访中提到了这一点;我们希望通过迭代学习方法,我们能够填补这些漏洞,并通过更多的训练轮次适应这些玩家,至少要在机器人的物理能力范围内。

我们还希望这项研究能在机器人乒乓球之外做出有益的贡献。以下四个方面具有更广泛的意义。

(1)分层策略架构:在复杂的现实世界任务中表现良好的一个关键要素是建立一个关于代理能力的良好模型。我们的低层次控制器(LLC)技能描述符是一种新颖的方法来构建这样的模型,它们既在向高层次策略提供上下文特定细节方面发挥了作用,也因为它们可以根据现实世界经验进行在线连续更新而具有优势。探索将此类模型纳入日益流行的分层机器人控制系统中的方法是一个值得未来深入研究的领域。

(2)通过迭代现实世界数据收集实现零样本模拟到现实:我们的代理使用现实世界数据来定义训练任务,同时利用模拟来学习控制策略。因此,它学会了解决现实世界任务,同时保持了数据效率,仅使用了17.5k个示例。使用模拟和强化学习(RL)来训练在现实世界中工作的通用机器人控制器面临着许多挑战;即模拟器设计难以扩展到许多任务、模拟到现实的差距以及与最先进的监督学习技术相比,RL训练的扩展难度。这项工作从任务分布的角度提出了一种弥合模拟到现实差距的方法,并且由于该领域的积极研究,物理动力学建模也在不断改进。鉴于此,值得考虑如何更好地利用模拟器。它们是否可以用来为特定的物理形态训练通用技能库?

(3)实时适应:我们通过实时跟踪比赛统计数据,该统计数据代表机器人和对手的优缺点,从而实现对对手的快速适应。这种在线适应有助于控制器适应新的对手,并允许机器人在游戏演变过程中学习和完善其决策过程,从而提高鲁棒性。它适用于任何部署分布与训练分布不同且策略选择执行多种技能之一同时接收关于其成功率的在线反馈的情况。

(4)系统设计:这项工作表明,使用相对简单的神经网络架构和训练算法可以在乒乓球中实现(可能令人惊讶地)高水平的性能。我们代理中的策略架构是众所周知的,已经存在多年,并且参数很少。这表明在开发高性能学习机器人控制器时,系统设计的重要性。系统的每个方面都经过了多轮优化和重新设计。这在控制器的鲁棒性和模拟到现实的性能中发挥了核心作用,这些性能在数小时的游戏过程中保持稳定。展望未来,为了开发既高度强大又鲁棒的机器人控制器以完成复杂的现实世界任务,系统设计可能与算法、策略架构和数据集同样重要。

这是第一个能够在人类水平上与人类进行体育运动的机器人代理,标志着机器人学习和控制领域的一个里程碑。然而,这也只是朝着机器人在许多有用的现实世界技能上达到人类水平这一长期目标迈出的一小步。为了实现单一任务上的人类水平表现,然后超越这一点,构建能够熟练且安全地与现实世界中的人类交互的通用机器人,仍然有大量工作要做。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群







请到「今天看啥」查看全文