专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

重磅！DeepMind推出具身智能“足球运动员”，过人、射门、防守样样精通，真实机器人可直接部署

学术头条 · 公众号 · · 2024-04-11 03:21

正文

足球是一项综合性非常强的运动，运动员不仅需要具备超出常人的身体素质，还必须掌握十分精湛的技术。

对于我们人类而言， 要想成为一名好的足球运动员并不容易 ，更不用说那些“肢体不协调且动作僵硬”的机器人了。

如今， 由 Google DeepMind 研发的 具身智能体（agent） ——一个微型人形机器人， 不仅可以快速“奔跑”“过人”“进攻”，还可以阅读比赛，正确预测足球移动方向，以及阻挡对手射门等 。

视频｜人形机器人进行一场一对一的足球比赛。（来源：Google DeepMind）

据介绍，在实验中，与对比基线相比，该机器人奔跑速度快了 181% ，转身速度快了 302% ，（跌倒后）起身时间缩短了 63% ，踢球速度快了 34% ，同时也能有效地将各种技能结合起来，远远超出了人们此前对机器人的固有认知。

相关研究论文以“ Learning agile soccer skills for a bipedal robot with deep reinforcement lea rning ”为题，以封面文章的形式已发表在 Science 子刊 Science Robotics 上。

“足球智能体”是如何踢球的？

创建通用具身智能，即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体，是人工智能（AI）和机器人领域长期以来共同追求的目标。

深度强化学习（deep RL）已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。

如今，高质量的四足腿式机器人已经广泛应用，并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能（如带球、射门、截球或接球），以及用腿进行简单的操纵。

然而，另一方面， 对于人形机器人和双足机器人的控制，投入的工作要少得多 ，这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。

现有的基于学习的工作更加有限，主要集中在学习和转移独特的基本技能，如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制，从而限制了该方法的通用性。

在这项研究中， 为使机器人能够执行长期任务，Google DeepMind 团队讨论了基于学习的人形机器人全身控制 。特别是，他们使用深度强化学习训练低成本的现成机器人踢多机器人足球，机器人在训练后展现出的敏捷性和流畅性远超人们的期望。

他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制，为此训练了一个智能体在模拟中进行简化的一对一足球，并 直接将学习到的策略部署在真实机器人上 （如下图）。

图｜机器人足球环境。Google DeepMind 团队创建了匹配的模拟（左）和真实（右）足球环境。球场长 5 米，宽 4 米，在真实环境中铺有 50 厘米的方形面板。真实环境还配备了一个动作捕捉系统，用于跟踪两个机器人和足球。（来源：该论文）

据论文描述， 训练流程包括两个阶段 。在第一阶段，研究团队训练了两种技能策略：一个是起身站立；另一个是面对未经训练的对手进行射门得分。

在第二阶段，通过提炼技能，并使用一种自我博弈形式的多智能体训练，来训练智能体完成完整的 1v1 足球任务，其中对手是从智能体自身的部分训练副本池中抽取的。

图｜智能体训练设置。分为两个阶段：在技能训练阶段（左），分别训练了足球技能和起身技能；在提炼和自我发挥阶段（右），将这两种技能提炼成一个既能从地上站起来又能踢足球的个体；第二阶段也包含了自我博弈：从早期训练中保存的策略快照中随机抽取对手。（来源：该论文）

结果发现，与从头开始训练智能体进行完整的 1v1 足球任务相比，这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。

据介绍，训练后的智能体展现了敏捷和动态的运动能力，包括行走、侧移、踢球、摔倒后恢复和与球的互动，并将这些技能流畅、灵活地组合在一起。

另外， 智能体也涌现出了一些意想不到的策略 ，这些策略比脚本策略更充分地利用了系统的全部功能，而这些策略可能是人类根本没有想到的。

其中一个例子就是新出现的“转身行为” ，即机器人用脚的一角做支点并旋转，这对脚本设计来说具有挑战性，但它的表现却优于较为保守的基线。

视频｜并排比较学习行为和脚本行为。（来源： Tuomas Haarnoja）

此外，这一学习方法可以发现针对特定比赛情况进行优化的行为。例如，与情景相关的敏捷技能，如踢移动的球；新出现的战术，如巧妙的防守跑动模式；以及适应比赛情况的步法，如在接近持球者时与追逐无球对手时相比，步法更短。

而且，智能体学会了对足球和对手做出预测，根据比赛环境调整动作，并在较长的时间尺度内协调动作，从而最终完成进球。

不足与展望

研究团队表示，这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。

然而， 该研究还存在一定的局限性 ，例如：

1） 领域特定知识和随机化 ：研究中的学习流程依赖于一些特定领域的知识和领域随机化，这是机器人学习文献中常见的做法。例如，奖励函数设计和起立技能的训练都需要手动选择正确的技能状态，这可能对更动态的平台来说难以实现或不切实际。

2） 未利用真实数据进行迁移 ：研究方法完全依赖于模拟到真实的迁移，而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果，并使得行为更加稳定多样。

3） 未考虑更大尺寸机器人 ：研究应用在小型机器人上，并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进，例如，对于更大尺寸的机器人，可能需要考虑更多的动态和稳定性问题。

4） 性能随时间退化 ：机器人的性能会随时间快速退化，主要是因为髋关节变松或关节位置编码器校准失误。因此，需要定期进行机器人维护。