专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【魔性】DeepMind教AI玩跑酷，强化学习创造新动作（动图）

新智元 · 公众号 · AI · 2017-07-11 13:06

正文

1 新智元编译

来源： deepmind.com

作者： Nicolas Heess，JoshMerel & Ziyu Wang

编译：刘小芹

【新智元导读】 强化学习（RL）是通过激励系统来教导行为的方法。这是机器学习的一种重要方法，在智能控制机器人和分析预测等领域有许多应用。DeepMind 已经使用强化学习方法教会AI围棋和多种Atari游戏，现在，DeepMind又利用强化学习教会了AI“跑酷”，在各种不同的模拟环境中让智能体产生多种灵活、具有创造性的动作。本文介绍了最新的3篇论文。

猴子在树林之间灵活穿行，足球运动员闪开对手射门。掌握些复杂的动作控制是物理智能的标志，也是AI研究的重要组成部分。

真正的运动智能（motor intelligence）需要学习如何控制和协调柔韧的身体在各种复杂环境中解决任务。当前，控制模拟的人形体进行活动的尝试来自不同领域，包括计算机动画（computer animation）和生物力学（biomechanics）。有一种趋势是使用手工制作的模拟人，有时候加上运动捕捉数据来产生特定的行为。然而，这种方法需要相当多的工程工作，而且可能导致局限于某些行为，或产生的行为难以对新任务重复利用。

DeepMind 最新的3篇论文探索了产生灵活、自然的行为的方式，这些行为可以重复利用并适用于解决不同的任务。

下面是完整的演示视频：

在丰富的环境中产生运动行为

对于一些AI问题，例如玩 Atari 游戏或围棋，目标是很容易定义的——让AI赢得游戏。但是如何描述一个后空翻过程呢？或者如何描述一个跳跃行为？如何准确地描述复杂的行为是教人工智能系统获取运动技能的常见难题。在这项研究中，我们探讨了如何使用简单的高层目标，例如“不要跌倒地向前移动”，来让身体与环境交互，从头开始产生复杂的行为。具体来说，我们训练了具有各种不同的模拟人体的智能体，以便在不同的地形行进，这些地形要求智能体进行跳跃、转弯和蹲伏。结果显示，智能体不需要接收具体的说明就能发展出这些复杂的技能，这一方法可以应用于为多个不同的模拟人体训练系统。下面的GIF展示了这一技术如何产生高质量的运动和韧性。

平面运动——步行

一个模拟的“平面”步行者反复尝试爬过墙壁。

移动行为——爬行

一个模拟的“蜘蛛”爬行者学习在木板之间跳跃所需的精准移动。

通过对抗模拟从动作捕捉中学习人类行为

前面描述的行为可以是非常稳健的，但是由于这些动作必须从无到有地形成，所以往往看起来不像是人。我们的第二篇论文演示了如何训练一个通过人类行为的动作捕捉数据来模拟动作的策略网络，以预学习某些特定的技能，例如步行，从地上起身，跑步和转弯。这个网络产生了类似人的行为，而且可以进行微调，以重新利用这些行为来解决其他任务，例如爬楼梯和在有围墙的走廊中导航。

一个智能体产生了像人类一样的走路动作

一个人形智能体摔倒了，然后重新站起来

各种不同行为的稳健模拟

DeepMind 的第3篇论文提出一种基于当前最优的生成模型的神经网络架构，能够学习不同行为之间的关系，并模拟它们产生具体的动作。经过训练后，该系统可以对观察到的一个单个动作进行编码，并基于这个演示创建一个全新的动作。它也可以在不同类型的行为之间切换，即使它从没看到过这种切换是怎样的，例如在不同的步行风格之间切换。

【魔性】DeepMind教AI玩跑酷，强化学习创造新动作（动图）

正文

请到「今天看啥」查看全文