来源: deepmind.com
作者:Nicolas Heess,JoshMerel & Ziyu Wang
编译:刘小芹
【新智元导读】 强化学习(RL)是通过激励系统来教导行为的方法。这是机器学习的一种重要方法,在智能控制机器人和分析预测等领域有许多应用。DeepMind 已经使用强化学习方法教会AI围棋和多种Atari游戏,现在,DeepMind又利用强化学习教会了AI“跑酷”,在各种不同的模拟环境中让智能体产生多种灵活、具有创造性的动作。本文介绍了最新的3篇论文。
猴子在树林之间灵活穿行,足球运动员闪开对手射门。掌握些复杂的动作控制是物理智能的标志,也是AI研究的重要组成部分。
真正的运动智能(motor intelligence)需要学习如何控制和协调柔韧的身体在各种复杂环境中解决任务。当前,控制模拟的人形体进行活动的尝试来自不同领域,包括计算机动画(computer animation)和生物力学(biomechanics)。有一种趋势是使用手工制作的模拟人,有时候加上运动捕捉数据来产生特定的行为。然而,这种方法需要相当多的工程工作,而且可能导致局限于某些行为,或产生的行为难以对新任务重复利用。
DeepMind 最新的3篇论文探索了产生灵活、自然的行为的方式,这些行为可以重复利用并适用于解决不同的任务。
下面是完整的演示视频:
对于一些AI问题,例如玩 Atari 游戏或围棋,目标是很容易定义的——让AI赢得游戏。但是如何描述一个后空翻过程呢?或者如何描述一个跳跃行为?如何准确地描述复杂的行为是教人工智能系统获取运动技能的常见难题。在这项研究中,我们探讨了如何使用简单的高层目标,例如“不要跌倒地向前移动”,来让身体与环境交互,从头开始产生复杂的行为。具体来说,我们训练了具有各种不同的模拟人体的智能体,以便在不同的地形行进,这些地形要求智能体进行跳跃、转弯和蹲伏。结果显示,智能体不需要接收具体的说明就能发展出这些复杂的技能,这一方法可以应用于为多个不同的模拟人体训练系统。下面的GIF展示了这一技术如何产生高质量的运动和韧性。
平面运动——步行
一个模拟的“平面”步行者反复尝试爬过墙壁。
移动行为——爬行
一个模拟的“蜘蛛”爬行者学习在木板之间跳跃所需的精准移动。
前面描述的行为可以是非常稳健的,但是由于这些动作必须从无到有地形成,所以往往看起来不像是人。我们的第二篇论文演示了如何训练一个通过人类行为的动作捕捉数据来模拟动作的策略网络,以预学习某些特定的技能,例如步行,从地上起身,跑步和转弯。这个网络产生了类似人的行为,而且可以进行微调,以重新利用这些行为来解决其他任务,例如爬楼梯和在有围墙的走廊中导航。
一个智能体产生了像人类一样的走路动作
一个人形智能体摔倒了,然后重新站起来
DeepMind 的第3篇论文提出一种基于当前最优的生成模型的神经网络架构,能够学习不同行为之间的关系,并模拟它们产生具体的动作。经过训练后,该系统可以对观察到的一个单个动作进行编码,并基于这个演示创建一个全新的动作。它也可以在不同类型的行为之间切换,即使它从没看到过这种切换是怎样的,例如在不同的步行风格之间切换。
正常走路和弯腰驼背版走路
上面的GIF图中,左边和中间是两种风格的步行行为,右边则展示了同一个智能体在两种风格的步行之间进行了不易觉察的切换。
模仿特殊步行风格
在上面的GIF中,左边是平面环境上的步行者演示了特殊的行走风格,在右边,智能体使用单一的策略网络来模仿这种行走风格。
实现对模拟人体进行灵活、具适应性的动作控制是AI研究的关键方面。我们的工作旨在开发灵活的系统,这样的系统可以学习和调整技能以解决动作控制任务,同时减少实现这样的目标所需要的人工工程。未来的研究可以扩展这些方法,以在更复杂的情况下实现更多样的行为。
相关论文:
《在丰富的环境中产生运动行为》Emergence of locomotionbehaviours in rich environments
下载:https://arxiv.org/abs/1707.02286
《通过对抗模拟从动作捕捉中学习人类行为》Learning humanbehaviours from motion capture by adversarial imitation
下载:https://arxiv.org/abs/1707.02201
《不同行为的稳健模拟》Robust imitation of diversebehaviours
下载:https://deepmind.com/documents/95/diverse_arxiv.pdf
原文:https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/
点击阅读原文查看新智元招聘信息