专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
宝玉xp  ·  一句话提示词:如何让 AI ... ·  昨天  
爱可可-爱生活  ·  【[207星]Deep Research ... ·  昨天  
黄建同学  ·  可以预见 2025年 AI Agents ... ·  昨天  
爱可可-爱生活  ·  【[138星]Unlock-DeepSeek ... ·  3 天前  
AI前线  ·  “李飞飞团队 50 美元炼出 ... ·  4 天前  
51好读  ›  专栏  ›  机器之心

学界 | 伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标

机器之心  · 公众号  · AI  · 2017-05-20 11:51

正文

选自arXiv

机器之心编译

参与:黄玉胜、吴攀


强化学习(RL)和生成对抗网络(GAN)都是近来的热门研究主题,已经在许多领域得到了非常出色的表现。近日,伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习智能体的自动目标生成(Automatic Goal Generation for Reinforcement Learning Agents)》的论文中,研究者提出了一种让智能体可以自动发现目标的方法。机器之心对该论文进行了摘要介绍,论文原文请参阅:https://arxiv.org/abs/1705.06366



强化学习是一种训练智能体执行任务的强大技术。然而,强化学习训练的智能体只能通过其奖励函数(reward function)实现单一任务,这种方法不能很好地扩展到智能体需要执行各种不同的任务集合中,例如导航到房间的不同位置或将物体移动到不同位置。相反,我们提出了一种允许智能体自动发现其能够执行的任务范围的方法。我们使用生成器网络给智能体提出任务,然后试着实现并将其作为目标状态(goal state)。该生成器网络使用对抗训练进行优化,以产生总是处于合适难度的智能体任务。因此,我们的方法自动生成任务,以供智能体学习。我们表明,通过使用此框架,智能体可以高效自动地学习执行广泛的任务,而不需要任何预先的环境知识。我们的方法也可学习以稀疏奖励(sparse reward)来完成任务,而在以往这是重大的挑战。


算法 1:训练目标 GAN(Goal GAN)


算法 2:生成式目标学习


图 1:我们的迷宫环境;以橙色显示的智能体必须移动到的一个目标位置(以红色显示),采样工作是在任务开始的时候开始的。迷宫墙呈灰色。


图 2:我们的方法(蓝色)和基准方法(红色)训练效率学习曲线的比较。y 轴表示迷宫中所有目标位置的平均回报,x 轴显示了新目标已被采样的次数(对于两种方法,该策略都针对相同次数的迭代进行训练),所有的点均为在 5 个随机种子(seed)上的平均值。



图 3:Goal GAN 采样的目标(与图 4 相同的训练方法)。当前方法与难度相适应就是「好目标」


图 4:可视化状态空间不同部分的策略表现(与图 3 相同的训练策略)。说明一下,可行状态空间(即,迷宫内的空间)被划分为网格,并且从每个网格单元的中心选择目标位置。每个网格单元根据此目标实现的预期回报进行着色:红色表示 100% 的成功,蓝色表示 0% 成功。


表 1:在完整的状态空间中可行目标的百分比


图 5:二维和三维点质量的可视化,可行区域以蓝色界定。在(a)中的点是均匀采样的可行位置。如果智能体可以到达它们,则点为绿色,否则为红色。图中的线是观察到的特定推出,并且颜色匹配交叉是智能体在每种情况下试图达到的特定目标。在(b)中,我们通过 Goal GAN 绘制初始采样生成,采用我们的技术初始化生成器。







请到「今天看啥」查看全文