本期研读论文:Asynchronous Methods for Deep Reinforcement Learning (ICML 2016)。
学习步骤:
研读材料
自学要点
【文章简介】
Mnih 等人提出了四个强化学习方法的异步方法,包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中,异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程,所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同,异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例,A3C 能够在更快的速度下,表现得与之前的算法旗鼓相当,甚至更好。A3C 在连续动态控制问题上也取得了成功:包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中,随机的 3D 迷宫直接通过视觉输入,每一个章节中,玩家都要面对全新的迷宫,因此该算法也需要学习一个能够探索随机迷宫的指导性战略。
论文链接:https://arxiv.org/pdf/1602.01783.pdf
【其它阅读材料】
Sutton new book Chapter 13, Policy Gradient Methods
David Silver, Reinforcement Learning, Lecture 7:
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2#.ja493g8ig
推荐者介绍:
本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。 致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。 目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。
机器之心曾经发表过的介绍强化学习的文章:
加入机器之心强化学习小组:
对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:
找不到合适的学习资料
有学习动力,但无法坚持
学习效果无法评估
遇到问题缺乏讨论和解答的途径
因此,为了帮助“强化学习新手”进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。
添加机器之心小助手微信,并注明:加入强化学习组
完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」
入群测试 QUIZ
1)教育背景 2)从事行业和职务 3)人工智能学习经历 4)强化学习学习经历
请解释:什么是 actor-critic 方法?
在异步方法中,为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程?
©本文为机器之心原创,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):[email protected]
投稿或寻求报道:[email protected]
广告&商务合作:[email protected]