专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
商汤科技SenseTime  ·  商汤科技十周年,徐立首提 AI 2.0时代核心战略 ·  昨天  
商汤科技SenseTime  ·  商汤科技十周年,徐立首提 AI 2.0时代核心战略 ·  昨天  
爱可可-爱生活  ·  【MGDebugger:多粒度LLM代码调试 ... ·  5 天前  
爱可可-爱生活  ·  [LG]《Manifolds, ... ·  6 天前  
51好读  ›  专栏  ›  机器之心

「人工智能研学社· 强化学习组」第三期: 效率强者 - 异步方法

机器之心  · 公众号  · AI  · 2017-02-11 13:31

正文

机器之心原创

人工智能研学社

本期研读论文:Asynchronous Methods for Deep Reinforcement Learning (ICML 2016)。


学习步骤:

  1. 研读材料

  2. 自学要点

【文章简介】



Mnih 等人提出了四个强化学习方法的异步方法,包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中,异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程,所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同,异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例,A3C 能够在更快的速度下,表现得与之前的算法旗鼓相当,甚至更好。A3C 在连续动态控制问题上也取得了成功:包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中,随机的 3D 迷宫直接通过视觉输入,每一个章节中,玩家都要面对全新的迷宫,因此该算法也需要学习一个能够探索随机迷宫的指导性战略。


论文链接:https://arxiv.org/pdf/1602.01783.pdf


【其它阅读材料】

  • Sutton new book Chapter 13, Policy Gradient Methods

  • David Silver, Reinforcement Learning, Lecture 7:

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

  • Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C):

https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2#.ja493g8ig


推荐者介绍:


本期研习材料由 Yuxi Li 博士推荐。 Yuxi Li 博士是加拿大阿尔伯塔大学(University of Alberta)计算机系博士、博士后。 致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。 目前在筹备深度学习相关的创业项目。Yuxi Li 博士也将参与专家答疑。


机器之心曾经发表过的介绍强化学习的文章:

加入机器之心强化学习小组:


对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:

  1. 找不到合适的学习资料

  2. 有学习动力,但无法坚持

  3. 学习效果无法评估

  4. 遇到问题缺乏讨论和解答的途径

因此,为了帮助“强化学习新手”进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

  • 面向人群:有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者

  • 学习形式:学习资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。

  • 加入方式:

  1. 添加机器之心小助手微信,并注明:加入强化学习组


  2. 完成小助手发送的入群测试(题目会根据每期内容变化),并提交答案,以及其他相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)

  3. 小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

入群测试 QUIZ


1)教育背景 2)从事行业和职务 3)人工智能学习经历 4)强化学习学习经历

  1. 请解释:什么是 actor-critic 方法?

  2. 在异步方法中,为什么我们不需要通过经历回放 (experience replay) 来稳定学习过程?

©本文为机器之心原创,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]