专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

「人工智能研学社· 强化学习组」第三期：效率强者 - 异步方法

机器之心 · 公众号 · AI · 2017-02-11 13:31

正文

机器之心原创

人工智能研学社

本期研读论文：Asynchronous Methods for Deep Reinforcement Learning (ICML 2016)。

学习步骤：

研读材料
自学要点

【文章简介】

Mnih 等人提出了四个强化学习方法的异步方法，包括 Q-learning、SARSA、n-step Q-learning、高级 actor-critic 算法。其中，异步的高级 actor-critic (A3C) 算法的表现最好。并行的执行器使用不同的探索策略来稳定训练过程，所以经历回放 (experience replay) 并没有被使用。与大多数深度学习算法不同，异步方法能够在单个多核 CPU 上运行。以 Atari 游戏为例，A3C 能够在更快的速度下，表现得与之前的算法旗鼓相当，甚至更好。A3C 在连续动态控制问题上也取得了成功：包括赛车游戏 TORCS、物理控制游戏 MujoCo、以及迷宫游戏 Labyrinth。在 Labyrinth 中，随机的 3D 迷宫直接通过视觉输入，每一个章节中，玩家都要面对全新的迷宫，因此该算法也需要学习一个能够探索随机迷宫的指导性战略。

论文链接： https://arxiv.org/pdf/1602.01783.pdf

【其它阅读材料】

Sutton new book Chapter 13, Policy Gradient Methods
David Silver, Reinforcement Learning, Lecture 7：

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)：

https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2#.ja493g8ig

加入机器之心强化学习小组：

对于强化学习这样一个既有历史沉淀又有未来前景的技术领域，你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累，但要进入一个新的领域，你可能还是常常感到：

找不到合适的学习资料
有学习动力，但无法坚持
学习效果无法评估
遇到问题缺乏讨论和解答的途径

因此，为了帮助“强化学习新手”进入这一领域，机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。

面向人群：有一定的机器学习技术基础，在强化学习方面处于学习阶段的学习者
学习形式：学习资料推荐、统一进度学习（教材或论文）、群组讨论、专家答疑、讲座等。
加入方式：

添加机器之心小助手微信，并注明：加入强化学习组
完成小助手发送的入群测试（题目会根据每期内容变化），并提交答案，以及其他相关资料（教育背景、从事行业和职务、人工智能学习经历等）
小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【LongPO：让大语言模型在长文本上自我进化，无需人工标注，轻-20250223125516

7 小时前

爱可可-爱生活 · 【awesome-embodied-vla-va-vln：一个全-20250223125700

7 小时前

逆行的狗 · 搭建属于你自己的AI知识库

21 小时前

逆行的狗 · 搭建属于你自己的AI知识库

21 小时前

机器之心 · 踹了OpenAI后，Figure光速发布具身大模型Helix，能力前所未有、创多项第一

2 天前

新智元 · 2025最强开发者盛宴倒计时，MIT顶级大神亲授秘籍！百亿招标等你拿

3 天前

澎湃新闻 · 相声演员大兵开车刮擦后问交警“你算老几”，怎么回事？

8 年前

微设计 · 别人家的门窗

8 年前

世界音乐 · 南非司机20年寻觅一首中文歌，直到这一刻，他瞬间泪崩

7 年前

房屋快线 · 房屋快线-法拍房源推荐255期

7 年前

中国新闻周刊 · 9款适合给"腿长不够一米八"的人开的车

7 年前

「人工智能研学社· 强化学习组」第三期：效率强者 - 异步方法

正文

本期研读论文：Asynchronous Methods for Deep Reinforcement Learning (ICML 2016)。

【文章简介】

【其它阅读材料】

推荐者介绍:

加入机器之心强化学习小组：

请到「今天看啥」查看全文

「人工智能研学社· 强化学习组」第三期： 效率强者 - 异步方法

正文

本期研读论文：Asynchronous Methods for Deep Reinforcement Learning (ICML 2016)。

【文章简介】

【其它阅读材料】

推荐者介绍:

加入机器之心强化学习小组：

请到「今天看啥」查看全文

「人工智能研学社· 强化学习组」第三期：效率强者 - 异步方法