专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

目录

相关文章推荐

爱可可-爱生活 · 【Gradio-FFmpeg：媒体转换的简易 ... · 2 天前

爱可可-爱生活 · 【Virgo：初步探索复现o1类多模态大型语 ... · 2 天前

宝玉xp · 回复@googol4u5g:用来学习也是很好 ... · 3 天前

爱可可-爱生活 · [CL]《Do NOT Think ... · 4 天前

爱可可-爱生活 · 今日开张，加更一条 -20250104221253 · 5 天前

51好读 › 专栏 › 机器之心

学界 | DeepMind新论文提出神经情景控制：可显著提速深度强化学习

机器之心 · 公众号 · AI · 2017-03-11 12:52

正文

选自arXiv

机器之心编译

参与：吴攀

DeepMind 近日在 arXiv 上发布了一篇新论文介绍了一种名叫「神经情景控制（Neural Episodic Control）」的新方法。DeepMind 创始人兼 CEO Demis Hassabis 也是该论文的作者之一。机器之心对该论文进行了摘要介绍，论文原文可点击文末「阅读原文」查看。

深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的，要想实现合理程度的表现，所需的数据量往往比人类所需的多几个数量级。我们提出了神经情景控制（Neural Episodic Control/NEC）：一种能够快速吸收新经验和基于此采取行动的深度强化学习代理。我们的代理使用了一种价值函数的半值表示（semi-tabular representation）：一种过去经验的缓冲器，其包含了该价值函数的缓慢变化的状态表示和快速更新的估计。我们通过在广泛环境中的研究表明：我们的代理的学习速度可以显著快于当前最佳的通用深度强化学习代理。

神经情景控制（Neural Episodic Control）

我们的代理由三个组分构成：一个处理像素图像的卷积神经网络，一个记忆模块集合（每个动作一个模块）和一个将动作记忆的读出转换成 Q(s, a) 值的最终的网络。这里的卷积神经网络使用了和 DQN (Mnih et al., 2015) 所使用的一样的架构。

算法 1：神经情景控制（Neural Episodic Control）

图 1：在一个可微分神经词典（Differentiable Neural Dictionary）上的操作的图示

图 2：对单个动作 a 的情景记忆模块（episodic memory module）的架构。表示当前状态的像素进入通过左下方的一个卷积神经网络，然后在右上方输出 Q(s, a) 的一个估计。梯度会流过这整个架构。

图 3～图 8：不同算法在不同游戏上的学习曲线，上图为不同算法在 Ms. Pac-Man 上的学习曲线

图 10：人类标准化的游戏分数，按算法独立排序，y 轴上表示的分位数（quantiles）

©本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

推荐文章

爱可可-爱生活 · 【Gradio-FFmpeg：媒体转换的简易界面，利用Gradi-20250107192105

2 天前

爱可可-爱生活 · 【Virgo：初步探索复现o1类多模态大型语言模型，旨在通过结合-20250107180026

2 天前

宝玉xp · 回复@googol4u5g:用来学习也是很好的用途👍//@go-20250106153623

3 天前

爱可可-爱生活 · [CL]《Do NOT Think That Much for -20250105060014

4 天前

爱可可-爱生活 · 今日开张，加更一条 -20250104221253

5 天前

南都娱乐周刊 · 长跑6年迟迟不婚的蔡依林锦荣分手，女强男弱的恋爱不长久，这个魔咒究竟谁能解开？

8 年前

哈哈搞笑视频 · 5岁小男孩月薪8000，开铲车开啤酒！太牛了！

8 年前

最美应用 · 把一颗绿色星球放进你的口袋，用萌萌的植物让它生机勃勃吧！

7 年前

橙子说成长 · 周年庆期间，这个福利你一定不能错过

7 年前

房地产经理人联盟 · 全套水电预埋施工技术,非常全,值得收藏！

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!