专栏名称: AI科技大本营

迎来到AI科技大本营。这里汇集了优秀的AI学习者，技术大咖和产业领袖；提供接地气的实战课程。在这里和优秀的人一起成长。

目录

相关文章推荐

爱可可-爱生活 · 【Scira：一个极简主义的AI驱动搜索引擎 ... · 昨天

爱可可-爱生活 · 【LLM Data ... · 昨天

新智元 · 南大钱超团队攻克百亿晶体管难题，斩获EDA顶 ... · 昨天

黄建同学 · Figure AI 投资者 Chris ... · 2 天前

新智元 · 全球顶级AI大咖空降上海，千亿资本百万年薪引 ... · 2 天前

51好读 › 专栏 › AI科技大本营

142页"ICML会议"强化学习笔记整理，值得细读

AI科技大本营 · 公众号 · AI · 2019-10-16 16:46

正文

作者 | David Abel

编辑 | DeepRL

来源 | 深度强化学习实验室（ID: Deep-RL）

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。其中强化学习便是该会议很重要的一个话题，每年都有非常多的投稿。本文整理了David Abel总结的ICML2018、2019两年的深度强化学习笔记，详看正文。

1

ICML-2019-RL-Note

作者整理简介：我在本次会议的RL分场上度过了大部分时间（可惜错过了所有主题演讲), 所以我的大部分反思（和笔记）都集中在RL ：

关于非策略评估和非策略学习的大量工作（例如，参见Hanna 等人[35]，Le等人[49]，Fujimoto等人[26]，Gottesman等人的工作）等[32]
探索再次成为一个热门话题（参见Mavrin等人[57]，Fatemi等人[25]，Hazan等人[37]，Shani等人[76]的工作）。 除了策略评估（以及其他一些评估），这也是RL中的基本问题之一。
一些非常好的工作继续澄清分布式RL [10]（参见[74，57，67]的工作）。
作者认为我们需要标准化RL中的评估。 并不是说我们只需要一个单一的方法或一个域，而是目前评估协议中有太多差异。

元学习&元强化学习

元学习算法通用方法

Choose a form of Pr(φi | Dtrain i , θ).
Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.

为什么元强化学习有用？

几乎所有问题都与现有方法的样本效率低下有关。 将TRPO应用于真正的机器人时，机器人需要花费数天或数周的时间才能开始取得任何进展（学习步行）。

通常情况下，智能体的目标是学习一个策略最大化累计期望奖励。

而且，RL目标的元学习问题是学习

，因此，元RL问题如下：

其优化过程如下：

当然元学习有它的优势，也有对应的挑战。

挑战1： 超量配置：元学习需要任务分配，一些元学习方法可能会过度适合这些任务分配。

挑战2： 任务设计：通常必须手动选择这些任务分配，或者它们的多样性不足以鼓励正确的行为。很难以正确的方式选择任务分配！

挑战3： 了解哪种算法过度拟合：许多不同的方法（黑盒，基于优化的非参数方法），但是我们不知道哪种算法最容易遭受元过度拟合。

图强化学习

图模型最近在深度学习中特别的人们，然而在强化学习中也是独领风骚：TibGM: A Graphical Model Approach for RL

还有包括分布式强化学习，理论等相关内容，详见文末PDF2019

2

ICML-2018-RL-Note

Github查看(欢迎star仓库):

https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source

（*本文为 AI科技大本营转载文章， 转载请 联系原作者 ）

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【Scira：一个极简主义的AI驱动搜索引擎，帮你快速找到互联网-20250224134117

昨天

爱可可-爱生活 · 【LLM Data Scrapers：为LLM训练和推理提供开源-20250224134759

昨天

新智元 · 南大钱超团队攻克百亿晶体管难题，斩获EDA顶会2025最佳论文！AI学院本硕博生联手

昨天

黄建同学 · Figure AI 投资者 Chris Camillo 谈到人形-20250223160854

2 天前

新智元 · 全球顶级AI大咖空降上海，千亿资本百万年薪引爆人才争夺战！机器人上街遛狗

2 天前

ZOL中关村在线 · 马云办公室内景曝光：比王健林低调不少！

8 年前

中国知识产权报 · 这种“歪脑筋”动不得！多名“挂证”专利代理人资格证书被吊销！

7 年前

三联生活周刊 · 读书 | 跟性的联系最密切的两种食物

7 年前

深夜发媸 · 出去旅游拍照，比Pose更重要的是怎样穿衣上镜！

7 年前

新闻夜航 · 心疼！工地纸箱内，发现脐带未脱落男婴！医生判断：从出生到被遗弃，大约一周时间！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!