专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《GenMol: A Drug ... ·  3 天前  
爱可可-爱生活  ·  今日推介(第1647期):通过投机取样加速扩 ... ·  6 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20250 ... ·  1 周前  
爱可可-爱生活  ·  [LG]《Towards System 2 ... ·  1 周前  
51好读  ›  专栏  ›  量子位

Caffe2推出强化学习库,包含多个基于Caffe2的RL实现

量子位  · 公众号  · AI  · 2017-09-15 12:57

正文

安妮 编译自 Caffe2.ai
量子位 出品 | 公众号 QbitAI

今年4月,Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天,Caffe2又推出了一组强化学习库RL_Caffe2。

强化学习(Reinforcement learning,RL)是机器学习的一个领域,它想教会智能体动作和行为的关系,并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现:

1.DQN

一种Deep Q Learning网络的实现:

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略(on-policy)的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中,我们无需了解可能的动作,只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现:

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址:

https://github.com/caffe2/reinforcement-learning-models

无独有偶,几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境,用户可在TensorFlow中训练智能体并执行批量运算。此外,研究人员还提供了近端策略优化(Proximal Policy Optimization,PPO)中的实现BatchPPO。

TensorFlow Agents GitHub 地址:

https://github.com/tensorflow/agents

相关论文:

https://arxiv.org/abs/1709.02878

活动报名

加入社群

量子位AI社群8群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot3入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot3,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态