专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

量子位 · 公众号 · AI · 2017-09-15 12:57

正文

安妮编译自 Caffe2.ai
量子位出品 | 公众号 QbitAI

今年4月，Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天，Caffe2又推出了一组强化学习库RL_Caffe2。

强化学习（Reinforcement learning,RL）是机器学习的一个领域，它想教会智能体动作和行为的关系，并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现：

1.DQN

一种Deep Q Learning网络的实现：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略（on-policy）的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中，我们无需了解可能的动作，只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现：

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址：

https://github.com/caffe2/reinforcement-learning-models

无独有偶，几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境，用户可在TensorFlow中训练智能体并执行批量运算。此外，研究人员还提供了近端策略优化（Proximal Policy Optimization，PPO）中的实现BatchPPO。

TensorFlow Agents GitHub 地址：

https://github.com/tensorflow/agents

推荐文章

爱可可-爱生活 · [LG]《GenMol: A Drug Discovery Ge-20250114055950

3 天前

爱可可-爱生活 · 今日推介(第1647期)：通过投机取样加速扩散模型、用Agent-20250111061818

6 天前

爱可可-爱生活 · 本文通过利用大型语言模型生成合成数据集，并结合LoRA和DPO技-20250111054947

6 天前

爱可可-爱生活 · //@爱可可-爱生活：欢迎参与～-20250110061803

1 周前

爱可可-爱生活 · [LG]《Towards System 2 Reasoning -20250110054322

1 周前

科尔沁都市报 · 杜文杰持枪杀人案今日开庭审理

8 年前

创伙伴 · 从美女主编到创业狗，我花了上千万，买到这10条教训！

7 年前

午夜漫画站 · 邪恶漫画：点的移动

7 年前

木雕 · 【千寻•雯雯】文玩微商“秒杀王”强力袭来

7 年前

正商参略 · 勒索病毒全球爆发！黑客为什么只要比特币（中国应该彻底封杀？）

7 年前

Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

正文

安妮 编译自 Caffe2.ai量子位 出品 | 公众号 QbitAI

安妮编译自 Caffe2.ai
量子位出品 | 公众号 QbitAI