深度强化学习(Deep Reinforcement Learning)是将深度学习与强化学习结合起来从而实现从 Perception 感知到 Action 动作的端对端学习的一种全新的算法。举例来理解,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有 hand-crafted 工作。
整个过程,就是一个连续决策的过程,其特点是不给任何数据做标注,仅仅提供一个回报函数,这个回报函数决定当前状态得到什么样的结果(比如“好”还是“坏”),强化学习最终目的是让决策过程中整体的回报函数期望最优,深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。
虽然说,深度强化学习可以从零开始,但是毕竟这还是深度学习中的最前沿的算法,为了更好的理解,大家还是要具备一些基本基础:
一定的数学基础:线性代数基础和概率论基础;
一定的编程基础:(Python 编程基础,后面的代码实现可以基于 Tensorflow 实现)。
由于深度强化学习的样本是一个时间序列,要将增强学习的问题模型化,就必须掌握 MDP(Markov Decision Process)马尔科夫决策过程。
在引出了 MDP 之后,由于每一个时刻的状态是确定的,我们可以用 Value Function 价值函数来描述这个状态的价值,从而确定我们的决策方式。
因为需要估算 Value Function,找出最优决策,引入 Bellman 方程是最好的办法。
还有 Value Iteration (价值迭代)、Q Learning 等学习的内容,都需要完成学习。
斯达克学院(StuQ)携手 AI 教研室(AI_classroom)共同为大家打造一系列深度强化学习公开课,第一讲内容我们邀请到香港理工大学计算机系博士—Traffas 为大家进行分享,我们会用一个小时的时间来带领大家理解什么是深度强化学习,培养解决大家的解决问题思路,知道什么问题需要强化学习的算法求解,透彻细致的讲解 Q 算法的机制,具体可参考海报。
扫码添加小助手,获取进群方式。
戳阅读原文,了解更多。