现在先不管上面的一团数学推导(对我来说也很难!)。已知Q-learning算法是一种“无模型 ”算法。“无模型”的强化学习指的是代理不需要特别学习游戏的规则或物理学。在基于模型的强化学习中,常常需要根据用来计算下一状态的“转换矩阵”(给定某一当前状态和动作)以及用于计算奖励的“奖励函数”(给定某一当前状态和动作),来定义这些规则和物理学(physics)。
在本研究中,这两个元素因太过复杂而难以计算。仔细想想,我们并不需要它们!在这个“无模型”的方法中,我们只需要通过测试和试验来学习Q值函数,因为我们假设优秀的Q值函数本来就会遵循游戏的规则和物理学。
我们所用的方法是混合的。这样方法的差异颇为微妙,因为既有策略性的也有离策略性的。
假设处于状态s,需要从几个动作中选择一个动作。我们已知一个Q值函数的近似函数,我们计算了其中每个动作的近似Q值。当选择动作时,我们有两种选择方法。其中的“greedy”方法是选择Q值最大的动作,这是一种“极大值”策略,始终根据对游戏的现有理解来选择当前最有利的动作。但是开始时你并不知道Q值函数的近似函数,即使有一个好的策略,你仍然会想让AI检查其他可能的策略并预测各策略的结果。
这就是为什么“极大值”策略并不一定有效的原因。当进行学习时,你不会只想一直尝试你认为会有效的方法,你还会想尝试其他可能有效的方法,而且这样做还可以获得经验。
这就是策略性(极大值)和离策略性(非极大值)之间的差异。
为什么说我们使用的方法是混合的呢?因为我们会根据网络学到了多少,来换着使用方法。我们依据代理会选择哪个最优动作来改变概率。
这是怎么做到的?我们将概率设为(1-e)来选择最优动作,其中e为代表选择随机性的变量。因此,e=1代表选择是完全随机的,而e=0则表示始终选择最优动作。
首先,当网络刚开始学习时,我们将e值设定为非常接近1 ,因为我们想让AI系统探索尽可能多的策略。随着时间的推移,AI系统学会越来越多的策略,我们再将e值缩小到趋近于0,这样该AI系统就会停留在某一策略上。