专栏名称: 数据STUDIO

点击领取《Python学习手册》，后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享，内容以 Python 为核心语言，涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

LLM强化学习算法演进之路：Q-Learning->DQN->PPO->DPO等

数据STUDIO · 公众号 · · 2025-03-06 11:30

正文

本文中各方法的分布：

如何在不知道真实环境分布的情况下估算V值，已经诞生了多种方法，大体归纳为基于价值、基于策略两种：

代表：MC（Monte-Carlo，蒙特卡洛）方法、TD（Temporal-Difference，时序差分），基于TD的变体包括SARSA、Q-learning、DQN）

MC方法

思路： 通过样本回合（episode，也叫trajectory，即轨迹）的完全体验来估计状态值函数V(s)。具体来说，它使用从一个状态开始到回合结束的真实收益来进行估计。
缺点： 算法要求采样必须走到最终状态；面对巨大的状态空间，小概率能到达最终状态。

TD方法

TD方法的变体之——SARSA（State-Action-Reward-State-Action）

思路： SARSA算法更新的是状态-动作价值函数（Q值），通过五元组（当前状态S、当前动作A、收到的奖励R、下一个状态S’、下一个动作A’）来进行学习。SARSA被称为“on-policy”算法，因为它更新的Q值是基于当前策略选择的动作。

TD方法的变体之——Q-learning

思路： 采用Q表（Q-table）来存储状态-动作对的价值。通过不断更新Q表来学习一个最优策略，使得Agent能够在环境中最大化累积奖励。这是一种“off-policy”算法，即更新Q值时不依赖于当前执行的策略。它使用贪心策略来更新Q值，即选择下一个状态中的最大Q值进行更新。Q表是一个二维表格，其中：行代表环境中的所有可能状态s；列代表在每个状态下所有可能的动作a；表中的每个元素 Q(s,a)表示在状态s采取动作a后的预期累积奖励。
缺点： 它只能解决离散的、有限状态、有限动作空间的任务。
选取action的策略——greedy-epsilon（又叫ε-greedy） ：即以概率1−ε选择当前已知的最优动作（即利用）。这通常是基于当前的Q值或策略评估选出的动作。以概率ε随机选择一个动作（即探索），以确保算法有机会尝试不同的动作，可能发现更优的策略。其实从下图中Q-learning的公式就可以看出，即形式如Q=(1-α)Q+αG=Q+α(G-Q)。

Q-learning方法的改进版本之——DQN（Deep Q-Network）

思路： 使用神经网络解决Q-learning中 状态不连续 的问题。在DQN中，Q值函数不是用表格存储，而是用神经网络来近似。神经网络Q(s,a;θ)参数化Q值函数，其中θ是神经网络的参数。计算细节包括：经验回放（Experience Replay）、目标网络（Target Network）、损失函数（Loss）等，如下图。

DQN代码学习：https://github.com/louisnino/RLcode/blob/master/tutorial_DQN.py

代表：PG（Policy Gradient，策略梯度）、AC、PPO（Proximal Policy Optimization，近端策略优化）

PG方法

PG代码见https://github.com/louisnino/RLcode/blob/master/tutorial_PG.py，其执行逻辑梳理如下：

图1-9解：PG代码执行逻辑

Actor-Critic（AC）方法

思路： 为了解决PG中采用蒙特卡洛必须走到最后的状态才计算G值，改为TD的思路。但是，PG需要计算G值，那么在TD中，我们应该怎样估算每一步的Q值呢？即神经网络。 AC采用两个神经网络：Actor网络负责对网络输入状态S输出策略&选择动作，Critic网络负责计算每个动作的分数。
缺点： 仍然是一个在线策略，即on-policy。

AC代码学习见https://github.com/louisnino/RLcode/blob/master/tutorial_AC.py，其执行逻辑梳理如下：

PPO方法

概念：从离散问题到连续问题

概念：两种策略

概率：重要性采样（Important-sampling ）

概念：N步更新

之前的TD叫做TD(0)，而N步更新为TD(n)，可以看成TD(0)其实是TD(n)的一种特殊情况。
实际上我们只需要计算最后的V(s')，根据这个估算的V(s'), 我们反推经过的所有state的V值。这个其实和PG估算G的过程是一样的，只不过我们并不需要走到最后，而是中途截断，用网络估算。

PPO代码学习见https://github.com/louisnino/RLcode/blob/master/tutorial_PPO.py，其执行逻辑梳理如下：

训练流程的1-4步代码解读分别见下面四幅图：

快速背诵：收（收集轨迹数据）、计（计算折扣回报）、策（策略迭代优化）

首先，看下PPO算法的四个模型：

模型名	解释&目标
Actor模型	解释：待训练的策略模型
目标：生成/采样Experience数据。
Reference模型	解释：通常为初始的Actor模型；
目标：防止"Actor模型在训练过程中学习的分布"走偏。
Critic模型	解释：待训练的判别模型（或称为价值模型）；
目标：对每个状态打分，有时用Reward模型热启。
Reward模型	解释：通常指ORM（Outcome Reward Model）；
目标：对生成的结果打分。