看到个帖子,不是很明白,但觉得很厉害
~~~~~~~~~~~~
Deepseek使用的GRPO算法与传统 PPO算法(的区别、动机以及工作流程。
GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”。
这种方法减轻了估计价值函数的负担,且对于很多需要对语言输出进行精细评价的场景(如写文章、对话回答、内容审核),往往更灵活、训练速度更快。
~~~~~~~~~~~~
Deepseek使用的GRPO算法与传统 PPO算法(的区别、动机以及工作流程。
GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”。
这种方法减轻了估计价值函数的负担,且对于很多需要对语言输出进行精细评价的场景(如写文章、对话回答、内容审核),往往更灵活、训练速度更快。