专栏名称: 有限次重复博弈
知名财经博主 头条文章作者 只做有定价权的行业龙头
目录
相关文章推荐
经济观察报  ·  A股收评:沪指高开低走跌0.65%,Deep ... ·  2 天前  
第一财经  ·  深度复盘!DeepSeek引起的全球技术圈恐 ... ·  2 天前  
21世纪经济报道  ·  英伟达,突发利空! ·  3 天前  
51好读  ›  专栏  ›  有限次重复博弈

看到个帖子,不是很明白,但觉得很厉害~~~~~~~~~~~~De-20250127213749

有限次重复博弈  · 微博  · 财经  · 2025-01-27 21:37

正文

2025-01-27 21:37

看到个帖子,不是很明白,但觉得很厉害
~~~~~~~~~~~~
Deepseek使用的GRPO算法与传统 PPO算法(的区别、动机以及工作流程。

GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”。

这种方法减轻了估计价值函数的负担,且对于很多需要对语言输出进行精细评价的场景(如写文章、对话回答、内容审核),往往更灵活、训练速度更快。






请到「今天看啥」查看全文