专栏名称: 有限次重复博弈

知名财经博主头条文章作者只做有定价权的行业龙头

目录

相关文章推荐

经济观察报 · 从救陈塘关到救活影院哪吒2创造影史纪录背后 · 昨天

经济观察报 · A股收评：沪指高开低走跌0.65%，Deep ... · 2 天前

第一财经 · 深度复盘！DeepSeek引起的全球技术圈恐 ... · 2 天前

21世纪经济报道 · 英伟达，突发利空！ · 3 天前

神嘛事儿 · 看新闻联播，注意到一个有趣的事情，今年蛇年， ... · 5 天前

51好读 › 专栏 › 有限次重复博弈

看到个帖子，不是很明白，但觉得很厉害~~~~~~~~~~~~De-20250127213749

有限次重复博弈 · 微博 · 财经 · 2025-01-27 21:37

正文

2025-01-27 21:37
本条微博链接

看到个帖子，不是很明白，但觉得很厉害
~~~~~~~~~~~~
Deepseek使用的GRPO算法与传统 PPO算法（的区别、动机以及工作流程。

GRPO 的本质思路：通过在同一个问题上生成多条回答，把它们彼此之间做“相对比较”，来代替传统 PPO 中的“价值模型”。

这种方法减轻了估计价值函数的负担，且对于很多需要对语言输出进行精细评价的场景（如写文章、对话回答、内容审核），往往更灵活、训练速度更快。

请到「今天看啥」查看全文

推荐文章

经济观察报 · 从救陈塘关到救活影院哪吒2创造影史纪录背后

昨天

经济观察报 · A股收评：沪指高开低走跌0.65%，DeepSeek概念股逆市大涨

2 天前

第一财经 · 深度复盘！DeepSeek引起的全球技术圈恐慌是如何形成的？

2 天前

21世纪经济报道 · 英伟达，突发利空！

3 天前

神嘛事儿 · 看新闻联播，注意到一个有趣的事情，今年蛇年，但是很多地方舞龙 -20250202205656

5 天前

青年电影手册 · 娄烨的周末情人是什么样子

8 年前

车买买 · 15万左右有这些车还买什么SUV！可惜……

7 年前

腾讯科技 · 拥有5亿用户，看似山寨却又带有硅谷基因的快手，到底“隐藏”着什么……

7 年前

集微网 · ARM正式宣布M3免预付授权费；英特尔将停产3款开发板,物联网之梦终于要醒

7 年前

采采 · 为革命保护视力，和近视抗争到底

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!