【[283星]Understand-R1-Zero:深入剖析R1-Zero类训练方法,揭示其背后的原理与优化策略。亮点:1. 深入分析基础模型,发现DeepSeek-V3-Base已展现“灵光一现”现象;2. 提出Dr. GRPO算法,优化强化学习过程,提升token效率;3. 仅用27小时计算资源,在8×A100 GPU上实现SOTA性能】
'Understanding R1-Zero-Like Training: A Critical Perspective'
GitHub: github.com/sail-sg/understand-r1-zero
'Understanding R1-Zero-Like Training: A Critical Perspective'
GitHub: github.com/sail-sg/understand-r1-zero