专栏名称: 思诺财富

本号以金融知识学习、财经资讯分享、研究报告交流为核心，交流学习，共同进步。被市场认可的逻辑才有价值，而这种认可会在趋势上呈现出来，趋势分析为主，价值分析为辅，逻辑推理为核心。

“屌丝”概念有望成为春节发酵方向（附相关概念）

思诺财富 · 公众号 · 科技创业科技自媒体 · 2025-01-26 14:16

主要观点总结

本文介绍了中国人工智能公司DeepSeek发布的R1模型，该模型在第三方基准测试中表现优异。加州伯克利大学的研究团队以低于30美元的成本成功复现了DeepSeek R1-Zero的关键技术，并在“倒计时”游戏中取得显著成果。文章还探讨了DeepSeek R1模型的影响，以及该研究的局限性和未来发展方向。

关键观点总结

关键观点1: DeepSeek R1模型的表现和复现

DeepSeek发布的R1模型在第三方基准测试中表现优于其他人工智能公司。加州伯克利大学的研究团队以极低成本的复现展示了该模型在“倒计时”游戏中的惊人成果。

关键观点2: DeepSeek R1-Zero在“倒计时”游戏中的应用

研究团队采用DeepSeek R1-Zero的算法框架，通过强化学习训练模型。在“倒计时”游戏中，模型能够自主学习验证与搜索，逐渐发展出解决问题的策略。

关键观点3: 研究团队的实验结果和发现

实验结果证明，模型从基础语言模型开始，通过强化学习能够自主发展出强大的自验证和搜索能力。研究团队还进行了一系列消融实验，探讨了模型能力提升的关键因素。

关键观点4: DeepSeek R1的影响和未来发展方向

DeepSeek R1的影响才刚刚开始，其影响类似于Transformer当时带来的影响。研究团队希望这个项目能够帮助揭秘新兴的强化学习规模化研究，并使其更加普及和易于访问。然而，该研究也存在一定的局限性，目前仅限于特定任务的应用。

正文

免责声明：文章内容仅为研究参考资料，仅以学习交流，传播知识为目的，文中所涉及的所有个股都不构成投资建议

【温馨提示】股市有风险，投资需谨慎。

喜新厌旧是大A的习惯

在周末如此发酵之下

推测DeepSeek 概念有可能持续发酵到春节期间

为了便于牢记

DS=（屌丝）概念

这个周末，无论是科技界，还是投资界，突然又都在谈论DeepSeek。本周，中国人工智能公司DeepSeek发布其R1模型（DeepSeek R1），硅谷一片紧张。在第三方基准测试中，其表现优于OpenAI、Meta和Anthropic等美国领先人工智能公司。

低成本复现 DeepSeek R1-Zero：仅用30美元，小型语言模型在倒计时游戏中展现惊人自验证与搜索能力

刚刚，来自加州伯克利大学在读博士Jiayi Pan的研究团队成功地以极低的成本（低于30美元）复现了 DeepSeek R1-Zero 的关键技术，并在“倒计时”游戏中取得了令人瞩目的成果。这项研究表明，即使是规模较小的语言模型，通过强化学习（RL）也能自主发展出强大的自验证和搜索能力，直接证明了DeepSeek R1 开源的强大以及R1论文的可复现性

Jiayi Pan 目前在Berkeley AI Research攻读博士学位，专注于语言模型智能体的扩展研究。他们的这项工作聚焦于一个核心问题：如何让语言模型在没有大量指令微调的情况下，仅通过强化学习就能学会复杂的推理和问题解决策略

实验方法：DeepSeek R1-Zero 算法在“倒计时”游戏中的应用

研究团队采用了 DeepSeek R1-Zero 的算法框架。这个框架的核心思想是：给定一个基础语言模型、提示以及来自环境的真实奖励信号，通过强化学习来训练模型。 他们选择“倒计时”游戏作为实验平台。“倒计时”游戏是一个考验数字运算能力的游戏，玩家需要利用给定的数字和基本的算术运算（加减乘除）来尽可能接近目标数字

实验结果：“效果惊人！”——模型自主学习验证与搜索

实验结果令人振奋，效果惊人！研究表明，模型从最初的“胡乱输出”状态开始，逐渐发展出了各种解决问题的策略，例如自我验证和搜索

一个典型的例子是，模型能够先提出一个解决方案，然后自我验证这个方案是否正确，如果发现错误，则会进行迭代修改，直到找到有效的解决方案。完整的实验日志可以在 WandB 平台上查看：

https://wandb.ai/jiayipan/TinyZero

消融实验：关键因素分析

为了更深入地理解模型能力提升的关键因素，研究团队进行了一系列消融实验：

基础模型质量至关重要： 他们测试了 Qwen-2.5-Base 系列的不同规模模型 (0.5B, 1.5B, 3B, 7B)。结果表明，0.5B 模型只能简单地猜测答案就停止了。而从 1.5B 模型开始，模型就能够学习进行搜索、自我验证和修正解决方案，从而显著提高得分。这强调了基础模型的能力是RL学习高级策略的基础

基础模型和指令模型均有效： 研究团队对比了基础模型和指令模型（Instruct model）的表现。结果显示，指令模型学习速度更快，但最终性能与基础模型趋于一致。此外，指令模型的输出结构更清晰，更易读。这个发现支持了 R1-Zero 的设计理念，即额外的指令微调并非是必需的

特定的 RL 算法影响不大： 研究团队尝试了 PPO, GRPO 和 PRIME 等不同的强化学习算法。实验表明，这些算法都能够有效地引导模型学习长程上下文（Long Context, Long CoT）推理，并且效果都比较好。由于时间有限，团队尚未进行超参数调优，因此没有对不同算法的优劣做出定量结论

模型推理行为高度依赖任务： 一个有趣的发现是，模型学习到的推理行为与任务本身密切相关。在“倒计时”游戏中，模型学会了搜索和自我验证；而在数字乘法任务中，模型则学会了利用分配律将问题分解，然后逐步解决。这表明模型并非学习通用的推理策略，而是针对特定任务优化其解决问题的方式

写在最后：

该项目的所有代码和资源都已开源在 GitHub 上：
http://github.com/Jiayi-Pan/TinyZero

更令人惊讶的是，训练模型的成本竟然低于 30 美元！研究团队希望这个项目能够帮助揭秘新兴的强化学习规模化研究，并使其更加普及和易于访问

当然，这项研究也存在一定的局限性。目前的验证仅限于“倒计时”游戏，尚未扩展到更通用的推理领域

个人觉得DeepSeek R1的影响才刚刚开始，现在我已经看到很多人开始按照R1的开源的技术方法开始整活了，这真的有点像Transformer当时带来的影响，而且全世界任何实验室都可以用，强化学习之父Richard Sutton看到DeepSeek R1我想一定很欣慰，因为去年他接受采访时很不满意当前的AI研究（可以看我这篇文章：强化学习之父Sutton最新万字采访：炮轰深度学习只是瞬时学习，持续学习才是智能突破的关键），从这一刻一切都要改变了，请大家记住这是来自一家中国的AI研究公司

参考：

https://x.com/jiayi_pirate/status/1882839514563125643

来源：AI寒武纪

为更好更多的分享知识给喜欢学习的朋友，原价360（每天一元）有效期今年10.23的小星球，现特惠价仅限春节期间加入者…

特别声明：本公众号内容仅以投资知识交流参考学习为目的，不具备对未来走势的买卖指导功能，本文绝无任何投资建议，每个人请为自己的交易负责，股市有风险，入市需谨慎。以上部分内容取材网络，仅供交流参考，传播新知识为目的，对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证，不对文章观点负责，仅作分享之用，文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布，请及时与我们联系，我们会及时审核处理。