专栏名称: 思诺财富
本号以金融知识学习、财经资讯分享、研究报告交流为核心,交流学习,共同进步。被市场认可的逻辑才有价值,而这种认可会在趋势上呈现出来,趋势分析为主,价值分析为辅,逻辑推理为核心。
51好读  ›  专栏  ›  思诺财富

“屌丝”概念有望成为春节发酵方向(附相关概念)

思诺财富  · 公众号  · 科技创业 科技自媒体  · 2025-01-26 14:16

主要观点总结

本文介绍了中国人工智能公司DeepSeek发布的R1模型,该模型在第三方基准测试中表现优异。加州伯克利大学的研究团队以低于30美元的成本成功复现了DeepSeek R1-Zero的关键技术,并在“倒计时”游戏中取得显著成果。文章还探讨了DeepSeek R1模型的影响,以及该研究的局限性和未来发展方向。

关键观点总结

关键观点1: DeepSeek R1模型的表现和复现

DeepSeek发布的R1模型在第三方基准测试中表现优于其他人工智能公司。加州伯克利大学的研究团队以极低成本的复现展示了该模型在“倒计时”游戏中的惊人成果。

关键观点2: DeepSeek R1-Zero在“倒计时”游戏中的应用

研究团队采用DeepSeek R1-Zero的算法框架,通过强化学习训练模型。在“倒计时”游戏中,模型能够自主学习验证与搜索,逐渐发展出解决问题的策略。

关键观点3: 研究团队的实验结果和发现

实验结果证明,模型从基础语言模型开始,通过强化学习能够自主发展出强大的自验证和搜索能力。研究团队还进行了一系列消融实验,探讨了模型能力提升的关键因素。

关键观点4: DeepSeek R1的影响和未来发展方向

DeepSeek R1的影响才刚刚开始,其影响类似于Transformer当时带来的影响。研究团队希望这个项目能够帮助揭秘新兴的强化学习规模化研究,并使其更加普及和易于访问。然而,该研究也存在一定的局限性,目前仅限于特定任务的应用。


正文

免责声明:文章内容仅为研究参考资料,仅以学习交流,传播知识为目的,文中所涉及的所有个股都不构成投资建议

【温馨提示】股市有风险投资需谨慎

喜新厌旧是大A的习惯

在周末如此发酵之下

推测DeepSeek  概念有可能持续发酵到春节期间

为了便于牢记

DS=(屌丝)概念

这个周末,无论是科技界,还是投资界,突然又都在谈论DeepSeek。本周,中国人工智能公司DeepSeek发布其R1模型(DeepSeek R1),硅谷一片紧张。在第三方基准测试中,其表现优于OpenAI、Meta和Anthropic等美国领先人工智能公司。


 

低成本复现 DeepSeek R1-Zero:仅用30美元,小型语言模型在倒计时游戏中展现惊人自验证与搜索能力

刚刚,来自加州伯克利大学在读博士Jiayi Pan的研究团队成功地以极低的成本(低于30美元)复现了 DeepSeek R1-Zero 的关键技术,并在“倒计时”游戏中取得了令人瞩目的成果。这项研究表明,即使是规模较小的语言模型,通过强化学习(RL)也能自主发展出强大的自验证和搜索能力,直接证明了DeepSeek R1 开源的强大以及R1论文的可复现性

Jiayi Pan 目前在Berkeley AI Research攻读博士学位,专注于语言模型智能体的扩展研究。他们的这项工作聚焦于一个核心问题:如何让语言模型在没有大量指令微调的情况下,仅通过强化学习就能学会复杂的推理和问题解决策略

实验方法:DeepSeek R1-Zero 算法在“倒计时”游戏中的应用

研究团队采用了 DeepSeek R1-Zero 的算法框架。这个框架的核心思想是:给定一个基础语言模型、提示以及来自环境的真实奖励信号,通过强化学习来训练模型。 他们选择“倒计时”游戏作为实验平台。“倒计时”游戏是一个考验数字运算能力的游戏,玩家需要利用给定的数字和基本的算术运算(加减乘除)来尽可能接近目标数字

实验结果:“效果惊人!”——模型自主学习验证与搜索

实验结果令人振奋,效果惊人!研究表明,模型从最初的“胡乱输出”状态开始,逐渐发展出了各种解决问题的策略,例如自我验证搜索

一个典型的例子是,模型能够先提出一个解决方案,然后自我验证这个方案是否正确,如果发现错误,则会进行迭代修改,直到找到有效的解决方案。完整的实验日志可以在 WandB 平台上查看:

https://wandb.ai/jiayipan/TinyZero

消融实验:关键因素分析

为了更深入地理解模型能力提升的关键因素,研究团队进行了一系列消融实验:

基础模型质量至关重要: 他们测试了 Qwen-2.5-Base 系列的不同规模模型 (0.5B, 1.5B, 3B, 7B)。结果表明,0.5B 模型只能简单地猜测答案就停止了。而从 1.5B 模型开始,模型就能够学习进行搜索、自我验证和修正解决方案,从而显著提高得分。这强调了基础模型的能力是RL学习高级策略的基础

基础模型和指令模型均有效: 研究团队对比了基础模型和指令模型(Instruct model)的表现。结果显示,指令模型学习速度更快,但最终性能与基础模型趋于一致。此外,指令模型的输出结构更清晰,更易读。这个发现支持了 R1-Zero 的设计理念,即额外的指令微调并非是必需的

特定的 RL 算法影响不大: 研究团队尝试了 PPO, GRPO 和 PRIME 等不同的强化学习算法。实验表明,这些算法都能够有效地引导模型学习长程上下文(Long Context, Long CoT)推理,并且效果都比较好。由于时间有限,团队尚未进行超参数调优,因此没有对不同算法的优劣做出定量结论

模型推理行为高度依赖任务: 一个有趣的发现是,模型学习到的推理行为与任务本身密切相关。在“倒计时”游戏中,模型学会了搜索和自我验证;而在数字乘法任务中,模型则学会了利用分配律将问题分解,然后逐步解决。这表明模型并非学习通用的推理策略,而是针对特定任务优化其解决问题的方式

写在最后:

该项目的所有代码和资源都已开源在 GitHub 上:
http://github.com/Jiayi-Pan/TinyZero

更令人惊讶的是,训练模型的成本竟然低于 30 美元!研究团队希望这个项目能够帮助揭秘新兴的强化学习规模化研究,并使其更加普及和易于访问

当然,这项研究也存在一定的局限性。目前的验证仅限于“倒计时”游戏,尚未扩展到更通用的推理领域

个人觉得DeepSeek R1的影响才刚刚开始,现在我已经看到很多人开始按照R1的开源的技术方法开始整活了,这真的有点像Transformer当时带来的影响,而且全世界任何实验室都可以用,强化学习之父Richard Sutton看到DeepSeek R1我想一定很欣慰,因为去年他接受采访时很不满意当前的AI研究(可以看我这篇文章:强化学习之父Sutton最新万字采访:炮轰深度学习只是瞬时学习,持续学习才是智能突破的关键),从这一刻一切都要改变了,请大家记住这是来自一家中国的AI研究公司

参考:

https://x.com/jiayi_pirate/status/1882839514563125643

来源:AI寒武纪



为更好更多的分享知识给喜欢学习的朋友,原价360(每天一元)有效期今年10.23的小星球,现特惠价仅限春节期间加入者…

特别声明:本公众号内容仅以投资知识交流参考学习为目的,不具备对未来走势的买卖指导功能,本文绝无任何投资建议,每个人请为自己的交易负责,股市有风险,入市需谨慎。以上部分内容取材网络,仅供交流参考,传播新知识为目的,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作分享之用,文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时审核处理。