专栏名称: 云头条
引领科技变革,连接技术与商业
目录
相关文章推荐
康石石  ·  我在金匠找到了自己! ·  16 小时前  
康石石  ·  设计毕业证保值的院校,是港理 ·  昨天  
康石石  ·  25年国家级A类竞赛变化一览! ·  2 天前  
51好读  ›  专栏  ›  云头条

218 元、重现 DeepSeek 的核心技术

云头条  · 公众号  ·  · 2025-01-30 21:55

正文

加州大学伯克利分校由博士生 Jiayi Pan 领衔的一支 AI 研究团队声称以仅仅 30 美元(218 元人民币)的价格重现了 DeepSeek R1-Zero 的核心技术,展示了如何经济实惠地实现先进的模型。
根据 Jiayi Pan 在 Nitter网站上的说法,其团队在《死亡倒计时》(Countdown)游戏中重现了 DeepSeek R1-Zero,这个拥有 30 亿个参数的小语言模型通过强化学习获得了自我验证和搜索能力。
Pan 表示,他们从一个基础语言模型、提示和基本事实奖励入手。在此基础上,团队运行了基于《死亡倒计时》游戏的强化学习。这款游戏基于一个同名的英国游戏节目,在其中一个环节,玩家的任务是用基本的算术从分配给他们的一组其他数字中找到一个随机的目标数字。

该团队表示,他们的模型从假输出开始,但最终学会了修改和搜索以找到正确答案之类的策略。一个例子表明了模型提出一个答案,验证答案是否正确,通过几次迭代修改答案,直至找到正确的解决方案。

除了《死亡倒计时》外,Pan 还在模型上尝试了乘法,模型使用一种不同的技术来解方程。模型使用乘法的分配律分解了这个问题(就像一些人在心算大数相乘时所做的那样),然后一步步解决问题。
加州大学伯克利分校的这支团队用基于 DeepSeek R-Zero 的模型试验了不同的基础模型,先从一个只有 5 亿个参数的基础模型入手,该模型只猜测一种可能的解决方案,然后不会猜测下去,不管是否找到正确的答案。然而,当他们使用拥有 15 亿个参数的基础模型时,开始得到模型学习不同技术以获得更高分数的结果。数量更多的参数(30亿个到70亿个)导致模型使用更少的步骤就能找到正确的答案。

但更令人印象深刻的是,这支团队声称,只需要 30 美元左右就能成功复现。
目前,OpenAI 的 o1 API 成本为每百万输入 token 15 美元,比 DeepSeek-R1 的每百万输入 token 0.55 美元贵 27 倍多。
Pan 表示,这个项目旨在使新兴的强化学习缩放研究更容易进行,尤其是低成本实现。

然而,机器学习专家 Nathan Lambert 对 DeepSeek的实际成本提出了质疑,表示该公司声称的训练其 6710 亿参数 LLM 的成本仅为 500 万美元并没有反映全部情况。研究人员、基础设施和电力等其他方面的成本似乎并没有计算在内,Lambert 估计 DeepSeek AI 的年度运营成本在 5 亿美元到逾 10 亿美元之间。不过 DeepSeek 仍然了不起,尤其是在与之竞争的美国 AI 模型每年在 AI 项目上花费 100 亿美元的情况下。

参考资料:

https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities

https://github.com/Jiayi-Pan/TinyZero









请到「今天看啥」查看全文