专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

历史分水岭:DeepSeek GitHub星数超越OpenAI!大佬揭秘仅用450美元训推理模型

Dots机构投资者社区  · 公众号  ·  · 2025-02-08 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。

图片




编辑:编辑部
【导读】 DeepSeek的GitHub星数,超越了OpenAI!V3的Star数,如今已经碾压OpenAI最热门的项目。机器学习大神的一篇硬核博文,直接帮我们揭秘了如何仅用450美元,训出一个推理模型。

DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。

热度最高的DeepSeek-V3,Star数如今已达7.7万。

图片 做出这一发现的网友们,第一时间截下了图

可以说,这是开源AI历史上的一个里程碑!

而DeepSeek-R1,更是仅用了3周时间,就超越了「openai-cookbook」。

前有App Store登顶,今有GitHub超越,网友们高呼:永远不要低估开源社区的力量!

如今,DeepSeek的势头越来越猛。

相信大家都发现,DeepSeek的服务器简直要爆了。

图片

甚至就在昨天,DeepSeek还不得不官宣:暂停API充值。

原因当然就是因为,用户的热情实在太火爆,服务器真扛不住了。

图片

最近,关于DeepSeek的一些流传甚广的说法,也纷纷有专家辟谣了。

澄清一:DeepSeek绕过了CUDA架构

其中一个广为流传的说法是DeepSeek绕过了CUDA。

图片

这源于DeepSeek的论文中提到,模型采用了PTX编程,通过这样的定制优化,让模型能更好地释放底层硬件的性能。

图片 「我们采用定制的PTX(并行线程执行)指令并自动调整通信块大小,这大大减少了L2缓存的使用和对其他SM的干扰」

严谨来说,DeepSeek通过编写PTX解决了跨芯片通信瓶颈,虽然复杂,但降低了开销、提升了效率。

本质上,PTX仍然是位于CUDA驱动层内部的一个组件,是英伟达CUDA编程模型的一部分,能将CUDA源代码(C/C++)转变为机器指令的一个中间阶段。

在运行时,PTX会进一步被编译成在GPU上运行的最终机器码(SASS)。

图片

而DeepSeek团队的聪明之处就在于,用这种方法能更好地实现对底层硬件的编程和调用。

这种主动优化,无论在H800还是H100上都能提高通信互联效率。

因此,DeepSeek仍然没有摆脱CUDA生态。

澄清二:R1的训练成本,绝不仅仅是600万美元!

而关于DeepSeek-R1的另一个谣言,就是R1的训练成本大约是600万美元。

图片 之所以有这个说法,来源于DeepSeek-V3论文中的相关论述

开发者大神Sebastian指出,很多人都混淆了DeepSeek-V3和DeepSeek-R1。(前者要早1个月)

其中,DeepSeek-V3中宣称的550万美元,是基于GPU成本、GPU小时数、数据集规模和模型规模等估算出来的。

但DeepSeek团队从没公开过R1确切的GPU小时数或开发成本,目前已有的任何成本估算都只是猜测。

图片

除此之外,Stability AI前研究总监Tanishq Mathew Abraham也在最近的博文中指出,R1在V3基础上进行的强化学习,以及最终训练前团队的大量的小规模实验和消融研究都未包含在内。

更何况还有研究者的薪资,据传已经跟OpenAI、Anthropic等顶级机构的薪资相当(高达100万美元)。

V3和R1,开启推理模型大变局

DeepSeek V3和R1发布后,将怎样搅动此后的LLM江湖?

预算紧张的情况下,怎么开发推理模型?

最近,机器学习大神Sebastian Raschka的这篇长篇博文,为我们做出了硬核预测,并且破除了不少民间对DeepSeek的误解。

图片

Sebastian表示,很多人都来询问自己对DeepSeek-R1的看法。

在他看来,这是一项了不起的成就。

作为一名研究工程师,他非常欣赏那份详细的研究报告,它让自己对方法论有了更深入的了解。

最令人着迷的收获之一,就是推理如何从纯强化学习行为中产生。

甚至,DeepSeek是在MIT许可下开源模型的,比Meta的Llama模型限制更少,令人印象深刻。

在本文中,Sebastian介绍了构建推理模型的四种方法,来提升LLM的推理能力。

图片

图中总结了DeepSeek R1的训练流程。

图片

(1)DeepSeek-R1-Zero:该模型基于2024年12月发布的DeepSeek-V3。研究团队采用RL进行训练,并使用了两种奖励类型。这种方式称为冷启动训练,因为它没有采用RLHF中的SFT步骤。

(2)DeepSeek-R1:这是DeepSeek的旗舰推理模型,构建于DeepSeek-R1-Zero基础上。团队通过额外的SFT阶段和进一步的RL训练,对模型进行了优化。

(3)DeepSeek-R1-Distill:利用前述步骤中生成的SFT数据,团队对Qwen和Llama模型进行了微调,以增强它们的推理能力。尽管不是传统意义上的蒸馏,但该过程是用DeepSeek-R1的输出,来训练较小的模型(Llama 8B和70B,Qwen 1.5B–30B)。

构建推理模型的四种方法

推理时扩展

想要提升LLM的推理能力,或者是其他任何能力,有一种方法叫推理时扩展,就是在推理过程中增加计算资源,让输出的结果质量更高。

人类在解决复杂问题时,如果思考时间更充裕,往往能给出更好的答案。

有一种推理时扩展的简单方法,是巧妙的运用提示工程。思维链(CoT)提示法是一个经典例子,在处理复杂问题时,通常能得到更准确的结果。

图片

另一种推理时扩展的方法是使用投票和搜索策略。

一个简单的例子是多数投票方法,让LLM生成多个答案,然后通过投票选出正确答案。

同样,也可以使用束搜索(beam search)和其他搜索算法来生成更好的响应。

图片







请到「今天看啥」查看全文


推荐文章
书法在线  ·  有你,真好
8 年前
英文悦读  ·  怎样写一篇作文?(6)
8 年前