正文
前两天幻方的DeepSeek-V3发布,我确实也很震惊,属于惊呆了...震惊之处在于两点:
1,V3训练成本非常便宜。
V3的Paper里提到训练总共需要2788k H800 GPU Hours,如果以H800租赁价格2$/GPU hour计算,只需要558w美金。
2,性能非常不错。在基准测试里能和GPT-4o以及Claude3.5打的有来有回,甚至在Code和Math能力上全方位碾压Claude3.5 Sonnet和GPT-4o。
这个成绩确实非常夸张,等于小米加步枪战胜了飞机加大炮,难怪AI大神Andrej Karpathy也在社交平台上说:
在资源限制下,它将是一个非常令人印象深刻的研究和工程展示...这种级别的能力需要接近16K的GPU集群,而现在实现的集群更多的是 100K GPU 左右。这是否意味着前沿 LLM 不需要大型 GPU 集群?
现在已经有很多内容解释了V3的
架构创新、工程优化
等等非常多Paper里的东西,比如架构创新DeepSeek提到了“Multi-head Latent Attention
(MLA)高效处理长文本
”、“DeepSeek
MoE 架构
”和“
无额外损耗的负载均衡
(用于MoE优化
)”,都是很牛的创新了。比如V3的MoE架构“
通过细粒度专家策略、共享专家和 Top-K 路由策略,V3实现了模型容量的高效扩展,稀疏激活的机制,使得 DeepSeek-V3 能够在不显著增加计算成本的情况下,拥有庞大的模型容量。”
工程优化里涉及“流水线并行、通信优化、内存管理和低精度训练”等等方面...
这里不再聊那些paper里写的很详细的创新点,简单讲点更基础的东西。v3的重点是
MoE——混合专家模型
。MoE其实就是将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,每个MoE层由
一个门控网络和若干数量的“专家(独立的神经网络)”
2个核心部分组成。门控网络负责把token发送到哪个“专家”,经常是同时发送给多个“专家”,由这些专家同时进行预训练,等于
提前做好了一些可以处理特定任务的“神经网络”,并行开始训练
。
那么MoE就有
很明显的优势
,
与稠密模型相比
:
(1)预训练速度更快;
(2)与具有相同参数数量的模型相比具有更快的推理速度;(3)需要大量Memory,因为所有“专家”都需要提前加载到Memory中。
但是MoE
劣势也很明
显
,这是后面讲到的算力逻辑的核心了:
(1)
泛化能力不足,时间长了容易过拟合
(就是只能做特定题目,换个相同知识点的其他题目就不会了);
(2)
对微调的能力要求非常高
,也就是说要非常精确的知道未来的推理应用指向何方,否则模型就会彻底失败,因为泛化能力比较差。
(3)
对内存的需求非常高
,因为需要提前加载“独立的专家”。
所以除了DeepSeek非常卓越的优化和微调工作之外,v3更严格说是一个推理模型,是建立在通识大模型基础之上的“强调Coding和Math”的推理模型。
精简的总结一下
:
1,首先FP8的训练本身就不怎么耗资源(当然DeepSeek最牛的就是首次去做了这个尝试,还成功了),而且这个是奔着优化MoE去的,就是已经限定了大模型的能力和指向,减小了很多不必要的消耗;
2,OpenAI和Antropic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DeepSeek这个模型加入了很多“设定”或者说优化的因素,就是知道这样有效,现在在尝试怎么微调更有利于提高推理能力;
3,大模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队;
4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。
明年
具身智能一定会爆发了,文本数据维度太低,这个东西再怎么练终究无法使得GPT-5真正达到博士能力,你见过那个理工科学术博士不动手做实验的
?
所以DeepSeek的v3指向的是推理,也就是应用。那么DeepSeek牛x的工作意味着什么?
意味着现在o1程度(略弱)
推理应用将不再受资源限制,未来OpenAI或者Anthropic搞出新代大模型之后,我们依然可以通过类似的手段大幅提升推理能力,直接指向应用
。
也就是说:
明年不仅仅是老美,我们国内的AI应用也会井喷,层出不穷的AI应用和新的大模型的尝试。因为路走通了,不用担心巨额的投资打水漂,这是DeepSeek这次开源模型v3的最大价值!
所以到这里,算力逻辑就很清晰了:
(1)对于美国,算力投资不受影响而且会加速,考清华的同学也要买习题了
其实这次v3的表现在英文社区并没有像某些朋友讲的那么火爆,美国每天类似的事情不少的,v3让他们看到了中国同行的优秀和加速追赶。那么对于飞机加大炮来说,未来在资源投入上必将更加的疯狂,因为美国科技巨头之间的战争在于先进性和创新性,确实是在探索未知的东西。
但凡要突破,就得百倍,还不一定搞的出来。搞出来了有样学样就又快了。这次v3的训练数据集用FP8精度,这摆明了“开卷考试”,相当于老师已经把题目5种解法都讲过了,而且告诉你第5种可以5分钟解出数学最后一道答题,你可以尝试。结果一试试成了,就成了以后解答类似题目的“妙解”。
文本生成,到多模态,再到全模态,再到物理世界全模态,这都不一样级别的资源消耗和探索难度。
那么现在美国科技公司一方面巨头之间要pk,一方面这下还要应对中国同行优秀的微调手艺,扩大军备竞赛、突破大模型通识能力的上限,同时加大推理算力的投入实现产品商业化,加速奔跑基本是唯一路径。要考清华的同学发现后面的同学进步神速,是不是也得买点资料努努力?
美国科技巨头现在不可能去花精力探索v3干的事情,既然v3做过了,那么再现一下,做一些研究就可以。这甚至是OpenAI们产品团队做的事情,如何搞出更优秀的推理模型,做出更有性价比的应用,而不是弄个2000美金/月的东西让人无法理解。
(2)对于国内,DeepSeek打开了新一波大模型&推理模型的投资窗口
这个不用多说了,花不到600w美金就可以做出如此牛的模型,那么会激发大量有好的创意和想法的同行跃跃欲试。现在正是AI应用爆发的窗口期,v3的成功将会提高国内AI开发团队加速投资、加快研发、努力产品化的信心和急迫感。