专栏名称: 爱分析ifenxi
爱分析ifenxi是一家专注于创新领域的投研机构,以企业价值研究为内核,服务企业决策者和机构投资者。爱分析重点研究技术驱动型创新领域,包括新金融、企业服务及大消费等,并通过全网多个平台发布访谈和调研报告。
目录
相关文章推荐
中国保利  ·  “花”样惊喜,保利给你! ·  昨天  
中国能建  ·  表彰!36家中国能建文明单位 ·  2 天前  
中国能源报  ·  能源系统期待更强气候洞察力 ·  3 天前  
51好读  ›  专栏  ›  爱分析ifenxi

10分钟速览DeepSeek三大关键版本的核心技术点

爱分析ifenxi  · 公众号  ·  · 2025-03-04 20:39

正文




DeepSeek模型凭借其“深度思考”“高性价比”“开源”的能力爆火中国AI圈,不少公司都在关注DeepSeek的最新的技术进展,旨在推动AI场景更快更好的落地。今天将会从技术视角分享DeepSeek三个关键版本的能力与优势,包括以下三部分:

1、技术视角如何看待DeepSeek出圈的原因;
2、DeepSeek不同版本模型的核心技术优势;
3、DeepSeek对AI圈的影响与未来发展趋势;

分享嘉宾|杨成彪 南京柯基数据 CTO

内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。


01
技术视角如何看待DeepSeek出圈的原因
DeepSeek出圈主要开始于春节期间,不仅AI从业者在关注,生活中的朋友家人也都知道了DeepSeek,现在已经可以用是否了解DeepSeek来对地球人进行分类。那么发展到全民热度的DeepSeek事件是怎么产生的呢?
我们先捋一下DeepSeek不同版本产品的时间线。
2023年11月Deepseek发布的V1版本,当时知道人非常少。
2024年5月发布了DeepSeek V2,这个版本比较重要,因为引发了第一场Token的价格战。
2024年11月份DeepSeek上线了推理模型R1 Lite,我们是在12月初开始试用这个模型,当时它已经具备一定的数学编程思考的能力。
2024年12月DeepSeek发布了V3,这是非常重磅的发布,在效率、性能方面有非常突出的工作能力。此时还没有引起AI界特别多的关注。
2025年1月,DeepSeek发布R1,引起了全民关注的出圈。
这里还要提一个重要事件,Open AI o1预览版本在2024年9月发布,这是第一个推理模型,o1的惊艳效果对大模型行业影响非常大,大家普遍认为类似o1的后训练方式是未来的方向,但是大家始终都猜不透Open AI是怎么做的这件事,也没有公布足够的技术细节。在后来很长一段时间内,没有哪家公司能够复现和o1同等效果的模型。因此,AI界苦苦等待了4个月,当DeepSeek R1出现并开源时,在全球范围内引起了巨大的轰动。
为什么DeepSeek R1会引起这么大的轰动呢?我认为原因有2点:
第一是当时的大模型技术架构逐渐趋同,每家AI企业在大模型上投入的沉没成本很高,会导致试错成本很高,很难再用一些特别革命性或者创新性的东西调整自己的研究方向。
第二是大家探索了很久,模型界也没有出现任何一个能够和OpenAI o1相匹配的产品,都还处于一个混沌的状态,都在猜测o1是如何实现的。
所以当DeepSeek R1出现后,在技术圈、企业圈里引起了全球范围的讨论,并逐步发酵出一些连带影响。
从个人视角来看,首先DeepSeek R1出圈的根本原因是效果好。 一方面是在榜单对比上的效果很好,另一方面,在业务实际使用的效果上也非常好。 其次是具备极致性价比,相比是大模型界的小米。 在保持效果优秀的同时,价格更便宜。同时是开源的推理大模型,这对整个大模型生态有着非常大的影响,各家公司都可以按照同样的方式开发自己的推理大模型或者行业大模型。 最后就是芯片卡脖子问题 ,DeepSeek提出的新架构,有可能让这一问题得到解决。
正是基于这些原因,也让DeepSeek成功取代了Meta,成为了开源世界新的领头羊。
02
DeepSeek三大关键版本的核心技术分享
1、DeepSeek V2模型
先了解下DeepSeek V2的模型信息,总参数量是236B,单个token推理激活的参数量是21B。看到下图右侧的坐标图,横坐标是单个token推理的激活参数量,纵坐标是效果。
从整体结果来说DeepSeek远超大部分模型。与LLaMA 3 70B 对比来看,在每个token推理激活的参数量不到LLaMA 3 70B一半的同时,效果做到了基本相同。和通义千问 1.5 72B相比,参数量也是大幅减小的状态。这也是 DeepSeek 打出的第一波价格战,把模型token的价格降到一个极低的水平的底气。
再从DeepSeek V2发布的技术报告中,发现有两大核心技术点创新,一个是DeepSeek MoE,第二个是MLA,这两大技术都延续到了V3。
第一个创新点是MoE, MoE是混合专家系统的缩写,它由多个专家组成,通过门控网络来决定每个数据应该被哪个专家去训练,从而减轻不同类型样本之间的干扰。当模型做单次推理的时候,可以选择是否把每一个专家都激活,如果需要激活每一个专家,那就是稠密的MoE,如果只从所有专家中挑选几个就是稀疏的MoE。当前大部分MoE模型都是稀疏的方式。
那么DeepSeek MoE有什么特点?DeepSeek MoE和Mistral MoE 有哪些区别?
首先DeepSeek的专家分为两类专家,一类是共享专家,共享专家是上图中绿色的部分,每次推理都会固定激活。另一类是路由专家,是上图蓝色的部分,每次推理会从路由专家中去挑选几个激活。最终的推理会通过共享专家加上路由专家一起完成。
因为路由专家每次都需要挑选,如果专家数比较少会相对容易控制,但是专家数多了就会出现负载均衡的问题。例如 Mistral 8x22B是有8个专家,每次推理从中挑选两个,而DeepSeek的路由专家数非常多,在 V3 的时候大概有256个路由专家,每次是从中选8个专家。如果没有很好的控制,可能会让某一部分专家的激活概率非常不均衡,这样会导致部分的专家信息过载,而部分的专家却没有得到足够的训练,最终导致专家路由崩塌。所以负载均衡是MoE大模型要解决的核心问题。
因此 Deepseek MoE 提出了一个相对创新的办法,采用无需辅助损失函数的负载均衡。借助这种方式,DeepSeek在V1阶段时,有2个共享专家,64个路由专家,每次激活6个路由专家,整体激活率是9.4%。到V2的时候,增加到160个路由专家,每次激活6个路由专家的激活率是3.7%。再到V3的时候,只有1个共享专家,有256个路由专家,每次激活8个专家,激活率在3.1%。可以看到这个比例一直在下降,模型效率也是在逐步提升。相比Mistral 8x22B从8个专家中激活2个的激活率是25%,所以对比之下,Mistral的MoE是比较稠密的,推理的效率没有DeepSeek高。
第二个技术创新点是MLA ,是多头潜在注意力机制,可以提高Transformer模型在处理长序列时的效率和性能,由DeepSeek原创。DeepSeek通过MLA的方式,将KV-cache缓存减少了93.3%,是非常有效的举措。
2、DeepSeek V3模型
再来看看DeepSeek V3 ,除了包含 V2 的创新能力,还有三个创新点: 第一个是工程架构、系统架构层面,有很多软硬结合,或者是纯硬件的创新;第二个是FP8的模型;第三个是MTP的多Token预测。






请到「今天看啥」查看全文