本文转自微信公众号“牛逼的IT”,作者:BayesCrest。
在国内大模型领域,deepseek公司宛如一颗璀璨的新星,近期其推出的DeepSeek V3模型更是引起了轩然大波,给整个行业带来了诸多惊喜。
deepseek一直以来都以独特的姿态活跃于大模型界,犹如“拼多多”一般,凭借低价的API价格以及不断创新的精神,成为了该领域的一股清流。而DeepSeek V3模型的问世,更是让其备受瞩目。这是一款超大规模的MoE模型,拥有高达671B的参数,然而其训练成本却不到600万美元,如此高的性价比令人惊叹不已。
DeepSeek V3模型之所以能够实现低成本与大规模的完美结合,关键在于其多项协同优化策略。首先,采用高效的MoE负载均衡策略,使得激活仅占5%参数,有效避免了专家瓶颈问题;其次,引入FP8混合精度训练框架,极大地提高了每GPU小时的运算效率;再者,利用DualPipe流水线并行及all-to-all通信内核,显著减轻了跨节点通信负担。此外,还辅以MTP多Token预测目标和冗余专家部署策略,通过在长思维链模型上蒸馏推理能力,成功兼顾了逻辑推断与语言流畅度。凭借这些创新举措,DeepSeek V3模型在相对有限的硬件资源上完成了14.8T高质量数据的预训练,并在推理端实现了3倍的生成速度提升。
测评结果显示,DeepSeek V3在开源模型中已达到SOTA水平,其推理API价格仅为竞争对手的数十分之一,这无疑吸引了众多开发者和企业的关注。尽管与GPT-4o或Claude 3.5相比,在一些细节方面还存在差距,但其完全开源和极低的训练成本已经对现有的市场格局产生了巨大冲击。该项目充分证明,通过在架构、算法和分布式通信层面进行深度融合,超大模型能够以更低的成本取得优异性能。可以预见,未来DeepSeek V3或将加速行业对稀疏化大模型的探索,引领更高性价比的AI应用落地。
值得一提的是,前期笔者在《LLM+RL+CoT,chatGPT-o1逻辑增强的三大法宝?》一文中,也曾对deepseek的DeepSeek-Prover-V1.5模型进行过深度剖析。该模型的核心思想是通过结合强化学习、蒙特卡洛树搜索、形式化定理证明等技术手段,增强LLM在逻辑推理中的表现。通过Lean证明器的反馈与自我迭代学习,模型能够逐步提升其推理能力,尤其在数学定理证明等复杂逻辑推理任务中展现出了巨大潜力。回顾deepseek发布过的一系列论文,可以发现其在大模型架构的诸多小细节中都带来了创新的工程处理方法,大幅提升了模型性能的同时,降低了对硬件的依赖。
那么,deepseek是否会成为大模型领域的“鲶鱼”,彻底搅动市场呢?这还需要综合考虑多个关键因素,包括持续性能验证、生态建设、商业化能力以及主流大模型厂商的应对策略等。不过,不可否认的是,DeepSeek V3的出现确实具备“鲶鱼”潜质,但目前其行业地位尚有待进一步巩固。
DeepSeek V3的惊人亮点
以下将基于当前外网及国内爆火的DeepSeek V3模型相关信息,为您详细梳理其主要特点与技术亮点,以便您能快速了解该模型的独特之处。
1. DeepSeek V3模型概述
DeepSeek V3是一款最新发布且完全开源的超大规模MoE模型,其具体信息如下:
参数规模:671B,其中激活部分为37B。
训练数据:14.8T高质量token。
训练成本:约557.6万美元,折合人民币约4070万。
开源方式:提供了长达53页的技术报告,代码、模型权重全部开源。
该模型在多个测评中取得了领先或接近顶尖闭源模型(如GPT-4o、Claude 3.5 Sonnet等)的水准,并且其推理速度相较于其他同级别超大模型也有显著提升。
2. 低成本训练超大模型的突破
DeepSeek V3的最大亮点在于其以极低的成本训练出了超大模型。其整个预训练仅用280万GPU小时,相比之下,Llama 3(405B版本)使用了3080万GPU小时,后者几乎是前者的11倍。要知道,一个7B规模的Llama2训练费用就要76万美元,而DeepSeek V3规模达671B,训练却仅花费不到600万美元,这样的“参数量/训练成本”比值无疑是非常高效的,直接引发了海外各路AI技术大佬的热烈讨论。
官方论文强调,这一成果得益于在算法、框架和硬件之间的深度协同优化,具体包括:
无辅助损失的负载均衡策略:有效减少了MoE专家调度时的性能下降。
MTP训练目标:在推断时采用“推测解码”进一步提升速度与性能。
FP8训练:自研FP8混合精度训练框架,并在671B这种极大规模模型上验证了其可行性。
通信优化:使用DualPipe流水线并行和高效的all-to-all通信内核,降低了跨节点的通信成本。
MoE专家负载均衡策略:对高负载专家引入“冗余专家”部署方式,确保推理过程不会因个别专家成为瓶颈。
通过这些策略的综合运用,DeepSeek V3在超大规模模型层面实现了“高效+低成本”的完美结合。
3. 强大的模型能力
DeepSeek V3在模型能力方面表现出色,不仅开源且达到了SOTA水平,还能够与闭源大模型正面硬刚,具体体现在以下几个方面:
推断速度:每秒能够生成约60 tokens,是现有大模型中速度较快的一员。
响应质量:多项评测表明,其输出结果在逻辑性、上下文理解等方面表现稳定。
API价格:每百万输入tokens的价格为0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens的价格为8元,与Claude 3.5 Sonnet等相比,仅为后者价格的约1/53。在一系列对比图中,DeepSeek V3被置于高性能-低成本的“最佳性价比”三角区,展现出了极高的性价比优势。
4. 业界大佬的高度评价
DeepSeek V3的出色表现也得到了业界大佬的高度认可和赞誉:
- Andrej Karpathy(OpenAI创始成员)对其280万GPU小时的训练成绩表示十分惊讶,称其证明了只要保证数据和算法的充分优化,即便在更少的资源下也能做出极具竞争力的大模型。
- 田渊栋(Meta科学家)评论DeepSeek V3的训练看起来像是“黑科技”,给予了相当积极的评价。
- 贾扬清(业界知名工程大牛)指出该模型在分布式推理上的探索很有价值,未来在负载均衡、MoE子模块的扩缩容以及成本优化等方面将引领行业趋势。
5. 深入的研发细节解读
MoE架构:DeepSeek V3采用了256个路由专家+1个共享专家的架构,每个token最多激活8个专家,并确保这些专家可被分散到4个不同节点,从而避免了某些节点超载的问题。
长上下文蒸馏:通过将“DeepSeek R1”长思维链模型的推理能力蒸馏到标准模型中,不仅大幅提升了DeepSeek V3的推理性能,还能够保持输出风格和长度控制的一致性。
训练时长与速度:14.8T token总共训练不到2个月(2048卡集群下),包括上下文扩展和后续调优在内总计约278.8万GPU小时。每1万亿token的训练,只需18万GPU小时(在2048张GPU规模集群中3.7天完成)。
推断优化:在推断方面,引入“冗余专家”做负载均衡,保证分布式推理可以高效并行;即便在多节点下,也可通过精细的路由策略来降低通信开销。
7. 引发轰动的原因
DeepSeek V3之所以引发轰动,主要有以下几点原因:
大模型的新突破:大模型进化到了“极大规模+低成本”的新阶段,过去人们普遍认为参数规模越大,训练成本越高,但DeepSeek V3的出现打破了这一传统认知,为更多研究机构和公司提供了新的思路和可能性。
开源与透明:其完全开源且训练细节透明,53页的论文细致公布了从架构到通信到推理的所有细节,降低了社区二次验证和复用的门槛,有助于开源生态在超大模型方向继续加速迭代,激发更多创新。
性能与部署优势:MoE架构在推理阶段激活的参数仅占5%左右,且通过冗余专家的方式进一步平衡负载,实际部署兼顾了“速度”与“大模型能力”;同时,其API价格极具吸引力,极大降低了外部开发者使用超大模型的成本。
DeepSeek V3的爆火,代表着大模型正在走向“更大规模+更低成本+更开源透明”的新时代。
它向业界展示了超大模型的训练不一定必须依赖上万甚至十万规模的GPU集群,只要进行深度优化和巧妙设计,同样可以取得惊艳的成果。对于开发者而言,DeepSeek V3提供了一个兼顾高性能与可落地性的优质选项;对于整个AI社区来说,它也极大地刺激了对大型MoE架构和分布式推理技术的研究热情,或许在未来,我们还会见证更多超大模型的“降本增效”奇迹。
算力的重要性再思考
从DeepSeek V3的案例来看,它以“用更少的GPU小时数训练出高性能大模型”的特点,让很多人对算力的重要性产生了疑问。从技术路线的角度分析,不同大模型背后的技术路线确实会对训练成本产生显著差异,主要体现在以下几个方面: