专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

中国MoE一夜爆火！大模型新王DeepSeek-V3暴打GPT-4o，训练成本仅600万美元！

AI领域技术栈 · 公众号 · · 2024-12-28 14:31

正文

阅读原文小猫动图

在AI领域，每一次技术的飞跃都足以让整个行业为之震动。近日，一款名为DeepSeek-V3的中国大模型横空出世，凭借卓越的性能和惊人的训练成本，一夜之间刷爆了全网。这款拥有671B参数的MoE（混合专家）模型，不仅在多项基准测试中与Claude 3.5 Sonnet、GPT-4o等国外顶尖大模型相匹敌，甚至在数学代码方面完全碾压了GPT-4o。更令人震惊的是，它的训练成本仅为600万美元，远低于业界的预期。

DeepSeek-V3：性能卓越，碾压GPT-4o

DeepSeek-V3的横空出世，无疑给整个AI圈带来了巨大的冲击。这款模型在吞吐量上每秒高达60 token，比上一代V2直接飙升了3倍。在多项基准测试中，它的性能表现令人瞩目。在数学领域MATH 500基准上，DeepSeek-V3拿下了90.2的高分，比Claude 3.5 Sonnet和GPT-4o超出了10分以上。在AIME 2024测试中，它也取得了领先优势，飙升近20分。在代码Codeforces基准上，新模型以51.6分刷新了SOTA，比国外大模型高出30分左右。

值得一提的是，DeepSeek-V3在中文能力上全面领先国外的领先大模型。这得益于它在14.8T高质量token上完成的训练，以及对中国语言文化的深入理解。在测试中，它能够准确理解中文语境下的各种问题，并给出符合逻辑的答案。这种强大的中文能力，无疑让它在中国市场上具有更大的竞争力。

训练成本：仅为600万美元，远低于业界预期

除了卓越的性能外，DeepSeek-V3的训练成本也是其备受瞩目的原因之一。据论文中明确提到，DeepSeek-V3仅使用了2048块GPU训练了2个月，并且只花费了557.6万美金。这一数字远低于业界的预期，也远低于其他顶尖大模型的训练成本。

要知道，为了达到这种级别的能力，通常需要约1.6万个GPU的计算集群。而当前业界正在部署的集群规模甚至已经达到了10万个GPU。比如，Llama 3 405B就消耗了3080万GPU小时。相比之下，DeepSeek-V3只用了280万GPU小时，计算量减少了约11倍。这种高效的训练方式，无疑为AI领域的发展带来了新的思路。

技术突破：优化算法、框架、硬件协同设计

那么，究竟是怎样的技术突破，使得DeepSeek-V3实现了质的飞升呢？据团队介绍，他们通过优化算法、框架、硬件协同设计，最终实现了这一壮举。

首先，在算法方面，DeepSeek-V3采用了无辅助损失（auxiliary-loss-free）方法来实现负载均衡。这种方法能够最小化负载均衡对模型性能造成的不利影响，从而提高模型的稳定性和准确性。同时，它还采用了多token预测训练目标，结果证明能够提升模型在评估基准上的整体性能。

其次，在框架方面，团队对训练框架进行了全面优化。他们采用了「FP8混合精度训练」，通过支持FP8计算和存储，实现了训练加速和GPU内存使用的减少。这一优化措施不仅提高了训练效率，还降低了训练成本。

最后，在硬件方面，团队通过协同设计实现了高效的资源利用。他们充分利用了GPU的计算能力，通过合理的调度和分配，使得每一块GPU都能够得到充分的利用。这种高效的硬件利用方式，也是DeepSeek-V3能够用如此低的成本实现高性能的重要原因之一。

中国MoE一夜爆火！大模型新王DeepSeek-V3暴打GPT-4o，训练成本仅600万美元！

正文

请到「今天看啥」查看全文