专栏名称: AI领域技术栈
人工智能领域技术:计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法
目录
相关文章推荐
51好读  ›  专栏  ›  AI领域技术栈

中国MoE一夜爆火!大模型新王DeepSeek-V3暴打GPT-4o,训练成本仅600万美元!

AI领域技术栈  · 公众号  ·  · 2024-12-28 14:31

正文

在AI领域,每一次技术的飞跃都足以让整个行业为之震动。近日,一款名为DeepSeek-V3的中国大模型横空出世,凭借卓越的性能和惊人的训练成本,一夜之间刷爆了全网。这款拥有671B参数的MoE(混合专家)模型,不仅在多项基准测试中与Claude 3.5 Sonnet、GPT-4o等国外顶尖大模型相匹敌,甚至在数学代码方面完全碾压了GPT-4o。更令人震惊的是,它的训练成本仅为600万美元,远低于业界的预期。

DeepSeek-V3:性能卓越,碾压GPT-4o

DeepSeek-V3的横空出世,无疑给整个AI圈带来了巨大的冲击。这款模型在吞吐量上每秒高达60 token,比上一代V2直接飙升了3倍。在多项基准测试中,它的性能表现令人瞩目。在数学领域MATH 500基准上,DeepSeek-V3拿下了90.2的高分,比Claude 3.5 Sonnet和GPT-4o超出了10分以上。在AIME 2024测试中,它也取得了领先优势,飙升近20分。在代码Codeforces基准上,新模型以51.6分刷新了SOTA,比国外大模型高出30分左右。

值得一提的是,DeepSeek-V3在中文能力上全面领先国外的领先大模型。这得益于它在14.8T高质量token上完成的训练,以及对中国语言文化的深入理解。在测试中,它能够准确理解中文语境下的各种问题,并给出符合逻辑的答案。这种强大的中文能力,无疑让它在中国市场上具有更大的竞争力。

训练成本:仅为600万美元,远低于业界预期

除了卓越的性能外,DeepSeek-V3的训练成本也是其备受瞩目的原因之一。据论文中明确提到,DeepSeek-V3仅使用了2048块GPU训练了2个月,并且只花费了557.6万美金。这一数字远低于业界的预期,也远低于其他顶尖大模型的训练成本。

要知道,为了达到这种级别的能力,通常需要约1.6万个GPU的计算集群。而当前业界正在部署的集群规模甚至已经达到了10万个GPU。比如,Llama 3 405B就消耗了3080万GPU小时。相比之下,DeepSeek-V3只用了280万GPU小时,计算量减少了约11倍。这种高效的训练方式,无疑为AI领域的发展带来了新的思路。

技术突破:优化算法、框架、硬件协同设计

那么,究竟是怎样的技术突破,使得DeepSeek-V3实现了质的飞升呢?据团队介绍,他们通过优化算法、框架、硬件协同设计,最终实现了这一壮举。
首先,在算法方面,DeepSeek-V3采用了无辅助损失(auxiliary-loss-free)方法来实现负载均衡。这种方法能够最小化负载均衡对模型性能造成的不利影响,从而提高模型的稳定性和准确性。同时,它还采用了多token预测训练目标,结果证明能够提升模型在评估基准上的整体性能。
其次,在框架方面,团队对训练框架进行了全面优化。他们采用了「FP8混合精度训练」,通过支持FP8计算和存储,实现了训练加速和GPU内存使用的减少。这一优化措施不仅提高了训练效率,还降低了训练成本。

最后,在硬件方面,团队通过协同设计实现了高效的资源利用。他们充分利用了GPU的计算能力,通过合理的调度和分配,使得每一块GPU都能够得到充分的利用。这种高效的硬件利用方式,也是DeepSeek-V3能够用如此低的成本实现高性能的重要原因之一。







请到「今天看啥」查看全文