在AI领域,每一次技术的飞跃都足以让整个行业为之震动。近日,一款名为DeepSeek-V3的中国大模型横空出世,凭借卓越的性能和惊人的训练成本,一夜之间刷爆了全网。这款拥有671B参数的MoE(混合专家)模型,不仅在多项基准测试中与Claude 3.5 Sonnet、GPT-4o等国外顶尖大模型相匹敌,甚至在数学代码方面完全碾压了GPT-4o。更令人震惊的是,它的训练成本仅为600万美元,远低于业界的预期。
DeepSeek-V3:性能卓越,碾压GPT-4o
DeepSeek-V3的横空出世,无疑给整个AI圈带来了巨大的冲击。这款模型在吞吐量上每秒高达60 token,比上一代V2直接飙升了3倍。在多项基准测试中,它的性能表现令人瞩目。在数学领域MATH 500基准上,DeepSeek-V3拿下了90.2的高分,比Claude 3.5 Sonnet和GPT-4o超出了10分以上。在AIME 2024测试中,它也取得了领先优势,飙升近20分。在代码Codeforces基准上,新模型以51.6分刷新了SOTA,比国外大模型高出30分左右。
值得一提的是,DeepSeek-V3在中文能力上全面领先国外的领先大模型。这得益于它在14.8T高质量token上完成的训练,以及对中国语言文化的深入理解。在测试中,它能够准确理解中文语境下的各种问题,并给出符合逻辑的答案。这种强大的中文能力,无疑让它在中国市场上具有更大的竞争力。
除了卓越的性能外,DeepSeek-V3的训练成本也是其备受瞩目的原因之一。据论文中明确提到,DeepSeek-V3仅使用了2048块GPU训练了2个月,并且只花费了557.6万美金。这一数字远低于业界的预期,也远低于其他顶尖大模型的训练成本。
要知道,为了达到这种级别的能力,通常需要约1.6万个GPU的计算集群。而当前业界正在部署的集群规模甚至已经达到了10万个GPU。比如,Llama 3 405B就消耗了3080万GPU小时。相比之下,DeepSeek-V3只用了280万GPU小时,计算量减少了约11倍。这种高效的训练方式,无疑为AI领域的发展带来了新的思路。
那么,究竟是怎样的技术突破,使得DeepSeek-V3实现了质的飞升呢?据团队介绍,他们通过优化算法、框架、硬件协同设计,最终实现了这一壮举。
首先,在算法方面,DeepSeek-V3采用了无辅助损失(auxiliary-loss-free)方法来实现负载均衡。这种方法能够最小化负载均衡对模型性能造成的不利影响,从而提高模型的稳定性和准确性。同时,它还采用了多token预测训练目标,结果证明能够提升模型在评估基准上的整体性能。
其次,在框架方面,团队对训练框架进行了全面优化。他们采用了「FP8混合精度训练」,通过支持FP8计算和存储,实现了训练加速和GPU内存使用的减少。这一优化措施不仅提高了训练效率,还降低了训练成本。
最后,在硬件方面,团队通过协同设计实现了高效的资源利用。他们充分利用了GPU的计算能力,通过合理的调度和分配,使得每一块GPU都能够得到充分的利用。这种高效的硬件利用方式,也是DeepSeek-V3能够用如此低的成本实现高性能的重要原因之一。