专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

机器之心 · 公众号 · AI · 2024-12-27 11:03

主要观点总结

国产大模型DeepSeek-V3的预训练过程消耗较少的计算资源，其性能却与前沿模型相当甚至更优。报告详细介绍了DeepSeek-V3的技术特点如MLA和DeepSeekMoE架构、无辅助损失的负载平衡策略、多token预测训练目标等，及其在各任务上的表现。DeepSeek-V3的开源引发人们对开源模型的热情，一些用户已经开始分享他们的体验。

关键观点总结

关键观点1: DeepSeek-V3性能与前沿模型相当且训练计算量较小。

DeepSeek-V3参数量高达671B，预训练过程仅用了较少的GPU计算资源。其在多个任务上表现出色，性能比肩甚至更优与其他前沿大模型。

关键观点2: DeepSeek-V3的技术特点和创新。

DeepSeek-V3采用了MLA和DeepSeekMoE架构，实现了高效推理和经济训练。此外，它还采用了无辅助损失的负载平衡策略和多token预测训练目标等技术创新。

关键观点3: DeepSeek-V3的开源引发人们对开源模型的热情。

DeepSeek-V3的开源版本受到了广泛的好评和关注。许多用户已经开始分享他们的体验，并且一些专家也对DeepSeek-V3的技术表示赞赏。

正文

请到「今天看啥」查看全文

机器之心报道

机器之心编辑部

今天，一个国产大模型火遍了世界。

打开 X，满眼都是讨论 DeepSeek-V3 的推文，而其中最热门的话题之一是这个参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours，再加上上下文扩展与后训练的训练，总共也只有 278.8 H800 GPU Hours。相较之下，Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。

虽然相对于其它前沿大模型， DeepSeek-V3 消耗的训练计算量较少，但其性能却足以比肩乃至更优。

据最新发布的 DeepSeek-V3 技术报告，在英语、代码、数学、汉语以及多语言任务上，基础模型 DeepSeek-V3 Base 的表现非常出色，在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比，DeepSeek-V3 也毫不逊色，并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。

DeepSeek-V3 的惊人表现主要是得益于其采用的 MLA（多头隐注意力）和 DeepSeekMoE 架构。此前，这些技术已经在 DeepSeek-V2 上得到了验证，现在也成为了 DeepSeek-V3 实现高效推理和经济训练的基石。

此外，DeepSeek-V3 率先采用了无辅助损失的负载平衡策略，并设定了多 token 预测训练目标，以实现更强大的性能。他们使用的预训练 token 量为 14.8 万亿，然后还进行了监督式微调和强化学习。

正是在这些技术创新的基础上，开源的 DeepSeek-V3 一问世便收获了无数好评。

Meta AI 研究科学家田渊栋对 DeepSeek-V3 各个方向上的进展都大加赞赏。

著名 AI 科学家 Andrej Karpathy 也表示，如果该模型的优良表现能够得到广泛验证，那么这将是资源有限情况下对研究和工程的一次出色展示。

正在创业（Lepton AI）的著名研究者贾扬清也给出了自己的深度评价。他认为 DeepSeek-V3 的诞生标志着我们正式进入了分布式推理的疆域，毕竟 671B 的参数量已经无法放入单台 GPU 了。

DeepSeek-V3 再一次引爆了人们对开源模型的热情。OpenRouter 表示自昨天发布以来，该平台上 DeepSeek-V3 的使用量已经翻了 3 倍！

一些已经尝鲜 DeepSeek-V3 的用户已经开始在网上分享他们的体验。

接下来我们看技术报告内容。

报告地址：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
项目地址：https://github.com/deepseek-ai/DeepSeek-V3
Hugging Face：https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b

架构

为了高效的推理和经济的训练，DeepSeek-V3 采用了用于高效推理的多头潜在注意力（MLA）（DeepSeek-AI，2024c）和用于经济训练的 DeepSeekMoE（Dai et al., 2024），并提出了多 token 预测（MTP）训练目标，以提高评估基准的整体性能。对于其他细节，DeepSeek-V3 遵循 DeepSeekV2（DeepSeek-AI，2024c）的设置。

与 DeepSeek-V2 相比，一个例外是 DeepSeek-V3 为 DeepSeekMoE 额外引入了辅助无损耗负载平衡策略（Wang et al., 2024a），以减轻因确保负载平衡而导致的性能下降。图 2 展示了 DeepSeek-V3 的基本架构：

MTP 将预测范围扩展到每个位置的多个未来 token。一方面，MTP 目标使训练信号更加密集，并且可以提高数据效率。另一方面，MTP 可以使模型预规划其表征，以便更好地预测未来的 token。

预训练

数据构建

与 DeepSeek-V2 相比，V3 通过提高数学和编程样本的比例来优化预训练语料库，同时将多语言覆盖范围扩大到英语和中文之外。此外，新版本对数据处理流程也进行了改进，以最大限度地减少冗余，同时保持语料库的多样性。DeepSeek-V3 的训练语料在 tokenizer 中包含 14.8T 个高质量且多样化的 token。

超参数

模型超参数：本文将 Transformer 层数设置为 61，隐藏层维度设置为 7168。所有可学习参数均以标准差 0.006 随机初始化。在 MLA 中，本文将注意力头 𝑛_ℎ 的数量设置为 128，每个头的维度 𝑑_ℎ 设置为 128。

此外，本文用 MoE 层替换除前三层之外的所有 FFN。每个 MoE 层由 1 个共享专家和 256 个路由专家组成，其中每个专家的中间隐藏维度为 2048。在路由专家中，每个 token 将激活 8 个专家，并确保每个 token 最多发送到 4 个节点。

与 DeepSeek-V2 一样，DeepSeek-V3 也在压缩潜在向量之后使用了额外的 RMNSNorm 层，并在宽度 bottlenecks 处乘以额外的缩放因子。在这种配置下，DeepSeek-V3 包含总共 671B 个参数，其中每个 token 激活 37B 个。

长上下文扩展

本文采用与 DeepSeek-V2 类似的方法，在 DeepSeek-V3 中启用长上下文功能。在预训练阶段之后，应用 YaRN 进行上下文扩展，并执行两个额外的训练阶段，每个阶段包含 1000 个 step，以逐步将上下文窗口从 4K 扩展到 32K，然后再扩展到 128K。

通过这种两阶段扩展训练，DeepSeek-V3 能够处理长达 128K 的输入，同时保持强劲的性能。图 8 表明，经过监督微调后，DeepSeek-V3 在大海捞针 (NIAH) 测试中取得了显著的性能，在长达 128K 的上下文窗口长度中表现出一致的稳健性。

评估

表 3 将 DeepSeek-V3 的基础模型与 SOTA 性能的开源基础模型进行了比较，包括 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base。

总体而言，DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base，并在大多数基准测试中超越 LLaMA-3.1 405B Base，基本上成为最强大的开源模型。

具体来说，本文将 DeepSeek-V3-Base 与其他开源基础模型分别进行了比较。

（1）与 DeepSeek-V2-Base 相比，由于模型架构的改进，模型大小和训练 token 的扩大以及数据质量的提升，DeepSeek-V3-Base 取得了预期的、更好的性能。

（2）与目前最先进的中文开源模型 Qwen2.5 72B Base 相比，在激活参数只有其一半的情况下，DeepSeek-V3-Base 也表现出了明显的优势，尤其是在英文、多语言、代码和数学基准测试中。对于中文基准测试，除了中文多学科多项选择题 CMMLU 之外，DeepSeek-V3-Base 也取得了优于 Qwen2.5 72B 的性能。

（3）与目前最大的开源模型 LLaMA-3.1 405B Base（激活参数量是其 11 倍）相比，DeepSeek-V3-Base 在多语言、代码和数学基准测试中也表现出了更好的性能。在英语和中文基准测试中，DeepSeek-V3-Base 表现出了相当或更好的性能，尤其是在 BBH、MMLU-series、DROP、C-Eval、CMMLU 和 CCPM 上表现优异。

由于高效的架构和全面的工程优化，DeepSeekV3 实现了极高的训练效率。基于训练框架和基础设施，在 V3 上训练每万亿个 token 只需要 180K H800 GPU 小时，这比训练 72B 或 405B 密集模型便宜得多。

表 4 展示了 MTP 策略的消融结果，作者在两个不同规模的基线模型上验证了 MTP 策略。从表中我们可以观察到，MTP 策略在大多数评估基准上持续提高了模型性能。

在接下来的文章中，作者介绍了后训练，包括监督微调、强化学习等内容。

了解更多内容，请参考原论文。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]