DeepSeek-R1相对其他自然语言大模型,具有明显的低价优势,表现在如下几个方面:
1、据广泛认可的数据,DeepSeek-R1成本为600万美元左右,该数据的准确表述应为其前期DeepSeek-V3版本的预训练成本(根据DeepSeek发布的学术文章中的数据),约为同类模型(如Meta Llama3.1)训练成本的1/10;
2、DeepSeek从幻方量化拆分出来后,购买GPU显卡费用约7亿美元,根据SemiAnalysis的研究报告分析,DeepSeek拥有6万张性能不等的计算显卡,远低于其他大模型公司的数量,另外搭建服务器费用约9亿美元,计入运营成本后总费用约26亿美元;
3、DeepSeek-R1是一个相对较小的大模型,共有671B(6710亿参数,约为GPT-4的1/3),一次推理调用参数约37B(370亿参数);
4、DeepSeek-R1通过强化学习技术(RL),在仅有极少标注数据(SFT)的情况下极大提升了模型推理能力,这是其成本较低的最主要原因。
DeepSeek AI团队在康奈尔大学arXiv上发表了3篇重要论文,据此可以了解和学习DeepSeek的主要学术思想。
1、《DeepSeek LLM:以长期主义扩展开源语言模型》
[1]
该文于2024年1月发布,摘要如下:
开源大语言模型(LLMs)的快速发展确实令人瞩目。然而,先前文献中描述的扩展规律得出了不同的结论,这为扩展LLMs蒙上了一层阴影。我们深入研究了扩展规律,并提出了独特的发现,这些发现促进了在两种广泛使用的开源配置(7B和67B)中扩展大规模模型。在扩展规律的指导下,我们推出了DeepSeek LLM项目,这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段,我们开发了一个目前包含2万亿token且不断扩展的数据集。我们进一步对DeepSeek LLM基础模型进行了监督微调(SFT)和直接偏好优化(DPO),从而创建了DeepSeek Chat模型。我们的评估结果表明,DeepSeek LLM 67B在一系列基准测试中超越了LLaMA-2 70B,尤其是在代码、数学和推理领域。此外,开放式评估显示,我们的DeepSeek LLM 67B Chat在性能上优于GPT-3.5。
2、《DeepSeek-V3:技术报告》
[2]
该文于2024年12月发布,摘要如下:
我们推出了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts, MoE)大语言模型,总参数量为6710亿,每个token激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力机制(Multi-head Latent Attention,MLA)和DeepSeeMoE架构,这些架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首次采用了无辅助损失的负载均衡策略,并设定了多token预测训练目标以提升性能。我们在14.8万亿个多样化且高质量的token上对DeepSeek-V3进行了预训练,随后通过监督微调和强化学习阶段充分释放其潜力。综合评估表明,DeepSeek-V3超越了其他开源模型,并达到了与领先闭源模型相当的性能。尽管其性能卓越,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时。此外,其训练过程非常稳定,在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或进行任何回滚操作。
模型检查点可在以下链接获取:
https://github.com/deepseek-ai/DeepSeek-V3。
3、《DeepSeek-R1:通过强化学习提升大型语言模型的推理能力》
[3]
该文于2025年1月发布,摘要如下:
我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,无需监督微调(SFT)作为前置步骤,展现了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在强化学习之前引入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上实现了与OpenAI-o1-1217相当的性能。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1;对标Qwen和Llama,从DeepSeek-R1蒸馏出了6个稠密模型(1.5B、7B、8B、14B、32B、70B)。
本期文章对DeepSeek公司、产品、大模型高性价比及其学术论文进行了学习,可以看出:
1、DeepSeek的产生是长期积累的结果,其诞生过程包含着深刻的历史发展、社会环境和个人努力因素;
2、DeepSeek的成长基于巨人的肩膀,又继续增高了巨人肩膀的高度;
3、DeepSeek带来的不仅仅是高性价比AGI功能,对其进行多方面了解也能让我们受益。
参考文献:
[1] https://arxiv.org/pdf/2401.02954
[2] https://arxiv.org/pdf/2412.19437
[3] https://arxiv.org/pdf/2501.12948