1、DeepSeek v3训练成本分析
整体训练成本较低:DeepSeek v3大模型整体训练成本约为557.6万美元,远低于其他同类大模型。训练阶段分为预训练、上下文拓展、后训练三个阶段,通过详细计算各阶段GPU小时耗费,加总得到总训练时间约为278.8万GPU小时,假设H800 GPU租用价格每小时2美元得出该成本。
实际成本可能更高:DeepSeek v3的技术文档中模型训练成本未包含模型架构设计、算法优化或数据处理等前期研究以及消融实验的费用,所以整个训练过程的实际成本或许比技术文档中披露的要多。
2、DeepSeek v3降低算力成本的方法
沿用前代架构优化:DeepSeek v3沿用前代的MLA(多头潜在注意力机制)和自研的DeepSeek MOE架构,MLA架构可降低推理过程中的KV缓存开销,MOE通过动态选择并激活部分专家降低计算开销,通过专用和共享专家显著提升模型稀疏程度。
采取多种优化措施:包括多专家混合架构(MOE的优化)、多头潜在注意力机制(MLA)、多令牌预测(MTP目标)、高效的训练框架设计以及FP8混合精度训练框架等,从不同方面提高计算效率、增强预测能力、优化内存占用等。
3、DeepSeek v3应用和部署阶段算力需求
推理阶段算力需求:在应用和部署阶段所需算力差不多在数百块的H800,其中推理阶段最小部署单元需要大概四个节点,每个节点配备8个GPU,算下来共需要32个GPU。
解码阶段算力需求:解码阶段最小部署单元需要40个节点,每个节点配备8个GPU,共需320个GPU。
4、DeepSeek v3算力成本降低原因总结
训练方法优化:DeepSeek MOE通过参考各类训练方法优化得到,如FP8混合精度训练框架通过对算法及硬件协同设计,克服通信瓶颈,实现加速训练,降低训练成本,能扩大模型规模。
架构降低开销:采用的MLA架构可以降低推理过程中KV缓存开销,其训练方法在特定方向上的选择,使得算力成本有所降低。
5、DeepSeek v3对大模型行业的影响
探索商业化方向:以大规模通用模型为基础,聚焦特定领域,突出自身特点的模型应用开发或是下一阶段商业化探索方向,为未来大模型技术发展提供启发。
降低商业化成本:未来或发展更具特色、成本更低的模型,适合具体应用场景,随着特色模型成熟,AI商业化边际成本有望降低,迎来更广阔应用前景。
6、DeepSeek v3相关风险提示
技术追赶和竞争加剧风险:DeepSeek采用的MLA和MOE架构训练方法为其他大模型开发提供技术参考,国内AI大模型或结合自身特点加强数据利用和模型优化效率,加剧行业竞争态势。
商业化成功不确定性风险:由于下游生态和使用环境的差异,商业化成功存在不确定性;AI生成内容存在知识版权纠纷风险,目前国家未出台相关法律法规明确界定,或给研发团队带来法律风险和不确定性,影响AI应用开发和推广。