专栏名称: 价值百宝箱
价值投资思想、行业公司调研信息,投资资讯,热点资讯等一线价值分享;若不便发表,请联系修改
目录
相关文章推荐
四川日报  ·  致11人遇难,32人被追责!山东东平重大道路 ... ·  23 小时前  
田俊国讲坛  ·  【2月22-23日】心智突围工作坊第九期(北 ... ·  2 天前  
四川日报  ·  事关DeepSeek!多地官宣 ·  3 天前  
51好读  ›  专栏  ›  价值百宝箱

DeepSeek表现对算力需求到底有无影响

价值百宝箱  · 公众号  ·  · 2025-01-05 18:27

正文

(参考 消息、作文、专家纪要、调研分享;提高认知及信息差 )

分享市场、行业及公司动态,包括投资策略、行业数据库、专家调研、公司纪要;信息超越 99% 的投资者)微信扫码加入体验)



1、DeepSeek v3训练成本分析

整体训练成本较低:DeepSeek v3大模型整体训练成本约为557.6万美元,远低于其他同类大模型。训练阶段分为预训练、上下文拓展、后训练三个阶段,通过详细计算各阶段GPU小时耗费,加总得到总训练时间约为278.8万GPU小时,假设H800 GPU租用价格每小时2美元得出该成本。

实际成本可能更高:DeepSeek v3的技术文档中模型训练成本未包含模型架构设计、算法优化或数据处理等前期研究以及消融实验的费用,所以整个训练过程的实际成本或许比技术文档中披露的要多。

2、DeepSeek v3降低算力成本的方法

沿用前代架构优化:DeepSeek v3沿用前代的MLA(多头潜在注意力机制)和自研的DeepSeek MOE架构,MLA架构可降低推理过程中的KV缓存开销,MOE通过动态选择并激活部分专家降低计算开销,通过专用和共享专家显著提升模型稀疏程度。

采取多种优化措施:包括多专家混合架构(MOE的优化)、多头潜在注意力机制(MLA)、多令牌预测(MTP目标)、高效的训练框架设计以及FP8混合精度训练框架等,从不同方面提高计算效率、增强预测能力、优化内存占用等。

3、DeepSeek v3应用和部署阶段算力需求

推理阶段算力需求:在应用和部署阶段所需算力差不多在数百块的H800,其中推理阶段最小部署单元需要大概四个节点,每个节点配备8个GPU,算下来共需要32个GPU。

解码阶段算力需求:解码阶段最小部署单元需要40个节点,每个节点配备8个GPU,共需320个GPU。

4、DeepSeek v3算力成本降低原因总结

训练方法优化:DeepSeek MOE通过参考各类训练方法优化得到,如FP8混合精度训练框架通过对算法及硬件协同设计,克服通信瓶颈,实现加速训练,降低训练成本,能扩大模型规模。

架构降低开销:采用的MLA架构可以降低推理过程中KV缓存开销,其训练方法在特定方向上的选择,使得算力成本有所降低。

5、DeepSeek v3对大模型行业的影响

探索商业化方向:以大规模通用模型为基础,聚焦特定领域,突出自身特点的模型应用开发或是下一阶段商业化探索方向,为未来大模型技术发展提供启发。

降低商业化成本:未来或发展更具特色、成本更低的模型,适合具体应用场景,随着特色模型成熟,AI商业化边际成本有望降低,迎来更广阔应用前景。

6、DeepSeek v3相关风险提示

技术追赶和竞争加剧风险:DeepSeek采用的MLA和MOE架构训练方法为其他大模型开发提供技术参考,国内AI大模型或结合自身特点加强数据利用和模型优化效率,加剧行业竞争态势。

商业化成功不确定性风险:由于下游生态和使用环境的差异,商业化成功存在不确定性;AI生成内容存在知识版权纠纷风险,目前国家未出台相关法律法规明确界定,或给研发团队带来法律风险和不确定性,影响AI应用开发和推广。







-----------------------------------------------------------------------------

读完顺手点下“在看”,下次更新优先推送消息; 欢迎点赞、在看;更多纪要:







请到「今天看啥」查看全文