专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
独角兽智库  ·  氢能源:政策红利驱动下的崛起之路 ·  2 天前  
独角兽智库  ·  AI PC板块梳理 ·  3 天前  
独角兽智库  ·  氢能源产业链梳理 ·  4 天前  
51好读  ›  专栏  ›  独角兽智库

DeepSeek表现对算力需求到底有无影响

独角兽智库  · 公众号  · 科技投资  · 2025-01-05 22:30

正文


独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码


1、DeepSeek v3训练成本分析

整体训练成本较低:DeepSeek v3大模型整体训练成本约为557.6万美元,远低于其他同类大模型。训练阶段分为预训练、上下文拓展、后训练三个阶段,通过详细计算各阶段GPU小时耗费,加总得到总训练时间约为278.8万GPU小时,假设H800 GPU租用价格每小时2美元得出该成本。

实际成本可能更高:DeepSeek v3的技术文档中模型训练成本未包含模型架构设计、算法优化或数据处理等前期研究以及消融实验的费用,所以整个训练过程的实际成本或许比技术文档中披露的要多。

2、DeepSeek v3降低算力成本的方法

沿用前代架构优化:DeepSeek v3沿用前代的MLA(多头潜在注意力机制)和自研的DeepSeek MOE架构,MLA架构可降低推理过程中的KV缓存开销,MOE通过动态选择并激活部分专家降低计算开销,通过专用和共享专家显著提升模型稀疏程度。

采取多种优化措施:包括多专家混合架构(MOE的优化)、多头潜在注意力机制(MLA)、多令牌预测(MTP目标)、高效的训练框架设计以及FP8混合精度训练框架等,从不同方面提高计算效率、增强预测能力、优化内存占用等。

3、DeepSeek v3应用和部署阶段算力需求

推理阶段算力需求:在应用和部署阶段所需算力差不多在数百块的H800,其中推理阶段最小部署单元需要大概四个节点,每个节点配备8个GPU,算下来共需要32个GPU。

解码阶段算力需求:解码阶段最小部署单元需要40个节点,每个节点配备8个GPU,共需320个GPU。

4、DeepSeek v3算力成本降低原因总结

训练方法优化:DeepSeek MOE通过参考各类训练方法优化得到,如FP8混合精度训练框架通过对算法及硬件协同设计,克服通信瓶颈,实现加速训练,降低训练成本,能扩大模型规模。

架构降低开销:采用的MLA架构可以降低推理过程中KV缓存开销,其训练方法在特定方向上的选择,使得算力成本有所降低。

5、DeepSeek v3对大模型行业的影响

探索商业化方向:以大规模通用模型为基础,聚焦特定领域,突出自身特点的模型应用开发或是下一阶段商业化探索方向,为未来大模型技术发展提供启发。

降低商业化成本:未来或发展更具特色、成本更低的模型,适合具体应用场景,随着特色模型成熟,AI商业化边际成本有望降低,迎来更广阔应用前景。

6、DeepSeek v3相关风险提示

技术追赶和竞争加剧风险:DeepSeek采用的MLA和MOE架构训练方法为其他大模型开发提供技术参考,国内AI大模型或结合自身特点加强数据利用和模型优化效率,加剧行业竞争态势。

商业化成功不确定性风险:由于下游生态和使用环境的差异,商业化成功存在不确定性;AI生成内容存在知识版权纠纷风险,目前国家未出台相关法律法规明确界定,或给研发团队带来法律风险和不确定性,影响AI应用开发和推广。


现开放投研情报群体验名额,更多投研情报服务,请往下看


独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号