专栏名称: 独角兽情报
股票投研情报,快人一步
目录
相关文章推荐
生物制品圈  ·  AI书籍推荐 | 十本书籍带你探索人工智能 ·  2 天前  
BioArt  ·  Nature | ... ·  2 天前  
生物学霸  ·  中国医学科学院/北京协和医学院 ... ·  3 天前  
生物学霸  ·  34 年来,亚洲科学家首获这一奖项 ·  3 天前  
51好读  ›  专栏  ›  独角兽情报

DeepSeek表现对算力需求到底有无影响

独角兽情报  · 公众号  ·  · 2025-01-05 22:32

正文

独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时 9 年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了 固态电池、AI+ 等板块机会,个股 桂发祥、华胜天成、供销大集

现开放体验名额,加微信 :itouzi8888, 文末有二维码


1、DeepSeek v3训练成本分析

整体训练成本较低:DeepSeek v3大模型整体训练成本约为557.6万美元,远低于其他同类大模型。训练阶段分为预训练、上下文拓展、后训练三个阶段,通过详细计算各阶段GPU小时耗费,加总得到总训练时间约为278.8万GPU小时,假设H800 GPU租用价格每小时2美元得出该成本。

实际成本可能更高:DeepSeek v3的技术文档中模型训练成本未包含模型架构设计、算法优化或数据处理等前期研究以及消融实验的费用,所以整个训练过程的实际成本或许比技术文档中披露的要多。

2、DeepSeek v3降低算力成本的方法

沿用前代架构优化:DeepSeek v3沿用前代的MLA(多头潜在注意力机制)和自研的DeepSeek MOE架构,MLA架构可降低推理过程中的KV缓存开销,MOE通过动态选择并激活部分专家降低计算开销,通过专用和共享专家显著提升模型稀疏程度。

采取多种优化措施:包括多专家混合架构(MOE的优化)、多头潜在注意力机制(MLA)、多令牌预测(MTP目标)、高效的训练框架设计以及FP8混合精度训练框架等,从不同方面提高计算效率、增强预测能力、优化内存占用等。

3、DeepSeek v3应用和部署阶段算力需求

推理阶段算力需求:在应用和部署阶段所需算力差不多在数百块的H800,其中推理阶段最小部署单元需要大概四个节点,每个节点配备8个GPU,算下来共需要32个GPU。

解码阶段算力需求:解码阶段最小部署单元需要40个节点,每个节点配备8个GPU,共需320个GPU。

4、DeepSeek v3算力成本降低原因总结

训练方法优化:DeepSeek MOE通过参考各类训练方法优化得到,如FP8混合精度训练框架通过对算法及硬件协同设计,克服通信瓶颈,实现加速训练,降低训练成本,能扩大模型规模。

架构降低开销:采用的MLA架构可以降低推理过程中KV缓存开销,其训练方法在特定方向上的选择,使得算力成本有所降低。

5、DeepSeek v3对大模型行业的影响

探索商业化方向:以大规模通用模型为基础,聚焦特定领域,突出自身特点的模型应用开发或是下一阶段商业化探索方向,为未来大模型技术发展提供启发。

降低商业化成本:未来或发展更具特色、成本更低的模型,适合具体应用场景,随着特色模型成熟,AI商业化边际成本有望降低,迎来更广阔应用前景。

6、DeepSeek v3相关风险提示

技术追赶和竞争加剧风险:DeepSeek采用的MLA和MOE架构训练方法为其他大模型开发提供技术参考,国内AI大模型或结合自身特点加强数据利用和模型优化效率,加剧行业竞争态势。

商业化成功不确定性风险:由于下游生态和使用环境的差异,商业化成功存在不确定性;AI生成内容存在知识版权纠纷风险,目前国家未出台相关法律法规明确界定,或给研发团队带来法律风险和不确定性,影响AI应用开发和推广。


现开放投研情报群体验名额,更多投研情报服务,请往下看


独角兽投研情报会员服务

服务概述

现在的 A 骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大 A 各个生态阶层:

1 :公募核心圈,提前获取公募看好的大方向和主攻领域。

2 :券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3 :游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4 :产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的 A 股炒作逻辑。

服务内容

1 、大资金抱团动向

2 、集合竞价龙头早知道

3 、先手小作文

4 、券商主推方向及逻辑

5 、市场的机会和风向提示

6 、个骨和行业避雷

服务方式:

微信群 -- 只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式 (如果您关注短线交易)

请加微信: itouzi8888 ,备注: 体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信: itouzi5 ,备注: 体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值, 有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)




















请到「今天看啥」查看全文