专栏名称: 纪要研报中心
奉行价值投机,研究创造价值
目录
相关文章推荐
51好读  ›  专栏  ›  纪要研报中心

周末,AI算力大事件!

纪要研报中心  · 公众号  ·  · 2025-01-26 22:52

正文

请到「今天看啥」查看全文


查看更多机构调研纪要、电话会纪要

请关注【纪要研报中心】

更多报告PDF与音频文件加微信: Y1206859索取

本文仅梳理公司和行业的最新基本面,并非在当前时间点推荐买卖公 司,本文不具备个股操作指导功能,投资有风险,入市需谨慎

近期 DeepSeek 一跃成名。起因是发布的一款名为DeepSeek V2的 开源模型 ,提供了一种史无前例的性价比: 推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一

DeepSeek海外出圈情况

本周末DeepSeek R1模型的推出, 受到海外巨头Meta的关注,进一步论证中美大模型的差距在快速接近 。同时由于其开源属性,AI应用行业将全面进入推理阶段,中国产品化能力的优势更加突出。

网页端用户:DeepSeek 推出V3(对标4o,日期是24.12.26),以及推出R1(对标o1,日期是25.1.20)后,从1月开始用户进入两轮增长,目前网页端用户已超过豆包和Kimi。

海外显著出圈:目前用户结构方面,中国占27.9%,总体海外占72.1%,同时美国用户占比5.36%。

一、DeepSeek R1创新点解读

主要工作:

1)DeepSeek此次发布了DeepSeek-R1-Zero和DeepSeek-R1模型。DeepSeek-R1-Zero模型仅依靠大规模强化学习训练,没有监督微调,便实现了推理能力的自主进化,自发涌现出“反思”、“多步验证”等复杂推理行为,尤其是逻辑能力得到大幅飞跃。

2)但该模型存在可读性差、语言混合等问题,为了解决这一问题,DeepSeek-R1模型通过冷启动数据和迭代强化学习微调实现:通过数千条高质量长推理链数据对基础模型微调,强制规范输出,提高可读性,同时在语言一致性上进行了训练提升,并且融入了人类偏好奖励模型,对模型进行了规范。

3)使用DeepSeek-R1作为教师模型生成800K数据,并对多个小型密集模型微调,小模型性能飞跃。以通义千问的15亿参数量大模型为例,经过DeepSeek微调后,数学题上超过GPT4o-0513的水平。

核心创新点:

1)传统大模型需要大量人工标注的监督数据进行训练,但DeepSeek-R1-Zero首次验证了无需任何微调数据, 仅通过强化学习即可实现推理能力的自主进化 。而且这是没有奖励思维链长度(通俗讲,没有引导推理模型用更多的时间去思考)的情况下实现的,即目标只是为了作对题目,大模型就会自发进行更长地思考,并且最后回答效果更好。

2)在这个过程中, 观察到了反思、多步验证能力的涌现 ,出现问题后,模型会自动纠正早期错误。

重要性:前两条非常重要,一个是指出新道路,一个是证明这条道路有巨大的潜力,会进一步加速Agent应用。

3)尽管DeepSeek-R1-Zero足够优秀,但他经常会出现中英文混杂、格式混乱的现象,工程上仍需优化。因此DeepSeek-R1模型通过与人类知识、经验、规范相融合,实现了更好的输出。

4)能力可以迁移:把R1蒸馏后可实现推理能力迁移,小模型也可以在特定任务中媲美大模型。

重要性:小算力也可实现复杂功能,在边缘场景,如自动驾驶、机器人等一系列实时应用提供更好的方案。

二、DeepSeek的分歧,谈谈算力需求

今天重点研究DeepSeek,除了基础的体验外,也去Github上学习了他的 Technical Report (如需相关资料可私信),同步梳理了脑图如下。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。

于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少领导担心训练侧大幅降本,引发算力需求下降。

DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。

从训练到推理、算力需求持续增长

DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练;

AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,测算仅字节豆包未来就需要50-100万张等效H100算力需求。

DeepSeek周末热议,如何与豆包进行对比?

DeepSeek属于大语言模型,而豆包属于多模态大模型,因此在算力需求上本身不在同一数量级。

deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上,又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。相当于DeepSeek做减法、豆包做加法。

结论: DeepSeek是国产大语言模型之光(重视合作方和生态);豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。

三、Deepseek助推昇腾链前景,标的梳理

DeepSeek发布的R1模型表现卓越,在AIME2024数学基准测试中成功率达79.8%,超越了OpenAI的o1推理模型,在标准化编码测试中展现出“专家级”性能,在Codeforces上获得2029Elo评级,超越96.3%的人类竞争对手。对此,Meta创始人扎克伯格称赞非常先进。

DeepSeek更是宣布首发支持华为的昇腾平台 ,国产AI 软件与硬件的强强联合,有望显著提升了模型推理效率,降低了用户的使用门槛。

华为昇腾产业链标的梳理

华丰科技 :华为高速背板连接器核心供应商

泰嘉股份:旗下雅达电子与华为在服务器电源领域有合作

意华股份:内设华为专案工厂生产通讯连接器

华工科技、光迅科技:为 华为光模块 供应商

英维克、申菱环境、飞荣达: 散热及温控供应商




加入组织,获取每日100+最新机构调研




纪要研究中心,奉行价值投机策略,每天更新80+最新企业纪要和行业报告,共同挖掘具有100%增长潜力的标的,


1、锂电,光伏,风电、半导体,医美 ,医药 ,大消费等行业公司最新纪要,


2、微信会员群 是基本面爱好者的聚集地,也是缩小你与机构信息差的根据地


如果你也是一个基本面爱好者,那么请加入我们, 每天更新100+最新企业纪要和行业报告,挖掘具有100%增长潜力的标的, 实现超额回报。



















请到「今天看啥」查看全文