查看更多机构调研纪要、电话会纪要
请关注【纪要研报中心】
更多报告PDF与音频文件加微信:
Y1206859索取
本文仅梳理公司和行业的最新基本面,并非在当前时间点推荐买卖公
司,本文不具备个股操作指导功能,投资有风险,入市需谨慎
。
近期
DeepSeek
一跃成名。起因是发布的一款名为DeepSeek V2的
开源模型
,提供了一种史无前例的性价比:
推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一
。
DeepSeek海外出圈情况
本周末DeepSeek R1模型的推出,
受到海外巨头Meta的关注,进一步论证中美大模型的差距在快速接近
。同时由于其开源属性,AI应用行业将全面进入推理阶段,中国产品化能力的优势更加突出。
网页端用户:DeepSeek 推出V3(对标4o,日期是24.12.26),以及推出R1(对标o1,日期是25.1.20)后,从1月开始用户进入两轮增长,目前网页端用户已超过豆包和Kimi。
海外显著出圈:目前用户结构方面,中国占27.9%,总体海外占72.1%,同时美国用户占比5.36%。
一、DeepSeek R1创新点解读
主要工作:
1)DeepSeek此次发布了DeepSeek-R1-Zero和DeepSeek-R1模型。DeepSeek-R1-Zero模型仅依靠大规模强化学习训练,没有监督微调,便实现了推理能力的自主进化,自发涌现出“反思”、“多步验证”等复杂推理行为,尤其是逻辑能力得到大幅飞跃。
2)但该模型存在可读性差、语言混合等问题,为了解决这一问题,DeepSeek-R1模型通过冷启动数据和迭代强化学习微调实现:通过数千条高质量长推理链数据对基础模型微调,强制规范输出,提高可读性,同时在语言一致性上进行了训练提升,并且融入了人类偏好奖励模型,对模型进行了规范。
3)使用DeepSeek-R1作为教师模型生成800K数据,并对多个小型密集模型微调,小模型性能飞跃。以通义千问的15亿参数量大模型为例,经过DeepSeek微调后,数学题上超过GPT4o-0513的水平。
核心创新点:
1)传统大模型需要大量人工标注的监督数据进行训练,但DeepSeek-R1-Zero首次验证了无需任何微调数据,
仅通过强化学习即可实现推理能力的自主进化
。而且这是没有奖励思维链长度(通俗讲,没有引导推理模型用更多的时间去思考)的情况下实现的,即目标只是为了作对题目,大模型就会自发进行更长地思考,并且最后回答效果更好。
2)在这个过程中,
观察到了反思、多步验证能力的涌现
,出现问题后,模型会自动纠正早期错误。
重要性:前两条非常重要,一个是指出新道路,一个是证明这条道路有巨大的潜力,会进一步加速Agent应用。
3)尽管DeepSeek-R1-Zero足够优秀,但他经常会出现中英文混杂、格式混乱的现象,工程上仍需优化。因此DeepSeek-R1模型通过与人类知识、经验、规范相融合,实现了更好的输出。
4)能力可以迁移:把R1蒸馏后可实现推理能力迁移,小模型也可以在特定任务中媲美大模型。
重要性:小算力也可实现复杂功能,在边缘场景,如自动驾驶、机器人等一系列实时应用提供更好的方案。
二、DeepSeek的分歧,谈谈算力需求
今天重点研究DeepSeek,除了基础的体验外,也去Github上学习了他的
Technical Report
(如需相关资料可私信),同步梳理了脑图如下。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。
于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少领导担心训练侧大幅降本,引发算力需求下降。
DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。
从训练到推理、算力需求持续增长
DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练;
AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,测算仅字节豆包未来就需要50-100万张等效H100算力需求。
DeepSeek周末热议,如何与豆包进行对比?
DeepSeek属于大语言模型,而豆包属于多模态大模型,因此在算力需求上本身不在同一数量级。
deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上,又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。相当于DeepSeek做减法、豆包做加法。
结论:
DeepSeek是国产大语言模型之光(重视合作方和生态);豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。
三、Deepseek助推昇腾链前景,标的梳理
DeepSeek发布的R1模型表现卓越,在AIME2024数学基准测试中成功率达79.8%,超越了OpenAI的o1推理模型,在标准化编码测试中展现出“专家级”性能,在Codeforces上获得2029Elo评级,超越96.3%的人类竞争对手。对此,Meta创始人扎克伯格称赞非常先进。
DeepSeek更是宣布首发支持华为的昇腾平台
,国产AI 软件与硬件的强强联合,有望显著提升了模型推理效率,降低了用户的使用门槛。
华为昇腾产业链标的梳理
华丰科技
:华为高速背板连接器核心供应商
泰嘉股份:旗下雅达电子与华为在服务器电源领域有合作
意华股份:内设华为专案工厂生产通讯连接器
华工科技、光迅科技:为
华为光模块
供应商
英维克、申菱环境、飞荣达: 散热及温控供应商
纪要研究中心,奉行价值投机策略,每天更新80+最新企业纪要和行业报告,共同挖掘具有100%增长潜力的标的,
1、锂电,光伏,风电、半导体,医美
,医药
,大消费等行业公司最新纪要,
2、微信会员群
是基本面爱好者的聚集地,也是缩小你与机构信息差的根据地
,
如果你也是一个基本面爱好者,那么请加入我们,
每天更新100+最新企业纪要和行业报告,挖掘具有100%增长潜力的标的,
实现超额回报。