专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
创伙伴  ·  第二款免费红包封面:蛇年大吉! ·  14 小时前  
创伙伴  ·  第一款免费红包封面:蛇年行大运! ·  4 天前  
我是腾腾爸  ·  牛爆了,加油! ·  6 天前  
51好读  ›  专栏  ›  独角兽智库

DeepSeek的背后:开源模型的胜利与未来趋势

独角兽智库  · 公众号  · 科技投资  · 2025-02-04 22:25

正文


独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码


关于这几天很火的 DeepSeek,我们(Archerman Capital)做了一些研究和思考,和大家分享, enjoy!灰色部分是技术细节,不感兴趣的可略过。

几个事实

DeepSeek并非简单的套壳或蒸馏模型

尽管部分中国的大模型采用了套壳和蒸馏技术,但DeepSeek并非如此。DeepSeek的核心架构基于Transformer,但在架构和工程设计上进行了创新和工艺提升,实现了效率优化。

架构与工程设计的创新

DeepSeek在架构上采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)和DualPipe算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训练尝试。在工程上,DeepSeek对数据精度(FP8混合精度)和底层通信进行了优化。这些方法虽然在学术界已有先例,但DeepSeek通过精心设计,解决了技术应用中的难点,实现了理论与工程的平衡。

  • MoE(混合专家模型):通过将模型划分为多个专家模块进行分工,训练时分配到不同计算设备以提升效率,推理时动态激活部分专家模块以减少计算负担。DeepSeek通过无辅助损失的自然负载均衡和共享专家机制解决了专家模块工作量不平衡的问题。

  • MLA(多头潜注意力):扩展了传统的多头注意力机制,引入潜向量以动态调整注意力机制,捕捉任务中的隐含语义。这在训练中减少了内存和计算开销,在推理中降低了KV缓存占用空间。

  • MTP(多令牌预测):在特定场景下同时预测多个令牌,提高信号密度,减少上下文漂移和逻辑连贯性问题,同时减少重复中间步骤,提升效率。

  • CoT(长链式推理):将复杂问题拆分为小步中间逻辑,通过标注的长CoT数据微调模型,增强长链推理能力。

  • DualPipe:设计双重流水线,减少等待时间和“流水线气泡”,提高计算效率。

  • R1-Zero:仅通过强化学习训练,不加入SFT数据,探索模型自主推演能力。

  • FP8混合精度训练:引入FP8混合精度框架,减少数据内存占用,同时在关键模块保留更高精度。

  • 底层通信优化:开发高效通信内核,优化带宽利用率,支持大规模部署。


拿内燃机和汽车的发明打个比方,德国人发明了内燃机和汽车,美国人喜欢 Scaling Law,排量越大马力越大,于是从 2 升到 4 升,甚至 8 升排量的车在美国都很常见,所以美国肌肉车很耗油。虽然源头技术不是日本发明的,但日本人擅长把一件事做精,工程上做很多优化,日本 2.5 升排量的车甚至可以做到和美国 5 升排量车一样的百公里加速指标。比如轻量化设计把大钢板换成钢条(类似通过稀疏的办法减少大模型的参数量);涡轮增压利用废气能量增加空气供给,提高燃烧效率;精密制造,使得发动机零部件的配合更加紧密,从而减少能量损失;等等。

训练成本的误解

有宣传称DeepSeek的训练成本为550万美元,仅为Meta的1/10和OpenAI的1/20,这有些夸张。实际上,预训练几千亿参数的模型在美国的成本不到2000万美元,DeepSeek将成本压缩到三分之一。Meta和OpenAI的成本较高是因为他们在前沿探路,不可避免地会有浪费。后发追赶者可以避免这些浪费。此外,算力成本在过去几年呈指数型下降,不能简单地进行机械比较。

几个观点

开源模型的胜利

DeepSeek代表了开源相对闭源的一次胜利。开源社区的贡献将快速转化为整个社区的繁荣。包括Meta在内的开源力量将在其基础上进一步发展开源模型。开源的力量在于众人拾柴火焰高。

闭源模型的挑战

OpenAI的大力出奇迹路径目前显得有些简单粗暴,但也不排除在达到一定量后出现新的质变,从而再次拉开与开源模型的差距。从AI过去70年的发展经验来看,算力至关重要,未来可能依然如此。

开源模型的商业潜力

DeepSeek让开源模型与闭源模型一样好,甚至效率更高。这降低了购买OpenAI API的必要性,私有部署和自主微调将为下游应用提供更大的发展空间。未来一两年,我们可能会见证更丰富的推理芯片产品和更繁荣的LLM应用生态。

基础大模型的商品化

基础大模型终将商品化。在to B领域,关键在于谁能够将LLM更好地与复杂的生产环节衔接,帮助客户落地并提高生产效率。在toC领域,关键在于谁拥有流量入口,最终获取AI产业价值创造中的最多利润。

对算力的持续需求

根据Jevons悖论,第一次工业革命期间蒸汽机效率的提高反而导致煤炭消耗总量增加。类似地,从大哥大到诺基亚手机普及的年代,正是因为成本降低才得以普及,而普及又导致市场总消费量增加。因此,对算力的需求不会下降。

对数据的持续需求

巧妇难为无米之炊,没有数据就无法训练模型。算法的提高相当于做饭吃饭变得更快,但对数据的渴求会更大。

研究与交流

在研究过程中,我们与多位学术界和工业界的专家进行了交流。由于尚未获得公开提名的许可,暂不提及具体姓名,但在此特别感谢他们的贡献。

关于Archerman Capital

Archerman Capital™是一家美国的成长期股权投资机构,专注于人工智能、数据基础设施、网络安全等领域的成长期投资。其投资组合包括Databricks、Scale AI、Tenstorrent等。该机构采用高度研究驱动和第一性原理的方法。公司总部位于波士顿,在纽约和硅谷设有投资团队。

现开放投研情报群体验名额,更多投研情报服务,请往下看



独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号