摘要
以DeepSeek为代表的中国式创新,改变了AI经济学和规模定律,将会深刻影响全球AI产业格局。
本文将从以下几个部分深入剖析DeepSeek现象及其对全球AI产业的深远影响:
作者|陈龙、
郑凯文、士森
编辑|常娜
▼
第一部分
一个新的全球日活最高的大模型即将诞生
01|AI 革命时代下的“DeepSeek现象”
2025年1月24日,来自中国的聊天机器人DeepSeek-R1上线,两个多星期后,已逼近上一轮领跑者ChatGPT。
其用户数和日活的暴涨都验证了这个奇迹。在没有任何广告投放的情况下,DeepSeek到 1 月底已经累计获得 1.25 亿用户,其中 80% 以上来自最后一周,即 7 天完成了 1 亿用户的增长,成为人类历史上用户积累最快的App;相比之下,上一个创纪录的划时代产品ChatGPT,用了2个月“才”达到1亿用户(见图1)。
截至 2025 年
1月31日,DeepSeek的日活已突破 2215 万,仅仅用了一个多星期,已超过豆包一年的努力(1695 万日活),并达到ChatGPT日活的40%(5323 万,见图2);到2月5日,DeepSeek日活突破4083万,是豆包日活的2.75倍,ChatGPT日活约75%。可以预见,DeepSeek会很快超过ChatGPT,成为世界上日活最高的大模型。
所以,
发布两个多星期之后,
DeepSeek已经成为和ChatGPT一个数量级的产品,并继ChatGPT之后,成为本轮AI革命的第二个现象级产品。
2025年1月27日,DeepSeek登顶美国App下载榜首。
同一天,全球AI龙头英伟达的股价暴跌17%,市值蒸发近6000亿美元,创下美股历史上最大的单日市值损失纪录。与此同时,台积电股价也暴跌13%,市值蒸发超过1500亿美元。为什么发生这一系列市场动荡?
这一系列市场反应是DeepSeek的崛起对全球AI产业格局的冲击。
因为
AI技术就是通过现象级的突破来改变世界的。新的现象级产品将会如何影响商业和世界,也就至关重要。
作为第一个现象级产品,ChatGPT在2022年12月横空出世,并在之后的两年带来了美国主导的AI革命,表现在以美国七大科技公司——又称“AI七姐妹”为代表的从芯片、大模型到产业应用的AI新产业格局的繁荣。
美国前七位的科技公司,包括微软、英伟达、苹果、谷歌、亚马逊、Meta(脸谱)和特斯拉。它们既包括了最先进的算力领导者,最前沿的大模型,也包括了数字化成熟度最高、数据最丰富的应用场景,同时因为其海量用户,是最重要的新AI技术的普及推广者。
我们可以这样总结,
智能革命在上一个阶段最主要的特征是
“ChatGPT现象”,即由ChatGPT发起、美国全面主导的全球AI产业格局。
正是基于美国在现有AI产业的全球主导地位,美国政府在2025年1月刚刚推出了《美国人工智能扩散框架》(US Framework for Artificial Intelligence Diffusion),旨在通过对芯片先进程度和大模型能力的限制,控制AI在盟友国、可控国、限制国三层分级的扩散。
英伟达的大跌(虽然之后收复了大部分损失),表达了市场对新不确定性的焦虑:DeepSeek的出现,是不是一个新的现象阶段的开启?这会对OpenAI开启的原有的AI产业格局有多大的冲击?
世界已经开始如此叙事。德意志银行的分析师彼得·米利肯称:“DeepSeek的出现标志着中国的‘斯普特尼克时刻’,成功粉碎了西方遏制中国的幻想。”所谓斯普特尼克时刻,是指1957年10月4日苏联抢先美国成功发射斯普特尼克1号人造卫星,令西方世界陷入一段恐惧和焦虑的时期。特朗普也指出:“DeepSeek给美国相关产业敲响了警钟,美国需要集中精力赢得竞争。”
02|DeepSeek现象与即将发生的未来
那么,刚刚诞生的
DeepSeek现象,到底预示了什么样的正在发生的未来?
似乎是在回答这个问题, 2025 年2 月 10 日凌晨,OpenAI 的 CEO Sam Altman 公开撰文,阐述了他眼中已经被验证过的,决定AI过去与未来的三条 AI定律:
第一,AI模型的智能与资源投入的对数成正比。
AI模型的智能大致等于用于训练和运行它的资源的对数。你投入多少金额,就大概可以预测可以获得多少收益。这个预测在多个数量级上都是准确的。
第二,AI使用成本的快速下降与需求的指数级增长。
使用AI的成本,每12个月下降约10倍,而较低的价格会带来更多使用需求。从2023年初的GPT-4到2024年中期的GPT-4o,每个token的价格在这期间下降了约150倍,这就是规模定律(Scaling Law)的明证。摩尔定律曾以每18个月2倍的速度改变了世界;而现在AI展示出的规律定律令人难以置信地更强劲。
第三,AI的线性增长所带来的是社会经济价值的指数级增长。
这种增长趋势表明,未来对 AI 的投资仍将持续保持高速增长,我们看不到指数级增长的投资在近期会停止的理由。
Altman是在说,有三个规律加在一起,定义了AI技术如何改变经济和商业:首先,在技术能力上,对AI技术的投入力度决定了AI能力。其次,在应用迭代速度上,AI能力和需求形成良性互动的飞轮,体现在快速下降的成本和需求体验,可以用“规模定律”(Scaling Law,过去大半个世纪的规模定律是摩尔定律)来衡量。最后,因为AI是通用技术,所带来的经济和商业价值会指数级增长。
这一逻辑链条是Altman眼中的AI经济学,也就是AI技术影响经济和商业的规律。
Altman的描述揭示了AI技术发展的关键规律,但Altman描述中所缺失的关键环节(作为当前领军者有意无意忽略的),是技术投入需要多大规模,技术产品有多便宜,实际上决定了产业参与者的数量,谁来主导这三个规律,以及随之形成的产业格局。具体而言,OpenAI所引领的“大力出奇迹”发展路径,已经形成了以美国大科技公司为核心的寡头商业格局。Altman所说的三条规律,是由这些公司来承载和主导的,具备鲜明的地域和寡头特征。
然而,DeepSeek 的崛起正在改变这一现状,这正是DeepSeek现象的意义所在。很多的投入成本实际上是路径探索成本。
以
DeepSeek和通义千问为代表的中国AI新势力,给世界带来的是更加清晰的技术路线,大幅度降低的开发和应用成本,以及更加开源共享的模式,正在重塑 AI 产业。这些会根本改变上一个阶段的AI经济学的逻辑,从而改变AI扩散的方式和节奏,以寡头为核心玩家的规律定律正在变为普惠型的规律定律(Inclusive Scaling Law),将会带来一个非常不同的全球AI产业格局
。
潘多拉的盒子已经被打开。世界将会进入一个
“DeepSeek现象”阶段。
我们将会用两篇文章来阐释其中的逻辑和趋势。在本篇文章中,我们先解释DeepSeek做到了什么,是怎么做到的,以及这对包含规模定律的AI经济学的改变。在另一篇文章中,我们尝试分析DeepSeek现象对包括芯片、云计算、大模型到AI产业应用的影响,以及一些可以判断的重要趋势。
针对DeepSeek 现象深入研究的两篇文章分析,我们认为这是DeepSeek带来的——正在发生的AI未来。
第二部分
DeepSeek做到了什么?
要全面理解DeepSeek对AI产业的影响,我们需先明确其和世界最前沿的大模型相比达到了哪个水平。大模型又分预训练的基础大模型,和后训练的推理大模型。总体而言,DeepSeek在这两方面都已经达到了美国最一流的大模型水平。
01|中国和美国相比,AI大模型在哪一个水平?
让我们先来比较基于文本数据的预训练基础大模型
。DeepSeek的相关产品是DeepSeek-v3。如图3所示,DeepSeek-v3在中文问答准确度、长文本、数学能力和代码能力四个维度,其表现都优于美国两个最主要的大模型,OpenAI的GPT-4o,以及Anthropic的Claude-3.5-Sonnet,只是在事实性知识问答准确度方面弱于两者;同时,作为开源产品,DeepSeek-v3在所有的维度上都优于其他两家开源大模型,通义千问的Qwen2.5 72B以及Meta的Llama-3.1 405B。
再来比较多模态预训练基础大模型
。DeepSeek的多模态大模型是Janus-Pro-7B。如图4所示,在用于评估多模态模型的指令跟随能力,即模型是否能准确理解用户输入的复杂指令,并生成符合要求的图像的GenEval测试中,Janus-Pro-7B击败了DALL-E 3和Stable Diffusion等主要可比大模型。同样,在评估模型处理复杂逻辑能力,即在处理包含多个约束条件和复杂逻辑的文本提示时能否满足需要的DPG-Bench测试中,Janus-Pro-7B也击败了其他大模型。
刚才分别对比的是基于文本和多模态的预训练基础大模型。这一类大模型(比如GPT4)在解决相对不需要深度思考、把信息有效匹配就可以回答好的问题上更有效。要回答相对复杂的问题,则需要在预训练模型的基础上,研发能够把问题拆解成合理的“思维链”、做深度思考的推理模型。OpenAI在GPT4之后,意识到智能的进展需要深度思考,并于2024年推出后训练推理大模型OpenAI-o1。
DeepSeek的后训练推理大模型是DeepSeek-R1,也就是大家现在使用最多的模型
。如图5所示,我们首先可以看到,无论OpenAI还是DeepSeek的推理大模型,其在代码能力、推理能力、数学能力和综合语言能力上的表现都强于各种预训练基础大模型,彰显了深度思考对智能的提升效果。在DeepSeek- R1和OpenAI-o1之间,前者在代码能力和推理能力上弱于后者,但是在数学能力和综合语言能力上强于后者,整体水平可以视为两者接近。
DeepSeek并不是唯一追平美国一流大模型的中国企业
。2025年1月25号的《经济学人》,以及谷歌前CEO施密特在最近的评论中,都提到的两个中国大模型是DeepSeek和通义千问。通义千问最新的预训练基础大模型是2025年1月29日发布的Qwen2.5-Max。如图6所示,在最新的测评中,Qwen2.5-Max在数理能力、推理能力、代码能力、综合能力等各项测评中得分均略高于DeepSeek的预训练基础大模型DeepSeek v3。
综上所述,
我们可以得出一个极具颠覆性的结论:以
DeepSeek和通义千问等为代表的中国AI新势力,已经在预训练基础大模型和后训练推理大模型领域,基本追平了与美国最先进的大模型相当的水平。这表明,美国大模型和中国大模型之间的差距不是在拉开,而是在拉平。
02|“DeepSeek 现象”的成本效率优势
中国大模型水平已经追上美国,但更令人惊艳的,是其成本效率优势。
2025年1月,在达沃斯世界经济论坛上,微软首席执行官萨提亚·纳德拉(Satya Nadella)直言:“DeepSeek新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。”
如
纳德拉
所言,中国大模型在成本上的突破,才真正令人惊艳
。据DeepSeek披露,预训练大模型Deepseek-v3的训练成本大约在558 万美元,这是正式训练时消耗的算力成本(即正式训练耗费的GPU小时×H800每GPU小时租赁价格×55天),但不包括前期架构、算法的研究以及消融实验所产生的试错成本。按相似的对比方法,Meta训练出Llama 3.1 405B,其消耗成本为5800万美元(使用了超过1.6万个英伟达H100 GPU,历经54天)。而黄仁勋在NVIDIA GTC 2024中提到,训练1.8万亿参数的GPT模型大约需要8000个英伟达H100,耗费90天,由此估算下来,GPT4训练成本约4800万美元。此外,Mistral AI创始人Arthur Mensch透露,Mistral Large的训练成本不到2200万美元,Anthropic CEO Dario Amodei 则透露Claude 3.5 Sonnet训练成本在数千万美元。由此对比,
Deepseek-v3 的预训练成本大约为欧美头部模型的1/10左右。与此一致,如图7所示,Deepseek-v3 的API调用价格约为GPT-4o的10%
。
再看推理大模型的训练和使用成本
。DeepSeek-R1基于预训练大模型DeepSeek-V3训练,如我们后面解释,无论用DeepSeek的方式做推理模型,还是蒸馏出更小的模型,训练成本都极低(如李飞飞团队蒸馏出模型s1只花了50美元,被戏称为一杯咖啡的推理模型)。在使用时,如图7,有趣的是,OpenAI的推理模型(OpenAI-o1)的调用成本是预训练模型(GPT-4o)的6倍,但DeepSeek-R1的调用成本只是DeepSeek-v3调用成本的2倍;这意味着DeepSeek推理模型使用成本的上升比GPT慢得多,其结果是,
DeepSeek-R1的调用成本不及OpenAI-o1的5%
。
在此,
我们可以得出第二个颠覆性的结论:中国企业在整体大模型水平追上美国一流大模型水平的基础上,成本只有对方百分之几到百分之十的水平。
最一流的大模型水平,最低的成本,这样一个梦幻组合,才是
DeepSeek体现出的最重要的新突破,也标志着AI产业发展在进入一个新的增长飞轮和规模定律阶段。 从产业格局的视角看,这个突破是颠覆式的。
第三部分
DeepSeek是如何做到的?
在DeepSeek出现之前,全球一流的大模型公司几乎被美国垄断,中国公司能在这一领域取得突破被认为几乎是不可能的任务。然而,DeepSeek的崛起不仅打破了这一格局,还引发了对AI创新本质的深刻思考。我们需要从以下几个问题入手来理解DeepSeek的创新:
第一,DeepSeek的创新到底是什么样的创新?是 DeepSeek 找到了一条新的通往AGI的路径吗?还是DeepSeek 有特别的数据、算法、场景?
第二,DeepSeek 展现出的创新的本质是什么?
01|DeepSeek的创新到底是什么样的创新?
DeepSeek创新的本质,是在现有路径的基础上,做工程类创新和低成本创新。
DeepSeek做的事情并未超出 OpenAI 提出的路径:即基础大模型仍然遵循 GPT式的预训练路线,推理大模型遵循以强化学习为核心的后训练路线。DeepSeek的创新,来自对这两条路线的工程化创新和低成本创新。
我们先来看DeepSeek对预训练基础大模型的创新。在原有的Transformer路线下,DeepSeek 主要在三个方面做优化:更少的内存占用、更聪明的分工协同、更直接的硬件交互。具体而言:
①
更少的内存占用
,主要有两个实现手段:一是 MLA(Multi-head Latent Attention,多头潜在注意力机制),二是 FP8 混合精度训练。前者可以理解为在计算时把一个巨大矩阵可以分拆成两个矩阵的乘积,其中一个矩阵在训练完成后冻住,用小的矩阵做推理,对整个计算量的要求是指数级的降低;后者可以理解为“精打细算”,在精度要求不高的地方使用 FP8,在精度要求高的计算力使用 FP16 或者 FP32(数字越大表示精度越高)。
②
更聪明的分工协同
,通过混合专家MoE模型(Mixture of Experts)达成。例如,表面上看,DeepSeek-v3 是一个 6710亿参数的基础大模型,但实际上,因为专家之间的分工得当,和一个聪明的分工系统(路由),所以每次计算真正需要激活的参数量只有 370亿,仅为总参数的5.5%。
③
更直接的硬件交互:
使用 PTX(Parallel Thread Execution,并行线程执行)指令直接调整英伟达芯片之间的通信互联。过去,使用 PTX 语言实际上是量化交易员的特征之一,其他领域很少有人会直接使用这种语言。DeepSeek在训练V3时,针对自己的需求把132个流式多处理器(SMs)中的20个修改成专门负责服务器间的通信,而不是也同时负责计算任务,这就提升了芯片的整体效率。
可以看出,
DeepSeek通过提升算法效率和芯片沟通效率,大大降低了对算力的依赖,提升了算力效率,
这是为什么可以做到算力成本相对以往大幅度下降的核心原因。这是工程化创新带来的效果,也是中国企业在算力受到西方限制后主动探索提升算力效率的开花结果。
再看
DeepSeek在推理大模型的创新
。DeepSeek是在OpenAI提出的通过强化学习让模型产生思维链的框架下,找到了一条更简单高效的路径。让我们看这是怎么发生的:
OpenAI首先半遮半露地提出了推理大模型的原创性设想:
-
首先,通过思维链技术和强化学习来训练推理大模型,是
OpenAI 在发布o1 模型时所揭示的“核心秘密”。
在发布时,包括
Sam Altman 在内的 OpenAI 研究人员,解释了为什么要从预训练大模型转而研发后训练推理大模型,以及如何做的路径。他们表明:“一直以来,AI在某些方面的表现非常惊人,但在推理能力上却存在明显的不足。”“
当我们完成
GPT-4时,我们最感兴趣的一件事就是:我们能不能用我们创造的这个工具来教模型推理?
”“我们深受
AlphaGo 的启发,对强化学习抱有很大的期望...在 o1 的训练过程里,我们观察到当模型使用强化学习来生成和优化自己的思维链时,其表现甚至比人类为其编写思维链更好。”
-
但大部分企业在追随
OpenAI的提示时却不得其门而入。
接下来近半年的时间里,全球所有的
AI 实验室都在尝试复现 o1,但成功的极少,其中的难点包括缺少足够的思维链数据、需要大量的人工标注成本等等,比如前一轮开源的领头羊 Meta Llama,至今没有推出自己的开源推理大模型,其首席科学家杨立昆甚至在推特上公开点名 “OpenAI 不够开放”。
基于
OpenAI提出的设想,并借鉴了AlphaZero的训练方法,DeepSeek用极低的成本训练出了推理大模型。其中的创新要点主要有四个:
第一,
DeepSeek做出的第一个创新,是放弃其他大模型企业尝试的创建思维链数据、人工标注的路径,转而从逻辑性最强的数学和代码领域开始,要求模型在指定框架内提供“思考过程的表述以及最终答案”,让大模型在大量学习正确的答案所需要的过程中,自己生成思维链能力,并让大模型在记忆上一次正确方法的基础上,不断迭代思维链能力:
首先,因为训练用的数据集几乎全部由数学和编程数据组成,逻辑过程没有不确定性,答案对不对可以直接检验,从而有效培养正确的思维链;其次,格式上,要求模型必须在指定方框内提供
“思考过程的表述以及最终答案”,很像高考。相比之下,传统的
PPO
架构中则是用一个复杂的评审模型来评判输出的准确性、稳定性、价值观等一系列复杂目标。这个评审模型本身就有极高的训练成本,效率较低,同时会在训练中占用内存。
第二,基于
AlphaZero的启发,从有监督转到无监督,大量节约算力和数据成本。
DeepSeek设计了模型无监督的自我对弈机制,比如问一个问题,要求模型自己一次性生成16个答案,用规则计算每个结果的得分,然后往高得分的方向演进。
第三,
打造了一个
“基础模型→推理模型→合成数据→基础模型”的上升螺旋。
通过前面三个步骤训练出来的
R1-zero模型,以高质量的数学和代码数据为核心,在数学和代码领域之外的泛化能力和表达能力都不够好。为了解决这个问题,DeepSeek先使用 R1-zero 生成非数学和代码的长思维链数据,加上高质量的人工标注,形成数千条冷启动数据的标准答案让模型记住;在此基础上,又使用 R1-zero 生成了60 万条可阅读的推理数据,并用基础模型 v3 生成了20 万条非推理类数据(写作、事实问答、自我认知、翻译等),并让 v3 对这些非推理类数据脑补了思维链。三者结合起来,形成一个略大于 80 万条的合成数据集(里面仅有几千条有人工参与),让R1-zero 对此数据集不断训练,从而升级为不仅仅擅长数学和代码推理,也擅长更多通用场景推理的 R1 模型。
第四,跳过过去必备的标准微调(
SFT)环节,直接对基础模型(v3)做上述 GRPO 架构的强化学习,迭代基础模型。
随着推理时间的增长,在这个自我对弈的过程里,模型涌现出了一种自我反问的能力,也就是
“
aha 时刻”,
即模型在解题时,通过思维过程的表述开始反问自己:
“等一下,让我们想想有没有更好的解法?”在推理模型不断迭代的过程中,可以神奇地发现,推理模型所展示的思维链越来越长;这是模型自身生成的,并没有外部的要求,表现出模型推理能力的不断提升。
最后,这一次未完成的重要方向,是通过推理模型来继续反向改进、融合基础模型。这一点也被
OpenAI认可,并在 2 月 13 日凌晨宣布,“从 GPT5 开始,将不再区分推理和基础大模型,o3 会整合进 GPT5。”至此,我们可以看出,一个从基础模型开始,到推理模型,再用推理模型反过来继续优化基础模型的路径已经形成。
02|DeepSeek 展现出的创新的本质是什么?
我们可以总结一下DeepSeek所展示出的创新的本质。
首先,在预训练基础大模型方面,DeepSeek主要是通过在内存机制、分工协同机制、硬件通信机制的工程化改良设计,用百分之几的成本就实现了相当于顶尖大模型的性能。工程创新不等于不重要,从某种意义上来说,英伟达的 GPU 也是一种工程创新,即通过并行计算的机制,极大地提高过去CPU串联计算的效率。Anthropic 的CEO达里奥·阿莫迪(Dario Amodei)认为:“Deepseek 的创新主要集中在工程效率上......成本要低得多。这次最大的不同之处在于,第一个展示预期成本降低的公司是中国公司。”
其次,在推理大模型方面,DeepSeek展示出的创意更有新意。推理大模型的核心是构建思维链能力,但关键是如何构建,使用多大成本可以做到。在大部分大模型企业效仿OpenAI未果的情况下,DeepSeek选择的,是首先聚焦于逻辑确定性最强的数学、编码领域来入手,让大模型在不断学习正确答案过程中,自己创建思维链;然后进而让大模型用无监督学习的方法大量尝试,沉淀正确答案所需要的思维链方法。
这其实是巧妙的低成本创新,绕开了原来的需要人工创建和标注思维链的高成本路径
。在数学和代码领域的推理模型R1-zero建立起来后,再在少量人工标注数据的基础上,泛化到更广的非数学和代码数据中,形成R1,最后反哺到基础大模型,改变了原来基础大模型需要长时间、动辄数千万美元训练的老路,可以低成本不断迭代;至此,预训练模型和后训练推理模型相辅相成,互促迭代。
可以看出,DeepSeek有今天,是因为有意识走出了一条低成本创新的路。首先是通过工程化创新大大降低预训练基础大模型的成本。其次是通过拆解任务,逐步探索出最省钱、也是最灵活的构建思维链能力的推理大模型路径。
平心而论,
没有以
OpenAI为代表的美国最先进的大模型企业从0到1的构想,就不可能有DeepSeek的今天。DeepSeek所做到的,是在OpenAI开创方向的基础上,把效率和创新结合起来的路径。
这是中国版AI创新的新路径。和中国企业在算力上被限制直接相关,DeepSeek跳出了美国企业过于依赖“大力出奇迹”的惯性。在算力不稀缺的美国,规模定律被混同于大量使用算力的“大力出奇迹”,低估了创新成本的重要性。
03|DeepSeek创新在这个阶段是必然的还是偶然的?
DeepSeek创新的成功,标志着AI产业已经发展到了一个工程化创新有很大价值的阶段。
刚才我们讨论了DeepSeek做到了什么创新。那么,这种创新的成功,是偶然还是必然?
很多人已经形成了一种认知,即AI的突破是需要顶级人才来完成的。因此大家也很惊讶,为什么既不是美国的“AI七姐妹”,也不是中国的大科技公司,而是由DeepSeek,一家源自中国的量化私募研究团队,带来如此惊艳的突破?更根本的问题是,要引领AI创新的突破,到底需要什么样的能力?
简而言之,DeepSeek的成功表明,
AI 产业发展到了今天,已经到了工程化创新能力大展宏图的阶段。
为了理解这个逻辑,我们不妨先回头想一下,在过去的两年多时间里,AI 产业已经走过了哪些关键里程。
可以说,在过去数年中,AI产业最重要的两个从0到1的突破性原创性进展,都是以OpenAI为代表的美国大模型企业带来的。OpenAI首先通过GPT的成功,向世界证明,充分运用算力的突破来预训练数据,构建具备生成式能力的神经网络,是催生智能的有效路径;也由此,从 2022 年末 ChatGPT 横空出世开始,催生了一系列的预训练大模型。
截至 2024 年下半年,所有人都在惊呼“预训练撞墙”“GPT5 迟迟不发”时,实际上是预训练基础大模型难以解答复杂的问题,边际提升空间有限。OpenAI带来的第二个关键突破,是再一次把全球 AI 带入了推理模型的时代,并告诉世界“o1的核心秘密就是强化学习”,提供了后训练推理模型的思维链框架。
至此,类似人类快思考能力的预训练大模型,以及慢(深入)思考能力的推理大模型,其从0到1的路径和框架已经在现阶段清晰。但因为算力成本高,实际使用率很低。据悉,到 2024 年底,ChatGPT用户中,o1的使用率还不到 5%。其中最重要的原因就是技术成本太高,o系列的定价很贵,需要 200 美金/月的价格来支撑算力需求。
因此,到了这个阶段,AI产业最有低垂果实潜力的领域,实际上是通过工程化的能力,“从1到10”地大幅度提升效率,进而推广AI技术的普及应用。美国企业因为一直享受先进芯片的红利,也就养成了依赖“大力出奇迹”的惯性,低估效率提升的价值。然而,在算力受限的背景下,中国AI企业不得不将算力的有效利用作为发展的必然选择。DeepSeek凭借其强大的工程化创新能力,扛起了这面大旗。
DeepSeek 的走红,可以说是“生而逢时”,
其
走
红并非偶然,反映的是
AI革命已经发展到了工程化创新能力能收获低垂果实的阶段
。
04|DeepSeek 代表的创新能力意味着什么?
DeepSeek所代表的中国式创新的成功,标志着这样的工程化创新可以在AI产业的每一个环节展开。中国企业在制造业领域积累的深厚工程化能力,也会在AI模型研发和应用领域进入一个飞速发展的黄金阶段。
工程化的创新能力或许没有从0到1的创新那般耀眼,但其对产业的推动作用却是颠覆性的。DeepSeek的出色表现就是最好的例证。实际上,从芯片效率、大模型效率、大模型和云计算结合的效率、以及AI产业应用落地的效率上,工程化创新在各个环节都拥有巨大效能升级的潜力,从而改变AI能力和产品体验的巨大空间。而长于制造的中国企业往往具备工程化创新能力,可以大展身手。
在这个过程中,意识到工程化创新的巨大价值,具备创新思维,是至关重要的起点。DeepSeek创始人梁文峰曾指出:“创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。”
第四部分
DeepSeek现象意味着什么?
01|ChatGPT现象所定义的AI经济学(AI Economics)和规模定律(Scaling Law)
如果我们只是把DeepSeek现象的理解停留在个别企业的成功,会错过对AI经济学的把握。所谓AI经济学,指的是AI作为一种技术要素,如何影响经济和商业的核心规律。
Altman把AI经济学分成“技术
—
规模定律
—
价值创造”三层表述。这三层固然重要,但其中缺失的关键环节,是技术的投入门槛在多大程度上决定有多少玩家可以参与,决定这是一个寡头商业,还是普惠商业。
简而言之,由OpenAI奠定的智能革命的第一阶段,其核心特征是美国主导的寡头商业,因为投入力度的要求决定了规模定律只能被很少的玩家在负责实现,创新成本是决定产业格局的关键。而DeepSeek的突破,会改变这一路径,大大推动AI的普及。
因为创新成本的大幅度下降,原来寡头负责的规模定律,会变成普惠性的规模定律。原来的寡头AI商业,会变成普惠AI商业。
从这个角度而言,DeepSeek的突破,改变了AI经济学和规模定律。
我们先来看
ChatGPT现象背后的AI经济学和规模定律
。
在ChatGPT现象主导的过去几年中,AI的大力投入和储备算力,以及和规模定律的结合,也就是Altman提到的前两个规律,中文常常译为“大力出奇迹”,被认为是通往通用人工智能(AGI)的唯一路径。
算力之所以如此重要,如强化学习之父Richard Sutton于2019年在经典文章《苦涩的教训》中反思,“长远来看,算力才是真正的决胜因素。历史的经验一次又一次地告诫我们,AI研究者常常试图将人类的知识灌输到AI算法中,这种做法在短期内通常有效,并且带来个人成就感和虚荣心。但长远来看,它会造成瓶颈,甚至阻碍进一步发展。最终的突破性进展往往源于一种截然不同的思路,即通过搜索和学习来扩展算力规模。而那些最终的成功往往是苦涩的,难以下咽,因为算力的成功,意味着对我们以人类为中心的固有思维和虚荣心,是一记响亮的耳光。”
在企业层面,算力军备竞赛是加入游戏的前提条件,这决定了最领先的AI,往往只是少数玩家的游戏。其中,最典型的代表就是美股科技公司“七姐妹”。这些公司成为Altman提到的三条规律的主要承载者和受益者。具体而言:
①
在算力储备上,以英伟达的
H100
采购量为例,七姐妹及其相关公司的采购量占了
90%
以上。
②
在投资上,包括七姐妹在内的
10
家科技公司的
2025
年资本支出计划,就已经相当于当年美国阿波罗登月计划的总投入。
③
在
AI
应用上,七姐妹也是最领先的,无论是把自己原有的业务和
AI
结合,还是投资并购一些明星
AI
初创公司。仅
2024
年上半年,七姐妹通过风投活动向
AI
公产业投资了
248
亿美元,超过了英国每年的风投总额,这些投资覆盖了从
AI
芯片、大模型,到人形机器人、自动驾驶、
AI
医疗等各个领域。
④
在市值上,七姐妹贡献了
2024
年标普
500
超过
50%
的涨幅,它们的市值加起来,已经占了整个标普
500
市值的
1/3
以上,甚至接近了中国的
GDP
总和。
也因此,华尔街著名对冲基金浑水的创始人 Carson Block 在 2024 年 10 月的一次采访中曾说:“不要想太多,闭上眼睛,买入美股七姐妹,就会有收获。”
所以在ChatGPT现象主导的过去2年多中,Altman总结的三个规律所描述的最主要的玩家,是美国的芯片、大模型、云计算和数字化应用场景最丰富的大型科技企业,具备鲜明的地域和寡头特征。
这个特征是如此的鲜明,以至于美国政府认为AI技术的发展,必然是美国企业在AI价值链的主要环节主导,慢慢向外部世界渗透。也基于此,美国政府于2025年1月发布了《美国AI扩散框架》,意图通过对芯片和大模型能力的控制,来决定AI技术在全世界不同区域和国家的渗透节奏和程度。
特朗普政府上台第二天,在美国政府的主导下,OpenAI和软银的孙正义、甲骨文公司一起成立了“星际之门”计划,这个计划的目标之一就是在四年内投资 5000 亿美元,为OpenAI提供算力,继续“大力出奇迹”,追求美国在AGI中的统治地位。
02|DeepSeek现象:如何改变AI经济学和规模定律?
DeepSeek现象,因为改变了包括规模定律的AI经济学,将会改变ChatGPT现象所定义的产业格局。
虽然如Altman 所说的那样,三条规律“看不到停止的理由”,但谁是三条规律的玩家,将会被深刻改变。
在三条规律中,第二条,即规模定律的力度,对于AI产业的发展至关重要。就在OpenAI 的o1模型发布不久,黄仁勋在英伟达2024年第三季度业绩发布会中指出:“预训练的规律定律(scaling law)没有结束,而且更重要的是我们发现了另外两种规模定律,一是后训练的规模定律,二是推理时间的规模定律。加起来,我们实际上同时面对三种规模定律,因此,对我们的基础设施需求真的非常大。”
规模定律本质上强调的,是成本下降的速度,即成本下降带来的需求扩张
。而这是DeepSeek现象之所以重要的关键:谁能够最快、最大幅度地降低成本,谁就能获得需求,成为有竞争力的玩家。
以DeepSeek为代表的中国AI新势力,已经通过一流的模型能力和最低的成本组合,改变了AI服务的成本结构,也就改变了AI产业的玩家格局。
AI发展到今天,能把工程化创新能力和AI能力结合的企业,无论是不是原来意义上的科技大公司,都可以是AI产业的玩家。
在 DeepSeek 走红之后,很多人都开始讨论一个古老的经济学概念:“杰文斯悖论(Jevons Paradox)”:意思是当一种资源的使用效率提高时,这项资源的总体消费量往往会增加而不是减少。这个概念在1865 年被提出时,主要用于解释当时煤炭使用效率越来越高,但煤炭的消费量却以更快的速度增长。在DeepSeek 走红后,微软首席执行官纳德拉率先引出这个概念,意思是,以DeepSeek为代表的更高效的算法工程,其真正意义在于解锁更多的场景和应用,从而推动整体算力需求的增长。
这当然是对的,但这里没有被讨论到的,是可以参与的玩家大大改变了。
除了技术路线的透明度和成本大幅度降低之外,改变规模定律的第三个因素是开源模式。
DeepSeek提供比Llama更加开放的开源模式,被业界盛赞。硅谷著名风投家、a16z创始人 Marc Andreessen在评价DeepSeek-R1称:“作为开源项目,这是对世界的一份深远馈赠 (As open source, a profound gift to the world)。”
艾伦人工智能研究所(Allen Institute for AI)的研究科学家Nathan Lambert
指出:“Deepseek 是前沿模型中最开放的模型之一,他们在传播 AI 知识方面做得非常出色:他们的论文非常详细,对世界各地的其他团队而言,也在提升训练技术方面非常具有可操作性。DeepSeek-R1 模型采用了非常宽松的 MIT 许可协议。这意味着没有下游限制,可以用于商业用途,没有用例限制。你可以使用模型的输出创建合成数据......(你会看到)真正的开源精神在于共享知识,推动创新。”
更加开源分享的模式,也就更容易吸引更多玩家的参与。截至 1 月 28 日,上线短短几天时间,在HuggingFace社区里,用DeepSeek-R1搭建的模型已经至少有670个,累计下载量超320万次,日增速约30%;DeepSeek-R1的下载量超过70万次,日增速约 40%。如图12中的右侧黄色曲线所示,DeepSeek的受欢迎程度(点赞量)几乎是以 90 度垂直向上增长,已经超过了 Llama,到 2 月 6 日已经位居第二。
在DeepSeek之前,另一个代表中国更加彻底的开源模式的代表是通义千问。在Huggingface社区中,Qwen 的衍生模型数量已突破9.6 万,位居全球第一,超越 Llama。而且,社区排名前十的开源大模型全部是基于通义千问Qwen 开源模型二次训练的衍生模型(图13)。
2025 年1月31日,在Reddit上的一场线上AMA(ask me anything)中, OpenAI首席执行官Sam Altman首次承认:“我个人认为,我们在这里站在了历史的错误一边,需要找出一个不同的开源策略。”
03|DeepSeek改变的AI经济学和规模定律正在发挥作用
我们可以做一个小结,也是这篇文章最重要的结论,即
DeepSeek之所以能被视为一种现象,主导未来 AI 发展的新阶段,是因为DeepSeek改变了AI经济学和规模定律。
通过更加清晰透明的技术路线分享、创新带来的大幅度模型研发和使用的成本下降、以及更加彻底的开源模型,以
DeepSeek和通义千问为代表的中国AI新势力,使得原来的以美国大科技公司主导的寡头规模定律,转变为更加普惠的规模定律(Inclusive Scaling Law)。这种转变意味着AI产业的玩家不再局限于美国的科技巨头和产业龙头,而是扩展到全球产业中更多区域和多得多的玩家。AI应用的普及将会在全球范围内迅速推进。
对成本价格的冲击,标志着新的普惠版的规模定律已经在发生影响。
作为对以上核心结论的验证,我们最后讨论一下AI使用价格的大幅度下降,也就是规模定律的具体体现,已经明显在被中国企业推动。
一个鲜为人知的事实是,如图14所示,2024 年5月,在中国大陆的大模型API价格战,其实就是由DeepSeek发起的。当时已经应用了MLA和MoE等多项工程优化技术的DeepSeek-v2模型,在效率上已经可以做到在极低的价格下仍然盈利,它带来的结果,是迫使国内大企业和AI创业企业的一致跟进。到2025年2月,中国大模型的使用价格,已经远远低于美国。以OpenAI为代表的美国大模型企业,在不断降低应用价格,随着中国大模型企业的全球化,这一趋势会持续和提速。
可以预见的是,随着DeepSeek的透明分享,以及免费开源模型,它会带来全球范围内模型效率的整体提升,真正实现推理的普惠。在未来的几个月的时间里,推理大模型会和基础大模型一起在全球范围内被快速平民化,进而推动AI技术真正应用到生活和工作场景中。
结语
AI技术就是通过现象级的突破来改变世界的。在ChatGPT发布2周年之后,DeepSeek成为第二个现象级产品。如何理解现象背后的逻辑,至关重要。