专栏名称: 中国金融四十人论坛
聚焦金融热点,速递论坛动态,独家发布论坛课题成果,连载书系新书、好书。
目录
相关文章推荐
成方三十二  ·  预计超90亿人次! ·  6 小时前  
雪球  ·  【恒生科技指数涨6.53% ... ·  昨天  
国际金融报  ·  获批了!国盛金控吸收合并国盛证券 ·  2 天前  
国际金融报  ·  《哪吒2》爆火,IP授权费飙升但仍“一吒难求” ·  3 天前  
51好读  ›  专栏  ›  中国金融四十人论坛

DeepSeek崛起,如何影响AI技术发展路径与国际竞争格局?

中国金融四十人论坛  · 公众号  · 金融  · 2025-02-22 16:09

主要观点总结

本文详细描述了DeepSeek这一中国人工智能初创企业的突破及其在全球科技界引发的热议。文章从DeepSeek的模型技术突破、对AI技术发展路径的影响,以及在中美科技竞争中的位置等方面进行了深入阐述。同时,也讨论了DeepSeek的出现可能对未来的AI技术发展、国际竞争格局,以及中国AI生态的影响。

关键观点总结

关键观点1:

DeepSeek在AI模型算法、训练架构和工程设计等方面的创新优化,使其在短时间内取得显著进展。

关键观点2:

DeepSeek的成功引发了对AI技术发展路径的重新思考,推动了对开源模型、效率提升和算力资源等方面的关注。

关键观点3:

DeepSeek的崛起引发了关于中美在AI领域竞争态势的讨论,也引发了关于技术竞争与国家安全之间的关系的思考。

关键观点4:

DeepSeek的成功可能会改变未来AI技术的发展方向和国际竞争格局,促使各国加强在AI领域的投资和研发。

关键观点5:

DeepSeek的成功提升了中国在全球AI领域的影响力,但也面临着算力资源有限等挑战。


正文

图片

2025年以来,中国人工智能初创企业深度求索(DeepSeek)迅速崛起,引发全球科技界、投资界与政策界热议——DeepSeek于2025年前后分别推出开源通用模型DeepSeek-V3与推理模型DeepSeek-R1,其在数学、编码、推理等方面的表现可以媲美甚至优于OpenAI等科技巨头推出的前沿模型,在硬件条件有限的情况下大幅提高训练效率并成功缩减算力成本。

热议背后,有对DeepSeek横空出世的赞赏,有对主流AI发展路 的质疑,也有对中美AI技术竞争的关注。 本文聚焦国际视角下的DeepSeek崛起,梳理DeepSeek的核心技术突破,探讨DeepSeek或将如何影响AI技术发展路 与国际竞争格局。

* 原 《DeepSeek的崛起如何影响AI技术发展路 与国际竞争格局》 在2025年2月18日首发于“CF40研究”小 程序。本文观点仅供了解海外 研究动态,不代表中国金融四十人论坛和中国金融四十人研究院意见和立场。
图片

DeepSeek取得了怎样的突破


1. 高性能、高效率、低成本的模型展现了资源挑战下的工程创新

综合来看,DeepSeek在AI模型算法、训练架构和工程设计等方面的诸多创新优化,使得其在硬件条件有限的情况下大幅提高训练效率并缩减算力成本,同时实现模型性能显著提升。

表1 DeepSeek与OpenAI模型对比

来源:DeepSeek

在训练方法方面 ,DeepSeek采用“强化学习”(reinforcement learning, RL)来训练推理模型解决高级数学、编码代码等复杂问题,即让模型探索不同的推理策略并通过反馈结果来引导模型自然发展出步骤式推理能力,并独创利用群体相对策略优化(group relative policy optimization, GRPO)的算法让模型通过不断自我纠正来提升推理能力,过程中几乎无需传统训练所需的人类监督微调(supervised fine-tuning, SFT),极大提高了训练速度。 [1]

在架构优化方面 ,DeepSeek使用“混合专家”(mixture-of-experts, MoE)架构,让模型仅激活与每个任务相关的参数,极大减少了计算负载和内存使用,同时提升训练与推理效率。此外,DeepSeek结合其独创的多头潜在注意力(multi-head latent attention, MLA)机制,通过压缩关键信息,在显著降低了内存需求和推理成本的同时提高了模型推理能力。

在硬件优化方面 ,受制于美国对最先进英伟达H100芯片的出口管制,DeepSeek使用低级别图形处理单元(Graphics Processing Unit, GPU)汇编语言优化H800 GPU上的跨芯片通信,即通过特定编程最大化利用现有的硬件,以克服旧芯片的内存带宽限制。


2. 积极拥抱开源,助推打破AI巨头构建的技术“护城河”

首先, DeepSeek将多个模型作为开放权重模型发布 ,允许研究人员和开发人员研究训练后的模型参数并基于此进行二次开发,包括自由使用、修改、分发和商业化这些模型。虽然DeepSeek尚未开源完整的训练数据,但与OpenAI的封闭模型甚至Meta所谓的开源模型LLama相比,其开放性已相当显著。 [2]

其次,DeepSeek模型通常参数量级极大,其训练和推理过程可能需要数千个GPU和庞大的基础设施支持, 为了降低部署和运行成本,DeepSeek采用知识蒸馏(distillation)技术,将大模型提炼成小模型发布

这些经过知识蒸馏的小模型可在单个GPU上高效运行,同时在大多数任务中保持与大模型接近的性能,显著减少了对计算资源的需求。这进一步改善了AI模型的可访问性,也为解决模型规模与计算资源之间的矛盾提供了新思路。 [3]

再次, DeepSeek在推动纯强化学习方法开发推理模型方面取得了重要进展,并率先公开展示这一开发过程

OpenAI的o1、o3、DeepMind的Gemini2.0、DeepSeek-R1等推理模型在几周内相继推出的现象表明,AI基础模型已经足够强大,可以在没有人类监督的情况下从语言模型中诱发推理能力。有技术专家表示,顶尖科技公司已经掌握了从基础模型/预训练模型转变到推理模型的方法,只是并未将此公开。

DeepSeek的一大创举便是公布了极为详细的技术报告 [4] ,揭开了如何训练推理模型的面纱,证明了构建推理模型并没有想象中的技术困难与代价昂贵 [5] 。这些知识的公开意味着其他AI开发者可以根据其报告的说明复现模型,事实上自报告公开以来,已有多家AI团队投入复刻并且取得进展。 [6]

最后, DeepSeek的“深度思考”模式向用户完整展示了其推理模型的思维链 (chain-of-thought),即分解任务、展开推理、测试不同答案并得出最终回答的全部思考过程。相较之下,OpenAI隐藏了o3推理模型的思维链,只提供推理步骤的概述,这往往使得使用者和开发者难以理解模型的推理逻辑,进而难以改变指令和补充提示来正确引导模型,这种透明度的欠缺已经受到许多诟病。

有观点提出,DeepSeek模型的开放性已在一定程度上倒逼OpenAI提高自身透明度,后者推出的新版本o3-mini虽然仍然隐藏了很多细节,但推理过程明显更为详细 [7]

可以说,DeepSeek既受益于开源也利用开源造福AI社区。Meta首席AI科学家杨立昆(Yann LeCun)认为,对DeepSeek的正确解读不是“中国正在AI领域超越美国”,而是 “开源模型正在超越专有模型”。 [8]

图片

DeepSeek如何影响

AI技术发展路 与国际竞争格局

对于DeepSeek“横空出世”的影响,相关的讨论可以分为两方面:一是如何看待DeepSeek出现之后的AI技术发展路 ,二是如何看待DeepSeek出现之后的中美科技竞争走向。


1. 关于AI技术发展路 的反思:开源还是闭源?效率还是规模?

❶ 开源 vs 闭源:DeepSeek之后AI生态系统或迎来结构上的重新洗牌

对于AI巨头企业及其研究人员而言,DeepSeek对开源的积极拥抱和取得的亮眼成绩无疑意味着一记猛烈敲打 。OpenAI的CEO萨姆·奥尔特曼(Sam Altman)最近回应了其封闭策略问题,表示OpenAI内部正在讨论是否公开技术原理方面的研究。他表示,“我个人认为,我们站在了历史的错误一边,现在需要制定不同的开源策略”。不过,他同时表示,“不是OpenAI的每个人都持这种观点,这也不是我们当前的首要任务。” [9]

这种对开源的矛盾态度反映出了, 在不断演进的AI领域,科技巨头面临着在创新、安全与商业化之间寻求微妙平衡的挑战。 模型开源有助于加速技术创新并使技术触达更加广泛,但也可能导致维护AI安全的努力更为艰难,此外还有商业利益的考量。

有技术专家认为,DeepSeek的开源举动削弱了封闭模型的吸引力,将使采取封闭开发策略的科技巨头迫于竞争压力加快模型推出速度并降低模型使用价格,但预计不会改变其技术开发思路。

然而, 对于初创AI企业、小型AI企业及其研究人员而言,DeepSeek降低了进入门槛,可能开启高效开源AI的新时代 。一方面,他们可以利用现有的开源模型进行知识蒸馏,构建各种解决具体问题的小模型。事实上,自发布以来,DeepSeek模型已经被许多国内外的实验室和企业采用、本地化部署以及二次开发,比如DeepSeek-R1已被托管在Amazon、Microsoft等公司的云平台供构建、训练和部署自定义模型,再如其已被嵌入AI搜索产品Perplexity的搜索工具中。

另一方面,初创AI企业、小型AI企业可以借鉴DeepSeek的成功经验,通过采用类似的技术改进方法,缩小与行业领先者的差距。例如,寄托着法国AI发展希望的Mistral公司联合创始人亚瑟·门施(Arthur Mensch)近日表示,DeepSeek的成功让法国和欧洲企业看到了通往成功的跳板。在他看来,“DeepSeek时刻”说明“开源必将胜利”,Mistral押注开源模型是完全正确的。

许多分析预计,基于DeepSeek以及更多强大开源模型的崛起,未来将有更多高性能小模型的涌现、更多的应用开发和更广泛的市场竞争。

❷ 效率 vs 规模:通往AGI的道路或仍需算力等资源的大量投入

DeepSeek以有限资源训练出高性能、高效率模型的案例让市场参与者和投资者开始重新评估美国科技巨头的AI发展思路是否正确,即“更多的资金投入=更好的基础设施(庞大的数据中心、先进的硬件设备和充足的电力供给等)=更好的训练条件=更好的AI模型”这一叙事是否成立。

一些分析认为,DeepSeek取得的成本效益表明,高效利用资源比单纯扩大规模更加重要,这或意味着未来市场对英伟达最尖端芯片和大规模数据中心的需求可能减弱。 [10]

但也有一些分析认为,目前外界对DeepSeek的成本优势存在一定误解。有观点提出,DeepSeek宣称的560万美元训练成本仅为模型单次训练的支出,而模型需要不断迭代,而且这还不包括前期的初步试验、人员成本和初始硬件投资(预计成本为单次训练的10倍以上) [11] 。也有观点提出,DeepSeek的效率提升并非行业技术的革命性突破,而是计算效率指数级增长的悠久历史的延续。 [12]

例如,美国智库兰德公司(RAND)助理研究员康斯坦丁·皮尔茨(Konstantin Pilz)和副信息科学家莱纳特·海姆(Lennart Heim)认为,仅算法的进步通常每八个月就会将训练成本降低一半,而硬件的改进则会进一步提高效率,他们进一步预计,GPT-4级别的模型最终训练成本将在300万美元左右,这意味着DeepSeek的效率提升与行业趋势相符,并非实现了AI效率质的飞跃。 [13]

整体来看,开发更强大的模型以及通往通用人工智能(Artificial General Intelligence,AGI)的道路或需更多算力等资源的投入。

基于杰文斯悖论来看,技术进步在提高效率、降低成本的同时,也将导致需求增加,进而加速而非减缓资源的消耗速度,未来训练AI模型的效率得到提高的同时,AI的使用需求也会相应增加,并且推理模型比传统语言模型需要更多算力,因此长远来看,对强大GPU的需求将会持续增长而非萎缩 [14] 由此, DeepSeek取得的突破可能反而使得算力等资源投入变得更为重要

事实上, 在受到DeepSeek快速崛起的冲击后,美国科技巨头仍然选择扩大基础设施投资规模 ,并且这种投资竞赛呈现愈演愈烈之势。数据显示,仅Meta、Microsoft、Amazon与Alphabet计划在2025年对数据中心、基础设施等AI相关领域的总投资就高达3200亿美元,与2024年相比增加了44% [15]

Meta的CEO马克·艾略特·扎克伯格(Mark Elliot Zuckerberg)表示,先进AI训练方式和运行方式的变化可能在某个时刻改变行业基础设施投资的计算方式,但仅基于DeepSeek下此判断还为时过早。“我仍然认为,从长远来看,大力投入资本支出和基础设施建设将成为一种战略优势。”扎克伯格表示 [16]

另一方面,多国政府也正积极引导或推动对AI领域基础设施的投资计划。例如,1月21日,美国总统特朗普于上任之初便宣布启动四年内投资5000亿美元的“星际之门”(Stargate)AI基建计划,OpenAI、软银集团、甲骨文公司和主权基金MGX将提供资金方面的主要支持并进行战略合作。再如,2月9日,法国总统马克龙宣布法国版的“星际之门”,其计划在几年内增加1090亿欧元对AI领域的私人投资,旨在通过构建数据中心等方式支持初创企业,让法国“重回AI竞赛”。

表2 2025年科技巨头的AI投资计划
来源:各公司财报


2. DeepSeek如何影响中美科技竞争

多数观点认为,DeepSeek的出现表明中国的AI技术正迎头赶上美国。《经济学人》补充表示,DeepSeek发布R1模型一周之后,阿里云也发布了具有类似推理能力的Qwen2.5-Max模型,并表示该模型在关键基准测试中超越了DeepSeek-V3模型,这两家中国企业已将美国的技术领先优势缩短到几周内 [18] 。纽约大学心理学和神经科学名誉教授加里·马库斯(Gary Marcus)则认为,现在 中美在AI竞赛中正迅速接近“平局阶段”

表3 中美AI模型不断缩小的差距: DeepSeek、OpenAI和Meta近期发布模型的时间线对比

这种竞争态势的变化在美国内部引发了关于DeepSeek崛起是否意味着美国科技行业“斯普特尼克”时刻已经到来的激烈讨论,部分声音对美国芯片出口管制措施的效果和美国整体AI发展战略提出质疑。 [19]

❶ 芯片出口管制措施的效果可能尚未显现

拜登执政期间,美国政府基于“小院高墙”战略不断加码对华先进芯片的出口管制以阻碍中国发展尖端技术。拜登政府在任期尾声仍密集出台“人工智能扩散出口管制框架”(简称为“扩散框架”)的临时最终规则和“实施针对先进计算集成电路的额外尽职调查措施”(简称为“尽职调查”)的临时最终规则,试图限制先进AI芯片和闭源AI模型的全球扩散。

DeepSeek的出现是否意味着美国的关键芯片出口管制措施并未发挥作用?对此, 批评出口管制的一方认为美国的芯片出口管制措施反而激励了中国的技术创新 。相比之下,美国科技企业没有硬件条件的限制,因而也缺少动力去探索更加高效的模型开发方式。

英特尔原CEO帕特·格尔辛格(Pat Gelsinger)在评价DeepSeek时表示:“工程学的本质在于处理约束条件(Engineering is about constraints)。中国工程师面临有限资源,必须找到创造性的解决方案。”

支持出口管制并认为需要强化政策的一方则表示,一方面, 片出口限制措施的政策效果存在时间上的滞后性 ,美国政府对AI芯片的出口管制于2023年10月真正实施,预计要在几年后才能看到管制效果;另一方面,出口管制等限制性举措虽然无法完全防止技术能力扩散,但仍能为保持技术优势赢得更多时间。

就模型训练而言,莱纳特·海姆认为,目前DeepSeek训练模型所使用的英伟达 H800芯片能够达到美国可用的H100芯片类似的性能, 真正的考验在于下一代模型训练 ——中国目前运行的数据中心配备的GPU数量约为数万块,如果下一代模型需要10万块以上GPU进行训练,这对正在大幅扩张数据中心的美国企业而言将相对容易,而对于受制于出口管制的中国企业而言将更具挑战性。

此外,芯片出口管制措施也将通过限制AI部署能力影响中国整体AI生态系统。AI公司通常将60%-80%的计算资源用于大规模部署(即允许大量用户访问AI服务),而对于尖端芯片的限制措施将增加AI算力成本,阻碍广泛部署能力,并约束AI模型效率提升。

莱纳特·海姆补充表示,英伟达H20芯片在前沿AI部署方面的能力十分强大,目前其尚未受到芯片出口管制政策的限制。《华尔街日报》近日报道称,美国一些议员正鼓吹加强对英伟达芯片的对华出口管制,包括将H20等芯片列入管制清单。 [20]

❷ 美国AI发展战略面临多重质疑

目前来看,美国官方对DeepSeek的出现仍存矛盾态度。特朗普本人对DeepSeek的成本效益更为赞赏,没有过多强调其国家安全风险。1月28日,特朗普表示,DeepSeek的出现“应是美国科技公司的一记警钟”。2月7日,特朗普表示,DeepSeek不会对国家安全构成威胁,美国最终可以从这家初创公司的人工智能创新中受益。然而,美国国会则更多强调DeepSeek可能带来的国家安全风险。

这种对DeepSeek的矛盾态度也反映出美国当前AI发展战略的局限性: 一方面,缺乏整体治理框架,另一方面,过分强调零和博弈。

大西洋理事会数字取证研究实验室中国问题高级研究员肯顿·蒂博特(Kenton Thibaut)认为,美国政策制定层的讨论过分聚焦于美国国家安全和对中国的算力限制,而忽视了对美国国内AI整体发展框架的构建,包括如何在技术、经济、政治和社会领域更好地开发、部署和治理AI技术,这将削弱其灵活适应新技术和新挑战的能力。 [21]

布鲁金斯学会非常驻高级研究员约翰·维拉斯诺尔(John Villasenor)认为,DeepSeek的出现表明,试图通过绊倒对手来保持领先可能会产生反效果,拜登政府推出的“扩散框架”限制范围过大,将150个国家归为限制先进芯片出口的中间层,这会限制美国企业在全球销售的机会,最终损害美国企业的利益和美国在AI领域的领导地位。他表示,美国保持AI领先地位的最佳方式,是积极倡导国内投资和营造创新友好的监管环境。 [22]

美国战略与国际研究中心(CSIS)国际安全项目数据研究院亚西尔·阿塔兰(Yasir Atalan)认为,DeepSeek的出现,尤其是其开源模式,不仅有助于AI行业发展,如果采取适当的措施,也将造福美国的AI生态系统。

他建议,首先,特朗普政府应从更长远的视角看待DeepSeek的出现,而不是一味采取限制性措施。美国政府不仅应支持投资前沿AI项目,还应投资“低端”的AI应用,尤其应鼓励小型初创公司和研发团队参与开源项目,以加强美国的科技生态系统。其次, 应根据这一新的竞争格局重新思考出口管制措施,未来美国政府应避免“扩散框架”这样一刀切的限制举措 。最后,随着更多小型但专业化的AI模型应用出现,特朗普政府应加强对AI评估的投资,以识别和减少AI模型中的偏见。

❸ DeepSeek及中国AI生态的潜在挑战

AI竞赛将是一场长期、迭代的较量,DeepSeek的出现重置了中美AI科技竞争的比分,但未来的发展形势还需持续关注。

在模型优化方面,有评论提出,DeepSeek-R1模型虽在推理准确性上优于其他模型,但存在频繁出现幻觉(hallucination)的问题,在测试中出现幻觉的频率(14.3%)远高于GPT o1(2.4%)、o3(0.8%)、Llama 3.3(4%)、Qwen 2.5(2.8%)等,这可能是因为训练过程中缺乏相关的微调 [23] 。此外, DeepSeek近期因为使用量激增而面临服务资源紧张的问题,这也在一定程度上反映了算力资源对其AI部署的限制。

综合来看, DeepSeek及中国AI生态未来要继续保持竞争力,仍将面临算力资源有限这一关键挑战 ,这不仅关乎更强大模型的训练过程,也关乎更广泛的模型部署。

卡内基国际和平基金会人工智能研究员马特·希汉(Matt Sheehan)认为,鉴于美国的出口管制,未来中国将会出现更多以解决算力不足为目的的大模型生态整合,比如近期阿里云宣布与李开复创立的零一万物合并研究团队并建立产业大模型实验室,加速大模型从技术到应用的落地 [24] 图片



参考来源(向上滑动阅览)

[1] Biese, P. (2025, January 21). DeepSeek-R1: What It Is & Why Everyone Is Talking About it. LLM Watch.

https://www.llmwatch.com/p/deepseek-r1-what-it-is-and-why-everyone

[2] Gibney, E. (2025). China’s cheap, open AI model DeepSeek thrills scientists. Nature.

https://doi.org/10.1038/d41586-025-00229-6

[3] Tahir. (2025, January 30). DeepSeek R1 Explained: Chain of Thought, Reinforcement Learning, and Model Distillation. Medium.

https://medium.com/@tahirbalarabe2/deepseek-r1-explained-chain-of-thought-reinforcement-learning-and-model-distillation-0eb165d928c9

[4] DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. ArXiv.org.

https://arxiv.org/abs/2501.12948

[5] Heaven, W. D. (2025, January 31). How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead. MIT Technology Review.

https://www.technologyreview.com/2025/01/31/1110740/how-deepseek-ripped-up-the-ai-playbook-and-why-everyones-going-to-follow-it/

[6] Wiggers, K. (2025, January 28). Hugging Face researchers are trying to build a more open version of DeepSeek’s AI “reasoning” model. TechCrunch.

https://techcrunch.com/2025/01/28/hugging-face-researchers-are-trying-to-build-a-more-open-version-of-deepseeks-ai-reasoning-model/

[7] Dickson, B. (2025, February 7). OpenAI responds to DeepSeek competition with detailed reasoning traces for o3-mini. Venture Beat.

https://venturebeat.com/ai/openai-responds-to-deepseek-competition-with-detailed-reasoning-traces-for-o3-mini/

[8] https://www.threads.net/@yannlecun/post/DFNvN3euNEV?hl=en

[9] Sam Altman says OpenAI is “on the wrong side of history” and needs a new open-source strategy after DeepSeek shock. (2025, February). Fortune.

https://fortune.com/2025/02/01/sam-altman-openai-open-source-strategy-after-deepseek-shock/

[10] Marcus, G. (2025, January 26). The race for “AI Supremacy” is over — at least for now. Substack.com; Marcus on AI.

https://garymarcus.substack.com/p/the-race-for-ai-supremacy-is-over

[11] Heaven, W. D. (2025, January 31). How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead. MIT Technology Review.

https://www.technologyreview.com/2025/01/31/1110740/how-deepseek-ripped-up-the-ai-playbook-and-why-everyones-going-to-follow-it/

[12] Pilz, K. F., & Heim, L. (2025, February 4). What DeepSeek Really Changes About AI Competition. Rand.

https://www.rand.org/pubs/commentary/2025/02/what-deepseek-really-changes-about-ai-competition.html

[13] Pilz, K. F., & Heim, L. (2025, February 4). What DeepSeek Really Changes About AI Competition. Rand.

https://www.rand.org/pubs/commentary/2025/02/what-deepseek-really-changes-about-ai-competition.html

[14] Atalan, Y. (2025, February 3). DeepSeek’s Latest Breakthrough Is Redefining AI Race. CSIS.

https://www.csis.org/analysis/deepseeks-latest-breakthrough-redefining-ai-race

[15] Burch, S. (2025, February 7). Meta, Google, Amazon & Microsoft to Spend a Combined $320 Billion on AI in 2025. The Wrap.

https://www.thewrap.com/meta-google-microsoft-amazon-spend-big-on-ai-2025/

[16] Alexei Oreskovic. (2025, January 30). Mark Zuckerberg: DeepSeek shows why U.S. must be AI’s “global open-source standard”; no reason to rethink spending. Fortune.







请到「今天看啥」查看全文