图片:Rachel Mendelson/WSJ, Bloomberg (3), iStock (3)
在全球华人欢度春节之际,一家中国人工智能(AI)公司DeepSeek一鸣惊人,成为
AI界的一匹黑马。
2025年1 月 20 日,DeepSeek 推出了 R1,这是一种专门为解决复杂问题而设计的模型,其性能与OpenAI的o1推理模型相媲美。
不同之处在于:
DeepSeek凭借巧妙的
设计,大幅减少了算力需求,意味着未来AI模型可能不再需要那么多先进的AI芯片。
此举
令大型科技股大受震动,英伟达(Nvidia Co., NVDA)在1月27日股价
暴跌约17%
,市值蒸发近6,000亿美元,
创下美国上市公司市值单日最大跌幅纪录。
而就在之前一周
,该公司还是全
球市值最高的公司。还有,
甲骨文(Oracle)暴跌14%,
芯片制造商博通(Broadcom)重挫17%。
道琼斯(Dow Jones)数据显示,本周一的市场暴跌令股市市值蒸发了约1万亿美元。
DeepSeek的成功引发了关于美国的大辩论,俨然成了检验美国科技政策持不同信念者的罗夏人格测验(Rorschach Test)。
插图:Thomas R. Lechleiter/WSJ
特朗普(Donald Trump)表示,DeepSeek这家中国公司给
华盛顿敲响了警钟,
特朗普政府将在未来几个月评估
拜登
(Joe Biden)
时代对中国
人工智能芯片的出口管制政策,并
提出战略建议。
拜登政府已限制中国购买人工智能芯片和制造芯片的设备,并将数以百计的中国实体列入了贸易管制黑名单,
限制美国资本投资中国的AI、半导体和量子计算公司。
拜登政府还对中国的成熟制成芯片生产展开贸易调查,并逐步收紧对AI处理器的出口管制
,直至其任期的最后一周。
由于美国的出口管制,
英伟达(NVIDIA)无法在没有获得出口许可的情况下将其高端的Hopper H100、H200 和 H800 等处理器出售给中国
,后来英伟达
接连打造了多款缩水的定制版,从早期的A800、H800到后来的H20、L20、L2等。
其中,H20是最让用户满意的,因为它基于新的Hopper架构
美国政客曾公开和私下表示,尽管英伟达没有违反法律,但它违背了法律精神。拜登政府一位前高级官员表示,白宫曾希望行业领袖能够合作,设计针对快速变化技术的有效出口管制。
英伟达发言人在1月27日表示,“DeepSeek 是一项出色的人工智能进步”,它展示了一种创新的人工智能技术,同时使用了“完全符合出口管制”的计算能力。
芯片研究公司SemiAnalysis的创始人迪伦·帕特尔(Dylan Patel)等行业研究人员表示,拜登政府的做法减缓了中国在某些领域的进步,包括开发尖端芯片制造。
尽管如此,拜登的出口管制政策存在拖延和漏洞问题。
特朗普AI战略的三位核心官员之一的
戴维·萨克斯(David Sacks)在X平台上的一篇帖子中指出,
拜登的命令“束缚了美
国AI公司的手脚,却没问问中国是否会这样做”。
特朗普已经撤销了拜登的一项AI行政令
,该命令要求AI开发者报告对美国国家安全、经济、公共卫生或安全构成风险的系统进行安全测试的结果。
但有专家告诉道琼斯旗下的MarketWatch,有关DeepSeek的消息实际上是对拜登政策路线的认可,他们预计特朗普在未来几年将延续这种做法。
在特朗普政府第一个任期担任副国家安全顾问、现任研究公司Garnaut Global负责人的博明(Matt Pottinger)表示,特朗普可能会继续通过加强对中国获取半导体的限制,或要求芯片公司增加追踪受控半导体位置的能力,来加大施压力度。他表示,
美国官员还可能对企业处以严厉的惩罚,以阻止它们破坏这些管制措施。
硅谷的一些科技人士警告称,
美国需要避免过度依赖出口管制,而应
“在创新和速度上超越对手”。
美国国防部前战略与政策主管、战略与国际问题研究中心(Center for Strategic and International Studies)瓦德瓦尼人工智能中心(Wadwani AI Center)主任格雷戈里·艾伦(Gregory Allen)表示,
“中国在特朗普上任的第一周就发布了该模型的公开版本,这并非偶然”,
“技术创新是真实的。
DeepSeek确实在做一些令人印象深刻的事情,但这一时机的选择具有政治和战略意义”,“
这是让特朗普政府相信,出口管制行不通
。
”
特朗普政府的人工智能主管戴维·萨克斯 (David Sacks) 在椭圆形办公室与总统进行交谈。图片:
Anna Moneymaker/Getty Images
目前,美国政策制定者面临的一个主要挑战是确定
科技竞争的界限在哪里
:是只试图阻止涉军人工智能技术的进步?还是采取更广泛的措施,限制
“如同水和电
”的AI技术
惠及人类福祉?
德国智库墨卡托中国研究中心(Mercator Institute for China Studies)的高级科技分析师丽贝卡·阿尔切萨蒂(Rebecca Arcesati)说:“美国可能会越来越多地朝着这样一个方向发展,即简单地认为,整个中国科技生态系统不应发展先进能力,只是因为所谓的美国国家安全风险。”
美国众议院中共特设委员会(House Select Committee on the Chinese Communist Party)也在社交媒体发帖称已就DeepSeek作出回应,部分重申了
一个多月前就
芯片出口管制中
的“危险漏洞”
向美国商务部发出了警告。
该委员会主席、密歇根州共和党众议员约翰·穆勒纳尔(John Moolenaar) 和该委员会资深成员、伊利诺伊州民主党众议员拉贾·克里希纳穆尔蒂 ( Raja Krishnamoorthi )
在
1月30日公开致信
国家安全顾问迈克尔·沃尔兹(Mike Waltz),其中提出了一些建议:
特朗普政府应该对 Nvidia 的 H20 芯片(据悉DeepSeek使用了该芯片)以及类似复杂芯片上的模块实施出口管制。
他们
还呼吁对运往新加坡的芯片进行限制。
美国国会
密苏里州共和党的
参议员乔什·霍利(Josh Hawley)在1月29日提出一项21页的立法草案
《将美国人工智能能力与中国脱钩的法案》(Decoupling America’s Artificial Intelligence Capabilities from China Act)
,其中提到了一些扩大化的严厉措施,比如:
禁止从中国进口、或向中国出口人工智能技术;
禁止美国公司在中国、或与中国公司合作开展人工智能研究;
禁止美国公司投资中国人工智能开发。这份21页的立法草案充斥着脱钩的臆想,试图切断中美在人工智能开发方面的所有合作。
特朗普与甲骨文、软银和OpenAI领导人谈论AI计划。图片:aaron schwartz
特朗普提名的美国商务部长候选人
霍华德·卢特尼克 (Howard Lutnick)
在1月29日在参议院听证会上
表示,美国需要建立一种“轻触式”(light touch)模式来制定人工智能领域的全球标准,类似于美国的网络安全标准,以保持其在该领域的领先地位。
上周,特朗普和来自OpenAI、甲骨文(Oracle Corp.)以及软银(SoftBank Group Corp.)的高管宣布了
星际之门(the Stargate Project)
计划,称这是一个新的美国AI合资企业,获得了5,000亿美元投资。
资深分析师、预测机构Pangaea Policy的创始人特里·海恩斯(Terry Haines)表示,
特朗普政府可能会通过加倍实施其私营部门战略
来回应对DeepSeek的担忧,该战略所涉及的星际之门等项目现在将寻求最大限度的投资和专业知识来加速推进。
海恩斯认为:
“预期特朗普将在支持美国AI相关制造业,以及推动此类业务回流方面加倍努力。
” “特朗普可能认为这是一个机会,利用关税来加大经贸摩擦,并试图在谈判中减缓中国AI的发展”。
知名风险投资家马克·安德森(Marc Andreessen)将这描述为
“斯普特尼克时刻”(Sputnik moment)
,
将DeepSeek的AI模型的发比作苏联在1957年成功发射世界上的第一颗人造地球卫星,后来开启
冷战时期美苏之间的科技竞争。
新美国安全中心(Center for a New American Security)技术与国家安全项目高级研究员珍妮特·伊根(Janet Egan)在接受MarketWatch采访时表示,安德森的这种类比是有缺陷的,因为与“斯普特尼克”不同,DeepSeek的发布表明美国的AI政策处于正确轨道上。
“在不了解这些事情深层背景的情况下不要做出反应,这真的很重要。
”
附,
关于DeepSeek,你需要了解哪些信息?
DeepSeek VS OpenAI。
图片:
Andre M. Chang
DeepSeek是谁?
DeepSeek是一家中国AI公司,从幻方量化(High-Flyer)的AI研究部门发展而来的。
2024年11月,DeepSeek发布了大语言模型的预览版,该程序的能力据称优于OpenAI在同年9月以预览版发布的推理模型“o1”。12月,DeepSeek发布旗舰模型V3。
2025年1 月 20 日,DeepSeek 推出了 新的AI模型R1
,其性能与OpenAI的o1推理模型相媲美,但算力成本却低很多。1月28日,DeepSeek
发布
Janus Pro的多模态模型,其生成的结果与OpenAI的文生图模型DALL-E 3不相上下。
DeepSeek的应用程序目前在iPhone美国市场的下载排行榜上名列前茅,
许多用户对其赞叹不已。比如,其中一个用户
通过一个多步骤数学问题来测试性能。
DeepSeek 在大约四分钟内解决了这个问题——比 OpenAI
的 o1 快了三分钟。
DeepSeek 还展示了它实现这一目标所需的更多工作。
DeepSeek采用开源模型,这意味着其他人工智能公司也可以使用它们,从而为其模型的改进铺平道路,而不是对它们构成直接威胁。
如果 DeepSeek 确实以低成本实现了其卓越的AI模型,那么对整个行业的影响将是深远的。
这对人工智能发展来说是个好消息。
DeepSeek的工作原理
DeepSeek减少了训练模型所需要的数据处理量
(这压缩了大量的训练时间和计算成本),DeepSeek还使用一种名为
“专家混合”(mixture of experts)的技术。
DeepSeek和其他一些AI开发人员的做法,类似于将问题交给特定领域的专家。
每个专家需要的训练量都比较少,从而减轻了芯片同时处理所有任务的压力。
DeepSeek采用的方法在用户向AI模型提问前,需要更少的时间和算力,但在回答问题时,需要更多的时间和算力。这个模型通过
“思维链”(chain-of-thought)
推理来展示自己是如何得出答案的,能一步一步地更好地完成一项复杂任务。
OpenAI首席执行官阿尔特曼(Sam Altman)在1月27日的X上发帖称,R1是“一款令人印象深刻的模型,特别是考虑到能以这个价格交付产品”。
他还表示,出现一个新的竞争对手令人振奋,他的公司将提前发布一些产品。
OpenAI的o1模型也使用了思维链推理,但没有向用户展示背后的步骤。
DeepSeek模型产生的推理可以用来训练更小的AI模型,这让其更进了一步。
据悉,DeepSeek使用了由2,000多个英伟达芯片组成的集群来训练V3模型,比训练类似模型所需的数万个芯片要少很多。图片:Akio Kon/Bloomberg
算力成本
根据Bernstein Research的一份研究报告,DeepSeek在训练一个早期模型
DeepSeek-V3
时估计仅用到价值约600万美元的芯片,
“通过一系列优化和巧妙的技术,可以提供与其他大基础模型相似或更好的性能,而训练所需的计算资源却少得多”。
但该报告分析师
Stacy Rasgon
表示,其中忽略了其研发过程中的研究和实验成本,比如
“不包括所有其他在架构、算法或数据方面与先前研究和实验相关的成本”。
而且,这类模型旨在“显著降低训练和运行成本,因为这种模型在任何时候都只有一部分参数集处于活动状态”。
目前尚不清楚DeepSeek在更先进的R1模型上使用了多少算力。
相比之下,OpenAI表示,训练GPT-4模型的成本超过1亿美元,而未来的AI模型预计将耗费10亿美元以上。
根据公开和非公开估算,对OpenAI下一个模型GPT-5来说,仅计算成本一项,六个月的训练就可能花费约5亿美元。
在此之前,
传统观点认为,AI公司需要使用昂贵和尖端的计算机芯片,例如英伟达(Nvidia)制造的芯片,才能训练出最好的系统。
这意味着美国科技巨头在AI方面的巨额支出是合理的。也就是,
最复杂的AI模型通常需要数量最多的AI芯片来训练。
DeepSeek更高效的AI开发模式可能颠覆这一现状。
DeepSeek没有使用最先进的芯片,而是
采用了创新的
模型训练技术。但
在评估AI能力的某些基准测试中,DeepSeek模型展现出来的性能与美国顶级竞争对手基本上旗鼓相当。
鉴于此,其他公司将能够以DeepSeek的方法为基础,有可能创造出其他低成本的AI替代方案。
英伟达以积极态度看待DeepSeek造成的冲击。
英伟达在1月27日的声明中表示,DeepSeek的进步完美阐释了运作AI模型的新方法,称部署这类AI模型以供用户使用的过程需要大量英伟达芯片。
科技行业人士提到经济学中的
“杰文斯悖论”(Jevons Paradox)
,即提高资源使用效率的技术进步,往往会使资源消耗量变得更大。这一理论曾应用在煤炭领域,尽管技术进步可以提高煤炭采掘和利用效率,但反而推动煤炭的使用量大幅增加。
近70 年来,每美元可购买的晶体管数量增长了数百万个百分点。与此同时,全球每年在半导体上的支出从不到几亿美元增长到近 7000 亿美元。计算越便宜,需求就越大。
一些芯片行业高管认为,随着DeepSeek更高效的方法被AI行业所采纳,这一进步对英伟达的影响最终可能是利大于弊。
“如果推理成本太高,人们就不会用太多,”但更高的使用率会促使开发人员投资训练更好的模型。
“这样,训练和推理就步入了良性循环。
”
插图:Rachel Mendelson/WSJ、Getty Images
“蒸馏”技术
在人工智能领域所谓的
“蒸馏”技术(Distillation)
,一般是指通过从更成熟、更强大的AI模型中提炼数据来训练新的AI模型,从而有效地转移成熟模型所掌握的学习成果。这意味着新模型可以从成熟模型中获益,而无需承担构建成熟模型所投入的大量时间、算力等成本。
分析人士表示:“这有点像你花几个小时采访爱因斯坦,然后你出来时在物理学方面的知识几乎和他一样多。”
OpenAI 和 Anthropic 等领先的AI模型基本上都是通过大量原始数据从头开始自学的,这个过程通常需要数月时间,耗费数亿美元甚至更多。而蒸馏技术可以在数周甚至数天内创建一个几乎同样出色的模型,而且花费更少。
蒸馏并不是一个新想法,初创公司对科技巨头的商业模式产生了怀疑。这些科技巨头开展疯狂的投资竞赛。比如,就在上周,OpenAI宣布与软银等公司合作,在未来五年内投资 5000 亿美元用于人工智能基础设施。
但是,如果这些巨额投资不能为公司带来无与伦比的优势,那么它们可能很难证明其合理性,而且也让小规模初创公司难以生存和发展。
目前,
硅谷的高管和投资者正在重新审视他们的商业模式。
“如果领先者的成本是快速跟随者的八倍,那么从经济角度来看是否有益?
”
科技高管们希望很快能看到更多利用蒸馏技术制作的高质量人工智能应用。
DeepSeek 表示,它曾对Meta Platforms和阿里巴巴发布的开源 AI 进行过提炼,也曾从自己的一个模型中提炼出另一个模型。如果获得认可,开源 AI 开发者通常会允许进行提炼。DeepSeek 自己的模型是开源的。
加州大学伯克利分校的研究实验室 NovaSky近期发布了一项技术,据称该技术可与 OpenAI 最近发布的模型相媲美。NovaSky 的科学家们通过提炼阿里巴巴的开源模型,以 450 美元的价格开发了这项技术。
一家名为 Bespoke Labs 的初创公司将 DeepSeek 的技术提炼成一种新模型,据称该模型在编码和数学问题上表现良好。
人工智能行业的竞争已经非常激烈,大多数公司在争夺市场份额的过程中都在亏损。使用蒸馏技术的公司的进入可能会进一步压低价格,形成一个反馈循环,在这个循环中,人们越来越难以证明在高级研究上投入巨额资金的合理性。
过去一年,软件开发商使用 OpenAI 和其他公司的 AI 模型的价格大幅下降。开源 AI 有望进一步降低成本。
但是,蒸馏技术也引发了硅谷的普遍担忧,
OpenAI表示,正在审查DeepSeek使
用“蒸馏”的技术从ChatGPT中提取大量数据以帮助开发其技术的迹象。
美国
白宫和国会也在建议
人工智能公司可以采取措施,保护其模型免受蒸馏,
减缓一些模仿模型的开发速度。
隐私和安全
DeepSeek已发布了R1模型背后的“权重”(
数值参数,不包括训练数据
),供公众免费使用、下载和修改
,因此一些用户觉得在自己公司的服务器或美国公司托管的服务器上使用会更放心。
发布模型权重也意味着开发人员可以下载模型来使用。运营开源模型共享平台的Hugging Face表示,其社区创建的R1模型已被下载了320万次。
DeepSeek还
发布了一份报告,详细介绍
如何训练模型的。
AI专家表示,这有助于开发人员了解
DeepSeek是如何实现创新的。
纽约人寿保险公司(New York Life)首席数据和分析官Don Vu表示,该公司正探索使用DeepSeek的AI模型。纽约人寿有一个框架来评估不同模型在不同用例中的有效性,包括OpenAI的GPT、Anthropic的Claude和Meta Platforms的Llama模型。该公司现在将测试DeepSeek的新模型在服务和理赔等领域的使用效果。
相比之下,OpenAI表示自己采用一种“新的安全训练方法”,强制其o1模型遵守该公司的准则。OpenAI表示,该公司希望避免AI模型被“越狱”,并与美国和英国的AI安全机构签署了正式协议。
AI模型越狱
指的是操纵模型或试图绕过其安全控制。