专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  Google 的 Gemini 2.0 ... ·  16 小时前  
宝玉xp  ·  Anthropic 并不鼓励用 AI ... ·  昨天  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  2 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  2 天前  
宝玉xp  ·  //@5ilunch:好的应用会给出质量高的 ... ·  2 天前  
51好读  ›  专栏  ›  新智元

OpenAI称有DeepSeek「偷窃」证据?美军已发起攻击!Anthropic CEO喊话加强芯片管制

新智元  · 公众号  · AI  · 2025-01-30 11:50

正文



  新智元报道  

编辑:Aeneas 好困
【新智元导读】他们急了!特朗普的AI沙皇和微软纷纷指控DeepSeek「偷窃」数据,DeepSeek不断遭受来自美国IP的不间断大规模攻击。Anthropic CEO更是发出檄文:再不加强对中国的芯片管制,就来不及了!

它急了,它急了

就在昨天,美国各方频频发出对DeepSeek「偷窃数据」的指控。

先是特朗普的AI事务主管David Sacks声称,有所谓「确凿证据」表明DeepSeek利用了OpenAI模型的输出数据来开发自身技术。

然后微软的研究人员就跟着站出来表示,与DeepSeek相关的个人,曾在去年秋天使用OpenAI的API大规模提取数据。

刚刚, Anthropic CEO Dario Amodei也发出了长篇檄文:DeepSeek的进展表明,美国应该加强对华芯片出口管制!

不仅如此,美国还针对DeepSeek的线上服务,进行不间断的大规模攻击。

直到目前,API和网页对话服务都还处于异常状态。

据悉,美国海军已向相关人员发出邮件示警,提醒「不得以任何形式下载、安装或使用DeepSeek模型」。

而作为美国忠实「盟友」的意大利,也在第一时间跟进了制裁——直接把苹果和谷歌应用商店里的DeepSeek APP,全给下架了。

苹果App Store向意大利用户显示的通知称,该应用「目前在您所在的国家或地区不可用」。谷歌应用平台则显示在意大利「不支持」下载。

微软和OpenAI:DeepSeek偷我们数据,有证据

DeepSeek仅用了2048块英伟达H800,投入560万美元,就训出了约6710亿参数的V3模型,由此引发前所未有的风暴。

彭博社表示,如今微软和OpenAI已经在展开调查,DeepSeek是否曾以未经授权的方式,获得了OpenAI的数据输出。

他们表示,这类活动可能已经违反了OpenAI的服务条款,或者说相关团体正在试图绕过OpenAI对可获取数据量的限制。

知情人士透露,微软作为OpenAI的技术合作伙伴及其最大投资者,已将此事透露给了OpenAI。

彭博社这样描述DeepSeek-R1模型引起的轰动效应:「这一潜在威胁动摇了美国科技公司的行业领先地位,导致与AI相关的科技股大跌,包括微软、英伟达、甲骨文以及谷歌母公司Alphabet。本周一,这些公司的市值合计蒸发近1万亿美元。」

特朗普的AI事务专员David Sacks周二表示,已有「证据」表明DeepSeek利用了OpenAI模型的输出来开发自己的技术。

在接受福克斯新闻采访时,Sacks表示,DeepSeek利用蒸馏技术获得了能力,即一个AI模型使用另一个模型的输出进行训练。

「有确凿证据表明DeepSeek通过蒸馏技术提取了OpenAI模型的知识,而我认为OpenAI对此并不高兴。」

不过,到底都有哪些证据,却只字未提。

OpenAI:正在展开调查

而针对Sacks的言论,OpenAI也在一份声明中表示,中国的一些团队「正在使用包括蒸馏在内的方法,试图复制美国先进的AI模型。」
我们已经注意到DeepSeek可能不当蒸馏我们模型的迹象,正在对之审查,并将在掌握更多信息后进行分享。

我们正在采取一系列保护措施来维护知识产权,包括谨慎评估在发布模型时应包含哪些前沿技术能力。

我们认为,与美国政府保持密切合作对于保护最先进的模型至关重要,这可以防止竞争对手和其他相关方获取美国的核心技术。

在业界,蒸馏其实是一种常见做法。

但在OpenAI但服务条款中,有这么一条规定:用户不得「复制」其任何服务或「使用输出来开发与OpenAI存在竞争的模型」。

有专家指出,DeepSeek在训练中用到了GPT-4的输出

业内人士透露,中美两国的AI实验室,普遍都会用OpenAI模型的输出内容。毕竟OpenAI斥巨资雇佣了人员训练模型产生更接近人类的响应,这种人类对齐训练成本高昂,需要大量人力。

UC伯克利的AI博士生Twik Gupta就表示:「初创公司和学术界普遍会使用ChatGPT等经过人类对齐的商业LLM输出,来训练新模型。这相当于免费获得了人类反馈这个训练环节。」

DeepSeek是「克隆」?LeCun转发:不懂别瞎说

对于这些流传甚广的说法,LeCun前几日就转发了Perplexity CEO Aravind Srinivas的帖子,表示澄清。

Aravind Srinivas写道,很多人以为中国克隆了OpenAI的成果,他们明显对模型训练方式的理解很片面。

DeepSeek已经找到了强化学习微调的方法,他们的「DeepSeek-R1 Zero」论文中,也没有使用监督微调。

随后,他们结合了一些SFT,并通过良好的拒绝采样(即过滤)来增加领域知识。

DeepSeek-R1之所以表现出色,主要原因在于它是从零开始学习推理能力,而不是简单模仿人类或其他模型。

机器学习大牛Sebastian Raschka也对于这种说法表示驳斥。

他表示,在LLM的背景下,「蒸馏」这个术语的使用已经相当宽泛。

团队只是为SFT创建并整理了一个数据集,用于训练基于Qwen和Llama的R1模型。

Anthropic CEO长篇檄文:加大制裁力度,赶紧的

Anthropic CEO Dario Amodei也刚刚发出万字檄文,对美国政府发出警告——

DeepSeek的崛起,就证明美国对华的芯片管制应该继续加码!

有趣的是,针对Amodei的行为,LeCun转发了以下这个梗图。

檄文全文如下。

出口管制肩负着一个重要使命:确保我们在AI发展中保持领先地位。为此,美国及其盟友的AI公司就必须开发出比中国更优秀的模型。

几周前,我曾提出加强美国对华芯片出口管制的理由。紧接着,DeepSeek就以更低的成本,实现了接近美国前沿AI模型的性能。

结合这些情况来看,我认为加紧出口管制,比一周前显得更重要了!

AI发展的三个动态特征

在阐述政策主张之前,我将描述AI系统的三个基本动态特征。

1. Scaling Law

AI的一个特性,就是在其他条件相同的情况下,扩大AI系统的训练规模会导致在各类认知任务上的性能平稳提升。

例如,一个100万美元的模型可能解决20%的重要编程任务,1000万美元的可能解决40%,1亿美元的可能解决60%,以此类推。

这些差异在实践中往往带来重大影响——再增加10倍投入,可能意味着从本科生到博士水平的跨越——因此各公司都在大力投资训练这些模型。

2. 曲线位移

AI领域正不断涌现大大小小的创新理念,使系统变得更有效或更高效:可能是模型架构的改进,或只是优化模型在底层硬件上的运行方式。

新一代硬件同样具有这种效果。

这通常会导致曲线位移:如果创新带来2倍的「计算乘数」(Compute Multiplier,CM),那么只需500万美元而非1000万美元就能在编程任务上达到40%的成功率;或者用5000万美元而非1亿美元达到60%的成功率。

每家前沿AI公司都经常发现这样的算力倍增效应:通常是小幅度的(约1.2倍),有时是中等规模的(约2倍),偶尔会有显著的(约10倍)。

由于更智能系统的价值极高,这种曲线位移往往促使公司增加而非减少模型训练投入:成本效率的提升将完全用于训练更智能的模型,仅受限于公司的财务资源。

人们通常会有「先贵后便宜」的思维模式——仿佛AI是一个质量恒定的单一产品,变得更便宜时就能用更少的芯片来训练。

但关键在于规模曲线(scaling curve):当曲线位移时,我们只是更快地达到目标,因为终点的价值无比重要。

2020年,我的团队就发表论文指出,算法进步带来的曲线位移每年约为1.68倍。这个速度现已显著提升,且尚未考虑效率和硬件因素。

我估计现在这个数字可能达到每年4倍。训练曲线的位移也会带动推理曲线位移,因此多年来在保持模型质量不变的情况下,价格持续大幅下降。

例如,比GPT-4晚15个月发布的Claude 3.5 Sonnet,在几乎所有基准测试中都超越了GPT-4,而API价格仅为后者的十分之一。

3. 范式转变

有时,被扩展的基础要素会发生变化,或训练过程中会引入新的扩展类型。

2020年至2023年间,扩展主要集中在预训练模型上:这些模型在海量互联网文本上训练,只需少量额外训练。

到了2024年,使用强化学习(RL)训练模型生成思维链已成为扩展的新焦点。

Anthropic、OpenAI、DeepSeek等公司发现,这种训练显著提升了模型在特定、可客观衡量的任务(如数学、编程竞赛)及类似推理任务上的表现。

这种新范式始于常规预训练模型,然后在第二阶段使用RL添加推理能力。

值得注意的是,由于这种RL方法较新,我们仍处于扩展曲线(scaling curve)的早期:所有参与者在第二阶段RL上的投入都相对较小。从10万美元增加到100万美元就能带来显著提升。

DeepSeek-R1不值一提

上述三个动态特征可以帮助我们理解DeepSeek最近发布的模型。

大约一个月前,DeepSeek发布了名为「DeepSeek-V3」的纯预训练模型。随后在上周,他们又发布了添加第二阶段训练的「R1」模型。

虽然从外部视角难以完全掌握这些模型的所有细节,但以下是我对这两次发布的深入理解。

DeepSeek-V3的发布堪称重大创新,这本应在一个月前就引起业界广泛关注。

作为一个预训练模型,它在某些重要任务上的表现已经接近美国最先进的模型,同时显著降低了训练成本。

DeepSeek团队通过一系列令人印象深刻的创新实现了这一突破,主要集中在提升工程效率方面。他们在「键值缓存」(Key-Value cache)管理方面做出了特别创新的改进,并且将MoE方法推进到了前所未有的水平。

然而,我们需要仔细审视:

  • DeepSeek并非「只用600万美元就做到了美国AI公司需要数十亿美元才能做到的事」。
    Claude 3.5 Sonnet是一个中等规模的模型,训练成本在数千万美元级别(具体数字不便透露)。此外,3.5 Sonnet的训练过程完全没有涉及更大或更昂贵的模型(与某些传言相反)。
    Sonnet的训练是在9-12个月前进行的,而DeepSeek的模型是在去年11、12月训练的,但在众多内部和外部评估中,Sonnet仍然保持明显领先。
    因此,一个客观的说法是:「DeepSeek以较低的成本(但远未达到外界猜测的比例)开发出了一个性能接近7-10个月前美国模型水平的产品」。
  • 如果成本曲线的历史下降趋势是每年约4倍,这意味着在正常业务发展过程中——即在 2023年和2024年出现的常规成本下降趋势中——我们预计现在会出现比3.5 Sonnet/GPT-4便宜3-4倍的模型。
    由于DeepSeek-V3不如这些美国前沿模型——在扩展曲线上大约差了2倍,这个估计对DeepSeek-V3来说已经相当宽容——这表明如果DeepSeek-V3的训练成本比一年前开发的美国当前模型低约8倍,这完全符合预期。
    我不会给出具体数字,但从前面的分析可以清楚看出,即使按照表面价值来看DeepSeek的训练成本,他们最多只是符合行业趋势,甚至可能还达不到这个水平。
    例如,这比原始GPT-4到Claude 3.5 Sonnet的推理价格差异(10倍)还要小,而且3.5 Sonnet是比GPT-4更优秀的模型。
    这些都表明,DeepSeek-V3并非独特的突破,也不是从根本上改变LLM经济学的创新;它只是持续成本降低曲线上的一个预期点。
    这次的特殊之处在于,首先展示预期成本降低的是一家中国公司。这种情况前所未有,具有重要的地缘政治意义。
    然而,美国公司很快就会跟进——他们不是通过复制DeepSeek,而是因为他们同样在实现常规的成本降低趋势。
  • DeepSeek和美国AI公司目前都拥有比训练其主打模型时更多的资金和芯片。
    这些额外的芯片用于研发模型背后的理念,有时也用于训练尚未成熟的更大模型(或需要多次尝试才能完善的模型)。
    据真实性未经证实的报道,DeepSeek拥有50,000片Hopper芯片,我估计这在规模上与主要美国AI公司相差约2~3倍。
    因此,DeepSeek作为一家公司的总投入与美国AI实验室的差距并不显著。
  • 值得注意的是,「扩展曲线」分析可能过于简化,因为不同模型各有特色,优劣势各异;扩展曲线的数据只是一个忽略了诸多细节的粗略平均值。
    正如前文所述,Claude在编程能力和人机交互设计方面表现卓越。在这些及其他特定任务上,DeepSeek与之相比仍有较大差距。这些优势特性并未反映在扩展曲线的数据中。

上周发布的R1模型引发了公众的广泛关注,但从创新或工程的角度来看,它远不如V3具有研究价值。

R1增加的第二阶段训练(强化学习),是复制了OpenAI在o1上所做的工作。





请到「今天看啥」查看全文