专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  泼凉水:我不配自己部署DeepSeek R1 ·  9 小时前  
APPSO  ·  OpenAI 首席研究官称 ... ·  昨天  
APPSO  ·  蛇年想发点不一样的?这个 AI ... ·  3 天前  
APPSO  ·  国产 AI 超 ChatGPT 登顶 ... ·  3 天前  
小众软件  ·  另外两件事[25126] ·  4 天前  
51好读  ›  专栏  ›  APPSO

OpenAI 称掌握 DeepSeek 违规证据,Anthropic CEO 发万字长文喊话美国加强管制

APPSO  · 公众号  · app  · 2025-01-30 10:42

正文

最近的 DeepSeek 陷入了多事之秋。
据外媒金融时报报道,OpenAI 称有证据表明,中国 AI 公司 DeepSeek 借助 OpenAI 的模型来开发自己的开源 AI 产品,此举可能违反了 OpenAI 的服务条款。
在 AI 行业,通过「蒸馏」技术来开发新模型较为常见。但 OpenAI 认为 DeepSeek 的行为已经超出了可接受的范围,因为他们是在利用 OpenAI 的技术来打造一个竞品。
截至发稿时,对于这些指控的具体细节,OpenAI 目前拒绝作出进一步说明。
而在昨日,彭博社报道称,OpenAI 及其合作伙伴微软对去年使用 OpenAI API 的若干账户展开调查,并切断了涉嫌进行模型蒸馏的账户访问权限,理由同样是这些行为违反了服务条款。
一波未平,一波又起。
据外媒 TechCrunch 报道,DeepSeek 近期向美国专利商标局(USPTO)提交了商标申请,希望注册其 AI 聊天机器人、产品和工具的品牌。然而,它的申请晚了一步。
就在 36 小时前,一家名为 Delson Group Inc.的特拉华州公司率先提交了「DeepSeek」商标的申请。
Delson Group 声称自 2020 年起就一直在销售「DeepSeek」品牌的 AI 产品。该公司在商标申请中登记的地址是库比蒂诺的一处住宅,创始人兼 CEO 为 Willie Lu。
有趣的是,Lu 与 DeepSeek 的创始人梁文峰同为浙江大学校友。根据 Lu 的 LinkedIn 资料,他自称是斯坦福大学的「半退休」咨询教授,同时担任美国联邦通信委员会(FCC)顾问,职业生涯主要聚焦无线通信领域。
TechCrunch 调查发现,Lu 还以「DeepSeek」品牌在拉斯维加斯举办名为「AI 超级智能」(AI Super-Intelligence)的教育课程,门票起价 800 美元。该课程的网站也被列在 Delson Group 的商标申请文件中,并宣称 Lu 在信息通信技术(ICT)和人工智能(AI)领域有约 30 年的经验。
当 TechCrunch 通过商标申请文件中的电子邮件联系 Lu 时,他表示愿意在加州帕洛阿尔托或萨拉托加见面讨论。但在进一步的置评请求中,Lu 未作回应。
通过 USPTO 的商标审理和上诉委员会(TTAB)数据库查询可以发现,Delson Group 此前曾与多家知名企业发生过二十多起商标纠纷,包括 GSMA、腾讯和 TracFone Wireless。该公司曾主动放弃或取消部分商标申请,但也成功注册了一些商标。
更广泛的 USPTO 商标数据库搜索显示,Delson Group 已注册了 28 个商标,其中包括一些知名中国企业的品牌。例如,该公司注册了「吉利」(Geely)和「中国移动」(China Mobile)的商标,这些品牌分别属于中国的汽车制造商和香港的电信巨头。
这种模式表明,Delson Group 可能存在「商标囤积」(Trademark Squatting)行为,即抢先注册商标,以便日后出售或利用品牌知名度牟利。
目前来看,DeepSeek 在美国的商标权益处于不利地位。根据美国法律,首个使用商标的公司通常被视为该商标的合法所有者,除非能证明对方是恶意注册(bad faith registration)。
知识产权律师、Gerben IP 事务所创始人 Josh Gerben 在接受 TechCrunch 采访时表示,Delson Group 在多方面占据优势:

申请时间更早(比 DeepSeek 早 36 小时提交);

声称自 2020 年起已开始使用该品牌(DeepSeek 的商标申请中称其成立于 2023年);

拥有可验证的 AI 相关活动(包括培训课程和网站)。
Gerben 指出,Delson Group 甚至可以提出「反向混淆(Reverse Confusion)」诉讼,主张 DeepSeek 的迅速崛起会导致公众误认为 DeepSeek 才是商标的真正所有者。此外,Delson Group 还可以起诉 DeepSeek,要求其停止在美国市场继续使用「DeepSeek」品牌。
「DeepSeek 可能真的面临严重的商标问题,」Gerben 表示,「Delson Group 作为潜在的「在先权利持有者」(prior rights holder),可能有很强的商标侵权诉讼理由。」
值得一提的是,DeepSeek 并不是唯一一家在商标问题上遇到麻烦的 AI 公司。比如 OpenAI 曾试图注册「GPT」商标,但在去年 2 月被 USPTO 驳回,理由是该词过于通用。
包括我们之前也报道过,OpenAI 目前仍在与科技企业家 Guy Ravine 就「Open AI」商标进行法律纠纷,Ravine 声称自己早在 2015 年(OpenAI成立之年)就已提出这一商标概念,并希望打造一个「开源」AI 平台。
另外,今天凌晨,Anthropic CEO Dario Amodei 在 X 平台发布了一篇万字长文,回应了近期围绕在 DeepSeek 的诸多风波事件。
面对 Amodei 的疑似破防的行为,X 网友在评论区贴脸输出:

Anthropic CEO:不认为 DeepSeek 本身是对手,美国要加强芯片出口管制
几周前,我曾提出应加强美国对华芯片出口管制。如今,中国 AI 公司 DeepSeek 竟然在某些方面以更低成本接近了美国最前沿的 AI 模型。
在这篇文章中,我不会讨论 DeepSeek 是否真的威胁到 Anthropic 等美国 AI 企业(尽管我认为,关于中国 AI 取代美国领导地位的某些说法被夸大了)¹。
相反,我想探讨一个问题:DeepSeek 的技术突破是否削弱了对芯片出口管制的必要性?我的答案是否定的。事实上,我认为这反而更加凸显了出口管制的重要性²。
出口管制的核心目标是确保国家在 AI 发展中保持领先。需要明确的是,管制政策并不是为了回避中美 AI 竞争。
最终,如果美国及其他国家希望在 AI 领域占据主导地位,就必须拥有比中国更先进的模型。但与此同时,我们也不应该在可以避免的情况下,让中国政府获得技术优势。
AI 发展的三大核心动态
在讨论政策问题之前,我想先介绍 AI 系统的三个关键发展动态,这对理解 AI 产业至关重要:
1. 缩放规律(Scaling Laws)
AI 领域的一个核心规律是,随着训练规模的扩大,模型的表现会持续平稳提升。我和我的联合创始人在 OpenAI 工作时,就曾率先记录并验证过这一现象。简单来说,在其他条件相同的情况下,增加训练计算量(compute)会让 AI 在各种认知任务上的表现更好。例如:

价值 100 万美元 的 AI 可能能解决 20% 的关键编程任务

价值 1000 万美元 的 AI 可能能解决 40%

价值 1 亿美元 的 AI 可能能解决 60%
这些差异在实际应用中会带来巨大影响——计算量增加 10 倍,可能意味着 AI 水平从本科生提升到博士生。因此,各家公司都在投入巨额资金训练更强的模型。
2. 计算效率提升(Shifting the Curve)
AI 领域不断涌现出各种大大小小的创新,使得 AI 训练和推理更加高效。这些创新可能涉及模型架构改进(例如对 Transformer 结构的优化)、更高效的计算方式(提升硬件利用率)以及新一代 AI 计算芯片。
这些优化会整体提升 AI 的训练效率,也就是「Shifting the Curve」:
如果某项技术带来 2 倍的计算提升(Compute Multiplier,CM),那么原本需要 1000 万美元 训练出的 40% 代码解决能力,现在只需要 500 万美元;原本 1 亿美元 的 60% 代码解决能力,现在只需要 5000 万美元。
各大 AI 公司不断发现这样的 CM 提升:

小幅优化(约 1.2 倍):常见的微调优化

中等优化(约 2 倍):架构改进或算法优化

大幅优化(约 10 倍):重大技术突破
由于 AI 智能水平的提升价值极高,这种效率提升通常不会降低总训练成本,反而会促使企业投入更多资金,训练更强的模型。许多人误以为 AI 会像传统产品那样「先贵后便宜」,但 AI 并不是一个固定质量的商品——当计算效率提高后,行业不会减少计算消耗,而是更快地追求更强的 AI。
在 2020 年,我的团队发表了一篇论文,指出算法进步带来的计算效率提升速度约为每年 1.68 倍。但目前这一速度可能已经加快到每年 4 倍,并且这一估算还未考虑硬件进步的影响。
3. 推理成本的降低(Inference Cost Reduction)训练效率的提升同样会影响 AI 推理(即模型在运行时的计算成本)。过去几年,我们已经看到 AI 的推理成本持续下降,同时性能不断提升。例如 Claude 3.5 Sonnet(发布于 GPT-4 之后 15 个月),在几乎所有基准测试上都超越了 GPT-4,但其 API 价格仅为 GPT-4 的 1/10。
3、范式转变(Shifting the Paradigm)
AI 训练的扩展方式并非一成不变,有时核心扩展对象会发生变化,或者训练过程中会引入新的扩展方法。
在 2020-2023 年间,AI 训练的主要扩展方向是预训练模型,这些模型主要基于大规模互联网文本数据进行训练,在此基础上进行少量额外的微调训练,以提升特定能力。
进入 2024 年,利用强化学习(Reinforcement Learning, RL)训练模型生成思维链(Chain of Thought, CoT) 成为 AI 训练的新焦点。
Anthropic、DeepSeek,以及 OpenAI(2024 年 9 月发布的 o1-preview 模型)等公司发现,这种训练方式可以显著提升模型在某些客观可衡量任务上的表现,特别是在数学推理、编程竞赛、以及类似数学和编程的复杂逻辑推理。
新的训练范式采用两阶段方法,先训练传统预训练模型,使其具备基础能力。其次,通过强化学习(RL) 增强模型的推理能力。
由于这种 RL 训练方法仍然较新,当前所有公司在 RL 阶段的投入都较少,因此仍处于早期规模化阶段。仅从 10 万美元扩展到 100 万美元的训练投入,就能带来巨大性能提升。
企业正在迅速推进 RL 训练的扩展,预计很快将达到数亿美元甚至数十亿美元级别。目前,我们正处于一个独特的「交叉点」(crossover point),AI 训练正在经历重要的范式转变,由于 RL 训练仍处于早期扩展阶段,因此可以在短时间内实现快速性能突破。
DeepSeek 的模型
上述三大 AI 发展动态可以帮助我们理解 DeepSeek 最近发布的模型。
大约一个月前,DeepSeek 推出了「DeepSeek-V3」,这是一个纯预训练模型,即前文第 3 点中提到的第一阶段模型。随后,上周他们又发布了 「R1」,在 V3 的基础上增加了第二阶段训练。虽然外界无法完全了解这些模型的内部细节,但以下是我对这两次发布的最佳理解。
DeepSeek-V3 才是 DeepSeek 近期的真正创新,早在一个月前就值得引起关注(我们当时确实注意到了)。
作为一个纯预训练模型,DeepSeek-V3 在某些关键任务上的表现接近美国最先进的 AI 模型,但训练成本要低得多。(不过,我们发现 Claude 3.5 Sonnet 在某些关键任务上仍然明显更强,特别是现实世界中的编程能力。)
DeepSeek 团队能够做到这一点,主要依赖于一系列真正出色的工程创新,特别是在计算效率优化方面,包括「键-值缓存」(Key-Value Cache)管理的创新优化,提高了模型在推理过程中的效率,以及对「专家混合模型」(Mixture of Experts, MoE)技术的突破性应用,使其在大规模 AI 模型中的表现优于以往。
然而,我们需要更仔细地分析:
DeepSeek 并没有「用 600 万美元⁵完成了美国 AI 公司花费数十亿美元才能做到的事情」。就我能代表的 Anthropic 而言,Claude 3.5 Sonnet 是一个中等规模的模型,训练成本为几千万美元(具体数字我不会透露)。此外,关于 3.5 Sonnet 训练过程中使用了更大、更昂贵的模型的传言并不属实。Sonnet 的训练是在 9 到 12 个月前进行的,而 DeepSeek 的模型是在去年 11 月至 12 月训练的。
尽管如此,Sonnet 在许多内部和外部评测中仍然明显领先。因此,更准确的说法应该是:「DeepSeek 以相对较低的成本训练出了一个接近 7 到 10 个月前的美国模型性能的模型,但成本远没有人们所说的那么低。」
如果按照过去的趋势,AI 训练成本每年大约下降 4 倍,那么在正常情况下——比如 2023 年和 2024 年的成本下降趋势——我们可以预期,现在的模型训练成本应该比 3.5 Sonnet 或 GPT-4o 低 3 到 4 倍。而 DeepSeek-V3 的性能仍然逊色于这些美国最前沿的模型——大约差 2 倍(这个估计对 DeepSeek-V3 来说已经相当慷慨了)。这意味着,如果 DeepSeek-V3 的训练成本比一年前的美国顶级模型低 8 倍,那也是正常的,符合趋势的,并不是什么意外突破。
事实上,DeepSeek-V3 的成本下降幅度甚至比 GPT-4 到 Claude 3.5 Sonnet 的推理价格下降幅度(10 倍)还要小,而 3.5 Sonnet 本身比 GPT-4 还要强。这一切都说明,DeepSeek-V3 既不是技术上的革命性突破,也没有改变大语言模型(LLM)的经济模式,它只是符合现有成本下降趋势的一个正常案例。
不同之处在于,这次率先实现预期成本下降的是一家中国公司。这在历史上是第一次发生,因此具有重要的地缘政治意义。不过,美国 AI 公司很快也会跟上这一趋势,而且它们并不是通过复制 DeepSeek 来实现的,而是因为它们自身也在沿着既定的成本下降曲线前进。
无论是 DeepSeek 还是美国 AI 公司,现在都拥有比训练它们现有主力模型时更多的资金和芯片。这些额外的芯片被用于研发新的模型技术,有时也会用于训练尚未发布、或者需要多次尝试才能完善的大型模型。
据报道(尽管我们无法确认其真实性),DeepSeek 实际上拥有 50000 片 Hopper 代 GPU⁶,而我估计这大约是美国主要 AI 公司 GPU 规模的 1/2 到 1/3(例如,这个数量比 xAI 的「Colossus」集群少 2 到 3 倍)⁷。这 50000 片 Hopper GPU 的成本大约在 10 亿美元左右。
因此,DeepSeek 作为一家公司(而不仅仅是某个单一模型的训练费用)的总投入,并没有与美国 AI 研究实验室有巨大的差距。
值得注意的是,「扩展曲线」(scaling curve)的分析其实有些过于简化了。不同的模型各有特点,擅长的领域也不同,而扩展曲线的数值只是一个粗略的平均值,忽略了许多细节。
就我所了解的 Anthropic 的模型而言,正如我之前提到的,Claude 在代码生成和与用户进行高质量互动方面表现极佳,许多人甚至将其用于个人建议或支持。在这些方面,以及其他一些特定任务上,DeepSeek 根本无法与之相比,而这些差距并不会直接反映在扩展曲线的数据中。
上周发布的 R1 让公众高度关注,并导致英伟达股价下跌约 17%。但从创新或工程角度来看,R1 远不如 V3 令人兴奋。
R1 只是在训练中增加了第二阶段——强化学习(这一点在上一部分的 #3 中有提到),本质上是对 OpenAI 在 o1 版本中的方法的复现(两者的规模和效果似乎相近)⁸。不过,由于目前仍处于扩展曲线的早期阶段,多家公司都有可能训练出类似的模型,前提是它们有一个强大的预训练基础模型。
在 V3 现有的基础上训练出 R1 可能成本非常低。因此,我们正处于一个有趣的「交叉点」:在这个阶段,多个公司都能训练出优秀的推理能力模型。但这种情况不会持续太久,随着模型继续沿扩展曲线向上发展,这种「门槛较低」的窗口期将很快结束。
芯片出口管制
以上分析其实只是为我真正关注的话题做铺垫——对中国的芯片出口管制。结合前面的事实,我认为当前的情况如下:
AI 训练的趋势是,企业会投入越来越多的资金来训练更强大的模型。虽然训练同等智能水平模型的成本在不断下降,但 AI 模型的经济价值实在太高,因此节省下来的成本几乎立即被重新投入,以训练更强大的模型,而整体支出仍然保持在原来的高额水平。
DeepSeek 研发的效率优化方法,如果美国实验室还没有掌握,那么很快也会被美中双方的实验室应用于训练价值数十亿美元的 AI 模型。这些新模型的表现将比原本计划训练的多亿美元级模型更强,但投入依然会是数十亿美元,并且这个数字还会持续上升,直到 AI 智能水平超越几乎所有人在几乎所有领域的能力。
要打造这样比几乎所有人都更聪明的 AI,需要数百万颗芯片、至少数百亿美元的资金,并且最有可能在 2026-2027 年实现。DeepSeek 的最新发布并不会改变这个趋势,因为它们的成本下降幅度仍然在预期范围内,这一点早已纳入行业的长期计算。
这意味着,到 2026-2027 年,世界可能会出现两种截然不同的局面,在美国,多家公司肯定会拥有所需的数百万颗芯片(成本高达数百亿美元)。问题在于,中国是否也能获得数百万颗芯片⁹。
如果中国能够获得数百万颗芯片,我们将进入一个双极世界(bipolar world),即美国和中国都拥有强大的 AI 模型,推动科学技术以前所未有的速度发展——我称之为「数据中心里的天才国家」(countries of geniuses in a datacenter)。
但双极世界未必会长期保持平衡。即使中美 AI 技术暂时相当,中国可能会投入更多的人才、资金和精力来将 AI 技术应用于军事领域。再加上中国庞大的工业基础和军事战略优势,这可能使中国不仅在 AI 领域取得主导地位,甚至在全球各个领域占据领先。
如果中国无法获得数百万颗芯片,我们至少暂时会进入一个单极世界(unipolar world),即只有美国及其盟友掌握最先进的 AI 模型。这个单极局面是否会持续并不确定,但至少有可能出现这样一种情况:由于 AI 系统可以帮助构建更强的 AI,短暂的领先可能会被转化为长期优势¹⁰。在这种情况下,美国及其盟友可能会在全球舞台上取得决定性并长期的主导地位。
因此,严格执行的出口管制¹¹是阻止中国获取数百万颗芯片的唯一有效手段,也是决定世界最终是单极还是双极格局的最重要因素。
DeepSeek 的成功并不意味着出口管制失效。正如我之前所说,DeepSeek 实际上拥有相当可观的芯片资源,因此他们能够开发并训练出强大的模型并不令人意外。他们在资源上并没有比美国 AI 公司受到更大的限制,出口管制也并不是促使他们「创新」的主要原因。他们只是非常优秀的工程师,而这正说明了中国在 AI 领域是美国的严峻竞争对手。
DeepSeek 的成功也并不意味着中国可以一直通过走私获得所需的芯片,或者出口管制存在无法堵住的漏洞。我认为,出口管制从来就不是为了阻止中国获得几万颗芯片。10 亿美元的经济活动可以隐藏,但 100 亿美元甚至 10 亿美元的活动就难以掩盖了,而要偷偷运送上百万颗芯片在物理上也可能极为困难。
我们还可以看看目前 DeepSeek 被报道所拥有的芯片类型。据 SemiAnalysis 分析,DeepSeek 现有的 50000 片 AI 芯片是 H100、H800 和 H20 的混合。

H100 自推出以来就受到出口管制的限制,因此如果 DeepSeek 拥有 H100,那它们必然是通过走私获得的。(不过,值得注意的是,英伟达曾表示 DeepSeek 的 AI 进展「完全符合出口管制规定」)。

H800 在 2022 年最初的出口管制政策下仍可出口,但在 2023 年 10 月政策更新后被禁止,因此这些芯片可能是在禁令生效前运送的。

H20 在训练方面效率较低,但在推理(采样)方面更高效,目前仍允许出口,但我认为它也应该被禁止。
综上所述,DeepSeek 拥有的 AI 芯片主要包括目前尚未被禁(但应该被禁)的芯片、在被禁之前获得的芯片、可能通过走私获取的少量芯片。
这实际上表明了出口管制正在发挥作用,并且在不断调整优化:如果出口管制完全无效,DeepSeek 现在很可能会拥有一整批顶级的 H100 芯片。然而,事实并非如此,这说明政策正在逐步堵住漏洞。如果我们能够足够快地加强管控,就可能阻止中国获得数百万颗芯片,从而提高美国维持 AI 领先地位、形成单极世界的可能性。
关于出口管制和美国国家安全,我想明确一点:
我并不认为 DeepSeek 本身是对手,我也不是专门针对这家公司。从他们接受采访时的表现来看,DeepSeek 的研究人员看起来像是聪明、充满好奇心的工程师,他们只是想开发出有用的技术。
出口管制是我们最强有力的手段之一,能够阻止这种情况发生。有人认为,AI 技术变得越来越强、性价比越来越高,是一个应该放松出口管制的理由——但这完全没有道理。
脚注

1 关于模型蒸馏:在这篇文章中,我不对有关 DeepSeek 是否对西方模型进行蒸馏的报道发表任何看法。我仅基于 DeepSeek 论文中提供的信息,假设他们确实按照自己所述的方式训练了模型。

2 DeepSeek 的发布并不影响英伟达:事实上,我认为 DeepSeek 模型的发布显然不会对英伟达造成负面影响,而英伟达股价因此下跌约 17% 让我感到困惑。从逻辑上讲,DeepSeek 的发布对英伟达的影响甚至比对其他 AI 公司的影响还要小。但无论如何,我这篇文章的主要目的是为出口管制政策辩护。

3 关于 R1 训练方式的细节:更精确地说,R1 是一个预训练模型,并且仅进行了少量的强化学习(RL)训练,这种做法在推理范式变革前的模型中很常见。

4 DeepSeek 在某些特定任务上表现较强:但这些任务范围非常有限。

5 关于 DeepSeek 论文中提到的「600 万美元训练成本」:这个数据是 DeepSeek 论文中引用的,我在这里暂且接受,并不对其真实性提出质疑。不过,我质疑的是将此与美国 AI 公司的训练成本直接对比的合理性。600 万美元仅指训练某个具体模型的成本,但 AI 研发的整体成本要远远高于这个数字。此外,我们也无法完全确定 600 万美元的真实性——虽然模型规模可以验证,但训练时使用的 token 数量等因素却难以核实。

6 关于 DeepSeek 现有芯片的更正:在一些采访中,我曾说 DeepSeek 拥有 「50,000 片 H100」,但这实际上是对相关报道的不准确概括,在此更正。H100 是目前最知名的 Hopper 架构芯片,所以我当时假设报道所指的就是 H100。但实际上,Hopper 系列还包括 H800 和 H20,DeepSeek 拥有的是这三种芯片的混合,总数为 50000 片。虽然这个事实并不会改变整体情况,但仍值得澄清。我在讨论出口管制时会更详细地分析 H800 和 H20 的问题。

10 出口管制的目标:这里需要明确一点,目标并不是剥夺中国从 AI 科技进步中获益的机会——AI 在科学、医疗、生活质量等领域的突破,理应造福所有人。真正的目标是防止这些国家在军事领域取得主导地位。
附上报道相关链接:
https://techcrunch.com/2025/01/29/deepseek-might-have-a-trademark-problem-in-the-u-s/
https://darioamodei.com/on-deepseek-and-export-controls
https://x.com/DarioAmodei/status/1884636410839535967