#美国正对DeepSeek开展国家安全调查#
呵呵…丑国丑起来一点不揺碧莲
夺人钱财,如杀人父母。无论友敌,竞争烈度高到一定程度,肯定是要上政治手段的
美国现在就是赤裸裸的,利用之前积攒下来的美元霸权、科技霸权,打压竞争对手
~~~~~~~
Rhodium 高级分析师谈 DeepSeek,值得看看
总之一句话,要加强制裁
更搞笑的是这人也是阴谋论:“R1 模型于上周特朗普总统就职典礼期间发布,显然是为了在美国政策关键时刻动摇公众对美国 AI 领导地位的信心”
Jordan Schneider简介:一位专注于中国科技、政治和经济领域的专家,曾任职于快手、桥水、以及政治风险咨询公司欧亚集团(Eurasia Group),研究成果发表在《外交事务》(Foreign Affairs)、《外交政策》(Foreign Policy)、《连线》(Wired)和《Lawfare》等知名媒体上
~~~~~~~~~~~~
正文如下:
最近对DeepSeek AI模型的报导,主要聚焦于其在基准测试中的优异表现及效率提升。尽管这些成就值得肯定,且具有政策层面的意涵(见下文),有关计算资源、出口管制和AI发展的故事比许多报导所描述的更加复杂。以下是一些值得更多关注的重点:
🔥 1)对AI芯片的真正出口限制仅从2023年10月开始,因此有关限制无效的说法为时过早。
DeepSeek的训练使用的是Nvidia H800芯片,这些芯片是专门为规避2022年10月的原始限制而设计的。
对于DeepSeek的工作负载来说,这些芯片的性能与美国市场供应的H100相似。
而目前可出口至中国的最新AI芯片H20,其训练性能较弱,但在部署能力方面依然有显著优势。
H20芯片虽在训练用途上受限,但未被完全管制,且在前沿AI部署(特别是存储器密集型的工作负载,例如长上下文推理)中仍具有高度效能。
这一点尤其重要,因为近期趋势显示测试阶段计算、合成数据生成及强化学习愈加依赖存储器,而非计算能力。
鉴于2024年12月对高带宽存储器出口的限制,H20芯片的持续可用性应被关注,特别是在部署计算愈发成为AI能力核心的情况下。
🔥 2)硬件出口管制存在时间滞后,尚未完全发挥作用。
请记住:这一切都假设出口管制能完美运作——但实际上并非如此。
我们已经见过半导体管制中存在大量漏洞,且有可靠报告显示大规模芯片走私进入中国的情况。
虽然「扩散框架」(Diffusion Framework)应能弥补部分漏洞,但实施仍是关键挑战。([JS:当然,西方云端资源的可用性问题依然存在……])
中国目前仍在运行限制前建造的数据中心,这些中心拥有数万颗芯片,而美国公司则在建设拥有数十万颗芯片的数据中心。
真正的考验将在这些数据中心需要升级或扩建时到来——对于美国企业来说这将更为容易,而对受美国出口管制的中国公司则是挑战。
如果下一代模型的训练需要10万颗芯片,出口管制将对中国的前沿模型开发产生重大影响。
然而,即使没有这种规模化需求,管制也会透过降低部署能力、限制公司成长以及限制合成训练与自我对弈的能力,对中国的AI生态系统造成影响。
🔥 3) 事实上,DeepSeek V3 的训练所使用的计算资源较少并不令人意外:机器学习算法随时间推进总是变得更便宜。
但同样的效率提升,让像 DeepSeek 这样的小型参与者能够获得特定能力(“可及性效应”),也可能让其他公司能够利用更大的计算集群建造更强大的系统(“性能效应”)。
我们应该庆幸 DeepSeek 使用了 2,000 颗 H800 芯片来训练其 V3 模型,而不是 200,000 颗 B200 芯片(Nvidia 最新一代的产品)。
🔥 4)他们的时机选择具有战略意图,但技术是真实的。
R1 模型于上周特朗普总统就职典礼期间发布,显然是为了在美国政策关键时刻动摇公众对美国 AI 领导地位的信心,这与在前商务部长雷蒙多访华期间推出产品的情况类似。毕竟,r1 的基准测试结果早在去年 11 月就已经公开。
这种经过计算的公关时间安排不应掩盖两个事实:
DeepSeek 的技术进展以及它们目前和未来将愈发面临的出口管制结构性挑战。
🔥 5)出口管制对单一训练运行的影响较难,但对整个生态系统的影响较容易。
关键是,对最先进芯片的限制可以有效遏制大规模 AI 部署(例如,让大量用户使用 AI 服务)和能力提升。AI 公司通常将 60-80% 的计算资源花在部署上——即便是在计算密集型推理模型兴起之前。
限制计算资源的可用性将提高中国 AI 的成本,限制其广泛部署,并抑制系统能力的提升。
值得注意的是,部署计算不仅仅是为用户提供服务——它对生成合成训练数据、通过模型互动实现能力反馈循环以及建造、扩展和提炼更好的模型都至关重要。
例如,Gwern 最近的评论指出,部署计算在用户服务之外扮演了重要角色。
像 OpenAI 的 o1 模型这样的系统被用来为未来的模型生成高质量的训练数据,形成一个反馈循环,在其中部署能力直接增强了开发能力和效率。
🔥 6)DeepSeek 的效率提升可能得益于先前能够获得大量计算资源。
有悖常理的是,实现更少芯片使用的道路(即“效率”)可能需要先拥有更多的资源。
DeepSeek 曾运营亚洲首个拥有 10,000 颗 A100 的集群,据报导目前拥有一个 50,000 颗 H800 的集群,并且可以无限制地使用中国和外国的云服务提供商(这些不受出口管制影响)。
这种大规模的计算资源极有可能在透过试验和错误开发效率技术以及向客户提供其模型服务方面发挥了重要作用。
最近其他 AI 公司的使用量激增导致服务中断,尽管它们拥有更大的计算资源。
DeepSeek 是否能应对类似的激增仍未经测试,而在计算资源有限的情况下,他们将面临困难。
(Sam Altman 甚至声称他们目前在 ChatGPT Pro 计划上处于亏损状态。)
虽然他们的 R1 模型展现了令人印象深刻的效率,但其开发过程需要大量的计算资源来生成合成数据、提炼以及进行实验。
🔥 7)美中之间的计算能力差距——因出口管制进一步扩大——仍是 DeepSeek 的主要限制。
尽管取得了效率提升,DeepSeek 的领导层公开承认他们在计算能力上存在 4 倍的劣势。
DeepSeek 创始人梁文峰表示:「这意味着我们需要两倍的计算能力才能达到相同的结果。此外,我们在数据效率上还存在约两倍的差距,这意味着我们需要两倍的训练数据和计算能力才能达到可比的成果。综合起来,这需要四倍的计算能力。」
他补充道:「我们短期内没有融资计划。我们的问题从来不是资金,而是对高端芯片的禁运。」
🔥 8)美国领先公司将其最佳能力保密,这意味着公开的基准测试无法完整反映 AI 的进展。
呵呵…丑国丑起来一点不揺碧莲
夺人钱财,如杀人父母。无论友敌,竞争烈度高到一定程度,肯定是要上政治手段的
美国现在就是赤裸裸的,利用之前积攒下来的美元霸权、科技霸权,打压竞争对手
~~~~~~~
Rhodium 高级分析师谈 DeepSeek,值得看看
总之一句话,要加强制裁
更搞笑的是这人也是阴谋论:“R1 模型于上周特朗普总统就职典礼期间发布,显然是为了在美国政策关键时刻动摇公众对美国 AI 领导地位的信心”
Jordan Schneider简介:一位专注于中国科技、政治和经济领域的专家,曾任职于快手、桥水、以及政治风险咨询公司欧亚集团(Eurasia Group),研究成果发表在《外交事务》(Foreign Affairs)、《外交政策》(Foreign Policy)、《连线》(Wired)和《Lawfare》等知名媒体上
~~~~~~~~~~~~
正文如下:
最近对DeepSeek AI模型的报导,主要聚焦于其在基准测试中的优异表现及效率提升。尽管这些成就值得肯定,且具有政策层面的意涵(见下文),有关计算资源、出口管制和AI发展的故事比许多报导所描述的更加复杂。以下是一些值得更多关注的重点:
🔥 1)对AI芯片的真正出口限制仅从2023年10月开始,因此有关限制无效的说法为时过早。
DeepSeek的训练使用的是Nvidia H800芯片,这些芯片是专门为规避2022年10月的原始限制而设计的。
对于DeepSeek的工作负载来说,这些芯片的性能与美国市场供应的H100相似。
而目前可出口至中国的最新AI芯片H20,其训练性能较弱,但在部署能力方面依然有显著优势。
H20芯片虽在训练用途上受限,但未被完全管制,且在前沿AI部署(特别是存储器密集型的工作负载,例如长上下文推理)中仍具有高度效能。
这一点尤其重要,因为近期趋势显示测试阶段计算、合成数据生成及强化学习愈加依赖存储器,而非计算能力。
鉴于2024年12月对高带宽存储器出口的限制,H20芯片的持续可用性应被关注,特别是在部署计算愈发成为AI能力核心的情况下。
🔥 2)硬件出口管制存在时间滞后,尚未完全发挥作用。
请记住:这一切都假设出口管制能完美运作——但实际上并非如此。
我们已经见过半导体管制中存在大量漏洞,且有可靠报告显示大规模芯片走私进入中国的情况。
虽然「扩散框架」(Diffusion Framework)应能弥补部分漏洞,但实施仍是关键挑战。([JS:当然,西方云端资源的可用性问题依然存在……])
中国目前仍在运行限制前建造的数据中心,这些中心拥有数万颗芯片,而美国公司则在建设拥有数十万颗芯片的数据中心。
真正的考验将在这些数据中心需要升级或扩建时到来——对于美国企业来说这将更为容易,而对受美国出口管制的中国公司则是挑战。
如果下一代模型的训练需要10万颗芯片,出口管制将对中国的前沿模型开发产生重大影响。
然而,即使没有这种规模化需求,管制也会透过降低部署能力、限制公司成长以及限制合成训练与自我对弈的能力,对中国的AI生态系统造成影响。
🔥 3) 事实上,DeepSeek V3 的训练所使用的计算资源较少并不令人意外:机器学习算法随时间推进总是变得更便宜。
但同样的效率提升,让像 DeepSeek 这样的小型参与者能够获得特定能力(“可及性效应”),也可能让其他公司能够利用更大的计算集群建造更强大的系统(“性能效应”)。
我们应该庆幸 DeepSeek 使用了 2,000 颗 H800 芯片来训练其 V3 模型,而不是 200,000 颗 B200 芯片(Nvidia 最新一代的产品)。
🔥 4)他们的时机选择具有战略意图,但技术是真实的。
R1 模型于上周特朗普总统就职典礼期间发布,显然是为了在美国政策关键时刻动摇公众对美国 AI 领导地位的信心,这与在前商务部长雷蒙多访华期间推出产品的情况类似。毕竟,r1 的基准测试结果早在去年 11 月就已经公开。
这种经过计算的公关时间安排不应掩盖两个事实:
DeepSeek 的技术进展以及它们目前和未来将愈发面临的出口管制结构性挑战。
🔥 5)出口管制对单一训练运行的影响较难,但对整个生态系统的影响较容易。
关键是,对最先进芯片的限制可以有效遏制大规模 AI 部署(例如,让大量用户使用 AI 服务)和能力提升。AI 公司通常将 60-80% 的计算资源花在部署上——即便是在计算密集型推理模型兴起之前。
限制计算资源的可用性将提高中国 AI 的成本,限制其广泛部署,并抑制系统能力的提升。
值得注意的是,部署计算不仅仅是为用户提供服务——它对生成合成训练数据、通过模型互动实现能力反馈循环以及建造、扩展和提炼更好的模型都至关重要。
例如,Gwern 最近的评论指出,部署计算在用户服务之外扮演了重要角色。
像 OpenAI 的 o1 模型这样的系统被用来为未来的模型生成高质量的训练数据,形成一个反馈循环,在其中部署能力直接增强了开发能力和效率。
🔥 6)DeepSeek 的效率提升可能得益于先前能够获得大量计算资源。
有悖常理的是,实现更少芯片使用的道路(即“效率”)可能需要先拥有更多的资源。
DeepSeek 曾运营亚洲首个拥有 10,000 颗 A100 的集群,据报导目前拥有一个 50,000 颗 H800 的集群,并且可以无限制地使用中国和外国的云服务提供商(这些不受出口管制影响)。
这种大规模的计算资源极有可能在透过试验和错误开发效率技术以及向客户提供其模型服务方面发挥了重要作用。
最近其他 AI 公司的使用量激增导致服务中断,尽管它们拥有更大的计算资源。
DeepSeek 是否能应对类似的激增仍未经测试,而在计算资源有限的情况下,他们将面临困难。
(Sam Altman 甚至声称他们目前在 ChatGPT Pro 计划上处于亏损状态。)
虽然他们的 R1 模型展现了令人印象深刻的效率,但其开发过程需要大量的计算资源来生成合成数据、提炼以及进行实验。
🔥 7)美中之间的计算能力差距——因出口管制进一步扩大——仍是 DeepSeek 的主要限制。
尽管取得了效率提升,DeepSeek 的领导层公开承认他们在计算能力上存在 4 倍的劣势。
DeepSeek 创始人梁文峰表示:「这意味着我们需要两倍的计算能力才能达到相同的结果。此外,我们在数据效率上还存在约两倍的差距,这意味着我们需要两倍的训练数据和计算能力才能达到可比的成果。综合起来,这需要四倍的计算能力。」
他补充道:「我们短期内没有融资计划。我们的问题从来不是资金,而是对高端芯片的禁运。」
🔥 8)美国领先公司将其最佳能力保密,这意味着公开的基准测试无法完整反映 AI 的进展。