Anthropic 的 CEO Dario Amodei 是顶级聪明的人,Claude 也是顶级的模型,但是现在一不小心陷入了地缘政治的牛角尖,写出了一篇充满矛盾的文章。
文章有很多公众号翻译过了,这里直接上点评。
第一,前面评价 DeepSeek V3 是个真正的创新,后面评价 V3 只是跟随成本降低的趋势而已。
“DeepSeek-V3 实际上是一个真正的创新,它在某些重要任务上的表现接近于最先进的美国模型,但训练成本却低得多。”
“Claude 3.5 Sonnet 的训练成本只有几千万美元。现在过了7到10个月了,再训练一个 3.5 Sonnet 只花费三到四分之一的钱也是符合预期的。”
“所以 DeepSeek V3 花几百万美元达到同一水平,充其量也只是跟随趋势,甚至可能连这个都做不到。”
“DeepSeek-V3 并不是一个独特的突破,也不是根本改变LLM经济学的东西;它只是持续成本降低曲线上的一个预期节点。”
他就是说训练成本下降是个必然趋势,只是刚好 V3 猜中了那个点。
第二,他坚决否定了 R1 的创新型和重要性,完全否定了 R1 开源的意义。
“R1 是上周发布的模型,引发了公众的广泛关注(包括 Nvidia 股票价格下降约 17%),但从创新和工程的角度来看,远不如 V3 有趣。”
“它增加了训练的第二阶段——强化学习,并基本上复制了 OpenAI 在 o1 上所做的工作。”
他觉得 R1 只是 o1 的复制,并且认为规律上来说是个巧合,每一家都有可能复制 o1。(虽然 OpenAI都承认了 DeepSeek的独立发现了,但 Claude 还是不承认,不过 Claude 确实也没有做出来,他对这个事情的认知是落后 DeepSeek 的)
它预测接下来每家公司都可以做出来,但理由不是R1开源了,而是规律和趋势如此。
接下来如果 Claude 做出来一个 R1 like 模型, 他是不是会说这是规律如此,趋势到了,跟 R1 开源没关系?
第三点,前面说 DeepSeek 没什么特别的,降低成本就是跟随趋势,后面说 DeepSeek 的显卡数量和支出跟美国公司接近
前面说了 DeepSeek 其实没啥特别的,「它只是持续成本降低曲线上的一个预期节点。」
现在又出来说 DeepSeek 的卡和美国公司差不多,支出也差不多。
“有报道称——虽然我们不能确定这是否真实——DeepSeek 实际上拥有 50,000 个 Hopper 代芯片,
我猜这大约是美国主要 AI 公司拥有的数量的 2-3 倍(例如,它比 xAI 的“巨人”集群少 2-3 倍)
。
这 50,000 个 Hopper 芯片的成本大约为 10 亿美元。
因此,DeepSeek 作为一家公司(与训练单个模型的支出不同)的总支出与美国的 AI 实验室并没有太大差异。
”
在出口管制之下,DeepSeek 能有5万张卡?
到这里就是完全用错误的数据来自我欺骗了。DeepSeek 都有资格跟 xAI 的集群放一起比了。