粉碎摩尔定律后，黄仁勋又要打破 Scaling Law 的墙

APPSO · 公众号 · app · 2025-03-19 14:02

正文

刚刚击破摩尔定律的英伟达，却要撞上 scaling laws 的墙？

相当一部分评论家和分析师是这么认为的。即便你不同意，也不能怪他们，毕竟在英特尔的身上，大家刚刚目睹了摩尔定律似乎「失效」了。

在最近两次财报电话会议（25Q3、Q4）中，每次都有不止一位分析师向英伟达 C-level 抛出同一类问题：神经网络的 scaling law 是否不再起到作用了？

他们真正想问的是：英伟达还能否续写连续两个财年的疯狂增长？

这就是在业界甚嚣尘上的 scaling law 撞墙猜测。 简而言之，机器学习的 scaling law 的指的是随着模型大小（参数量）、数据集、训练成本这三大要素的提升，大模型的性能也会有所提升（具体细节不展开）。

而许多分析师看到 DeepSeek 震惊世界的成果之后，得出一种新的猜测，认为进一步训练天量参数和超大数据集的大语言模型的意义没那么大了，蒸馏现有超大模型的性能也很不错，完全事半功倍。

而放在英伟达的语境下，考虑到它是 GPT 技术催生和领导的大语言模型爆发的最大受益者，最近连续几个季度的收入又过分严重依赖数据中心；现在大模型的蒸馏新玩法出现，似乎不再需要那么多 Hopper、Blackwell，以及英伟达早已画好路线图的新架构显卡，进而直接导致英伟达图形计算方案产品的市场需求从高位滑落，最近两个财年的疯长神话不再续写。

CEO 黄仁勋理解这种「恐慌」，毕竟公司股票在过去一年里给太多人赚了太多钱。但他不理解人们为什么会有 scaling law 不再适用的想法。

在和软银创始人孙正义的谈话中，黄仁勋提到，只要投入足够的计算资源，采用更复杂的算法，AI 的智能水平还能够继续提升。上一财务季度的电话会议里，黄仁勋又提出了一个关于 scaling law 的新思考框架，具体来说有三个部分：预训练 scaling、后训练 scaling、推理 (包括模型推理 inference 和思维推理 reason）scaling。

而在今天的英伟达 Geforce 技术大会（GTC）上，他进一步阐释了这个新的 scaling law 框架：

通过 DeepSeek，人们用上了能够推理 (reason)，具有思维链的 AI。这和 ChatGPT 有本质的区别。ChatGPT 回答很多复杂问题的时候答案都是错的，因为答案是一次性生成的，token 是一个接一个吐出来的。

而现在 AI 能够推理，每个 token 都返回到上一步重新处理，一次又一次的重复，最终形成一个思维链 (chain of thought)」

「我们不只是 token 吞吐量 提升了 10 倍，同时也需要 10 倍更快的计算（注：中和更多 token 消耗的时间）。最后的结果是，我们需要 10 x 10 = 100 倍更多的算力！」

事实上在黄仁勋看来，任何人如果理解计算机科学领域的最基本悖论——延迟和吞吐量——就不会说出 scaling law 不再适用那些话。

在基于强化学习，具有思维链 (chain of thoughts) 能力的大模型的推理过程中，每个新 token 都会在产生之后不断地被送回上一步重新处理，用黄仁勋自己的比喻叫做「token 的自我怀疑」。他说，「如果你想要聪明的 AI，你就需要高效率地生成 token。如果你花了太长的时间去生成这些 token，你的客户最后就不用你了。所以你的 token 速度很重要。」

为了证明自己的观点，黄仁勋拿出传统大语言模型代表 Llama 3.3 70B 和 DeepSeek R1 671B（37B 激活），让它们回答同一个复杂问题。

前者生成了 439 个 token，但给出的答案根本没法用，黄仁勋说「400 多个 token 白白浪费了」。后者打开了标志性的「深度思考」模式，结果生成了高达 8559 个 token，得到的答案令人满意。

但和所用算力相比，答案满意与否已经没那么重要了：

具有思维链的 R1 推理模型的 token 吞吐量 是传统模型 20 倍，现场演示的用时也比传统模型长了两倍，即便如此都要用到 150 倍的算力。如果换做消费级使用场景下，想要在足够快、能留住用户的时间窗口内，输出经过深思熟虑的可靠结果，需要的算力只会成倍增加。

怎么训练的模型也不太重要了。模型想要在真正的商业和消费应用中高效地进行推理/思考，同样需要大量的算力。早在之前的财报会上黄仁勋就说过，人们目前看得见和用得上的消费级产品，比如搜索、生成、推荐功能，还只是大模型能力的九牛一毛。未来的推理/思考型模型将要消耗掉的算力，将令人难以置信。

他不得不在自己的主场 GTC 上，完整展现自己对于这件事的「思维链」，甚至在台上疯狂做数学题，算 token 秒速、单机架功耗，再把它们合到一起算出每兆瓦秒 token 吞吐性能，推导出新架构产品能让客户多赚多少钱。发布会两个多小时的观感，70% 说服分析师，30% 面向开发者和企业伙伴。

黄仁勋的技术前瞻性的确独一无二，特别是带领公司研发 CUDA 技术走上 GPGPU 道路，使得基于图形计算架构的通用加速计算成为可能。而我们也看到了早年的这些决策，在最近两年里以数据中心业务的形态贡献了英伟达高达 90% 的收入，帮助公司实现高达 56% 的净利润。

但归根结底，黄仁勋是图形加速计算布道者，更是显卡销冠。他需要继续不遗余力地抬高英伟达驱动的 GPU 数据中心——2025 年已经换了一个新名字，叫做 AI 工厂——在企业客户心目中的价值认知和必要性心智，才能续写英伟达的股价神话。

粉碎摩尔定律后，黄仁勋又要打破 Scaling Law 的墙

正文

请到「今天看啥」查看全文