专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
51好读  ›  专栏  ›  Dots机构投资者社区

从零到 Grok 3:马斯克的算力赌局赢了

Dots机构投资者社区  · 公众号  ·  · 2025-02-22 08:15

正文

图源: thairath. co

实践一个生成科技文的新方法:先做研究,然后选定参考阅读,最后确定主题让 AI 来根据研究结论和参考文章写限定长度的报道文。这个和平时自己阅读找灵感,再做研究组织新思路写文章的方法类似,只不过通过 AI 把研究和阅读参考都自动化加速了!

本文通过 Grok 自己的 Research 和 Think 功能完成研究和参考解读,最后的文章 Grok 自动生成,做了少许重复内容的修改,估计因为字数限制造成的。



Grok 3:AI 竞赛的新玩家与不变的教训


AI 的发展速度快得让人喘不过气。几年前,我们还在为 ChatGPT 的出现而惊叹;现在,Grok 3 的发布已经让这场竞赛的热度达到了新的巅峰。xAI 团队在短短两年内从零开始,推出了一款在多个基准测试中与 OpenAI、Google DeepMind 和 Anthropic 等巨头比肩的模型。这不仅是对 xAI 的一次胜利,更是对 「苦涩的教训」 The Bitter Lesson 的一次有力证明 —— 在 AI 领域,算力的规模化往往比人为的巧妙设计更能推动进步。

但这场竞赛远未结束。Grok 3 的成功并不意味着 xAI 已经超越了 OpenAI 或 Anthropic。竞争正在加剧,环境影响和可持续性问题也日益凸显。AI 的未来将取决于算力的可持续性、后训练技术的进一步优化,以及我们如何平衡技术进步与环境责任。


#01

xAI 与 Grok 的崛起

xAI 由埃隆·马斯克于 2023 年 3 月创立,目标是“理解宇宙的真正本质” - 。团队由来自 Google DeepMind、OpenAI 和 Microsoft 的顶尖专家组成,包括首席工程师 Igor Babuschkin 和顾问 Dan Hendrycks。Grok 是 xAI 开发的 AI 聊天机器人,采用 Mixture of Experts (MoE) 架构,最新版本 Grok 3 于 2025 年 2 月发布,声称在多项基准测试中超越了 OpenAI 的 GPT-4o 以及其最新的推理模型 o1.

Grok 的发展历程体现了 AI 领域的快速迭代:

  • Grok-1 (2023 年 11 月):3140 亿参数,64 层,8 个专家模型。

  • Grok-1.5 (2024 年 3 月):提升推理能力,上下文长度达 128,000 tokens。

  • Grok-2 (2024 年 8 月):进一步提升推理和多语言支持。

  • Grok-3 (2025 年 2 月):使用 Colossus 超级计算机训练,配备 10 万至 20 万 NVIDIA H100 GPU。

Grok 的独特之处在于它的幽默感和通过 X 平台获取实时信息的能力,以及较少受限的回答风格。但更重要的是,Grok 3 的成功离不开 xAI 在算力上的巨大投入。xAI 在孟菲斯建造的 Colossus 超级计算机,配备了 10 万至 20 万 NVIDIA H100 GPU,为 Grok 3 的训练提供了强大的支持。

Alberto Romero 在他的文章「 Grok 3: Another Win For The Bitter Lesson 」中写道:“Grok 3 的发布是「苦涩的教训」的又一次胜利”。xAI 没有像一些资源有限的公司那样需要极致的优化,而是直接利用大规模的算力来训练模型。xAI 正是通过这种方式,快速追赶上了 AI 领域的领先者。


#02

苦涩教训的胜利:算力胜过优化

「苦涩的教训」是 AI Post-Training 领域专家 Rich Sutton 教授写的一篇知名小短文,他指出在 AI 研究中,长期来看,依赖于更多计算资源的方法往往比依赖于人类设计的特定方法更有效。Grok 3 的成功正是这一教训的最新例证。

DeepSeek 是一个有趣的对比案例,作为一家资源相对有限的初创公司,他们通过优化整个技术栈,成功推出了与 OpenAI o1 性能相当的模型。他们的 CEO 梁文峰承认,美国的出口管制是他们发展模型的主要瓶颈。这表明,即使 DeepSeek 通过巧妙的工程手段取得了成功,但算力的限制仍然是其发展的主要障碍。

Romero 在文章中指出,DeepSeek 的成功并不意味着“优化胜过算力”。恰恰相反,DeepSeek 的案例反而证明了「苦涩的教训」的有效性。DeepSeek 之所以需要极致的优化,是因为他们没有足够的算力。如果他们像 xAI 一样拥有 10 万 H100 GPU,他们的模型性能会更好。DeepSeek 的 CEO 自己都承认了这一点 —— 为什么还有人会认为“GPU 不重要”?

xAI 的情况则完全不同。他们没有像 DeepSeek 那样需要极致的优化,而是直接利用大规模的算力来训练模型。Romero 写道:“如果你有更多的主要资源,你不会浪费时间从次要资源中挤出最后一滴;你会从瀑布中取满一杯。” xAI 正是通过这种方式,快速追赶上了 AI 领域的领先者。

苦涩教训并不是说优化没有价值。它只是指出,当你有选择时,增加算力通常比人为优化更有效。因为算力是可以用钱买到的(至少目前如此),而有效的优化需要罕见的灵感时刻 —— 这些灵感可能今天有效,明天失效,甚至永远无法规模化。所以,如果你遇到瓶颈,与其固执地优化,不如换个方向,继续扩展算力。

DeepSeek 和 xAI 代表了两种不同的路径:DeepSeek 是资源有限下的创新,xAI 是算力充足下的直接突破。两家公司都取得了成功,但 xAI 的处境显然更好。Romero 问道:“DeepSeek 喜欢自己现在的处境吗?还是他们愿意和 xAI 或 OpenAI 交换位置?”答案显而易见。







请到「今天看啥」查看全文