马斯克狂吹的 Grok 3 终于发布了：性能屠榜，算力碾压 DeepSeek 与 OpenAI

程序员的那些事 · 公众号 · 程序员 · 2025-02-18 20:46

正文

2025 年 2 月 18 日，马斯克旗下 xAI 公司正式发布新一代大模型 Grok3，这场耗时 19 个月打造的"算力豪赌"引发全球关注。

在发布会上，马斯克携三位核心成员（包括两位华人科学家 Jimmy Ba 和吴宇怀）演示了 Grok3 的太空轨道计算、游戏开发等能力，并宣布成立 AI 游戏工作室。

作为首个在 20 万张 H100 集群上训练的大模型，Grok3 不仅推出满血版和 mini 版，还搭载了新型搜索引擎 DeepSearch 和"思维链"推理功能。

其订阅模式分为 X 平台 Premium+会员（优先体验）和独立订阅 SuperGrok（30 美元/月），语音模式因技术问题推迟一周上线。

Grok3 在多项基准测试中展现统治级表现：

更令人瞩目的是其"测试时计算"能力：开启"Big Brain"模式后，模型可调用额外算力进行深度思考。在火星返回轨道计算任务中，Grok3 通过数值求解开普勒定律生成精确 3D 动画代码，而同类模型生成的代码"飞船根本未靠近火星"。

AI 领域权威 Andrej Karpathy 获得早期体验资格后，给出深度评测：

亮点：成功生成《卡坦岛》风格的六边形棋盘游戏代码，推理水平与 OpenAI 顶级模型 o1-pro（月费 200 美元）相当，物理模拟测试效果媲美 o3-mini
短板：未能破解"表情符号谜题"（隐藏 Unicode 信息解码），而 DeepSeek-R1 曾部分破译
综合评价 ："考虑到 xAI 仅用 19 个月从零起步，Grok3 的成就堪称奇迹"

xAI 团队在发布会上透露，Grok 3 背后有 20 万张英伟达 GPU 、4 亿个 GPU 小时的超强算力支持。

这场"暴力计算"引发行业震动，当 OpenAI 用 2.5 万块 A100 训练 GPT-4 时，xAI 用 20 万块 H100 验证了 Scaling Law 的持续有效性，但算力翻数倍仅带来不足 10% 的性能提升，也引发"边际效益递减"的质疑。