一、Grok3 震撼发布
马斯克的"AI 超算工厂"落地
2025 年 2 月 18 日,马斯克旗下 xAI 公司正式发布新一代大模型 Grok3,这场耗时 19 个月打造的"算力豪赌"引发全球关注。
在发布会上,马斯克携三位核心成员(包括两位华人科学家 Jimmy Ba 和吴宇怀)演示了 Grok3 的太空轨道计算、游戏开发等能力,并宣布成立 AI 游戏工作室。
作为首个在 20 万张 H100 集群上训练的大模型,Grok3 不仅推出满血版和 mini 版,还搭载了新型搜索引擎 DeepSearch 和"思维链"推理功能。
其订阅模式分为 X 平台 Premium+会员(优先体验)和独立订阅 SuperGrok(30 美元/月),语音模式因技术问题推迟一周上线。
二、性能屠榜
数学推理碾压竞品,竞技场首破 1400 分
Grok3 在多项基准测试中展现统治级表现:
-
数学能力
:在 2024 美国数学邀请赛(AIME)中斩获 93 分,远超 DeepSeek-V3(39 分)和 GPT-4o(85 分)
-
科学推理
:GPQA 测试 75 分,超越 Gemini 2 Pro(68 分)
-
编码能力
:LCB 测试 57 分,较 DeepSeek-V3 提升 58%
-
竞技场评分
:以 1402 分成为首个突破 1400 分的模型,较前代 Grok2 提升近 10%
更令人瞩目的是其"测试时计算"能力:开启"Big Brain"模式后,模型可调用额外算力进行深度思考。在火星返回轨道计算任务中,Grok3 通过数值求解开普勒定律生成精确 3D 动画代码,而同类模型生成的代码"飞船根本未靠近火星"。
三、Karpathy 亲测:
推理达 SOTA,但存在致命短板
AI 领域权威 Andrej Karpathy 获得早期体验资格后,给出深度评测:
-
亮点
:成功生成《卡坦岛》风格的六边形棋盘游戏代码,推理水平与 OpenAI 顶级模型 o1-pro(月费 200 美元)相当,物理模拟测试效果媲美 o3-mini
-
短板
:未能破解"表情符号谜题"(隐藏 Unicode 信息解码),而 DeepSeek-R1 曾部分破译
-
综合评价
:"考虑到 xAI 仅用 19 个月从零起步,Grok3 的成就堪称奇迹"
四、20 万 GPU 打造"算力巨兽",
训练成本碾压 GPT-4
xAI 团队在发布会上透露,Grok 3 背后有 20 万张英伟达 GPU 、4 亿个 GPU 小时的超强算力支持。
-
硬件规模
:分两阶段建成 20 万张 H100 集群,首阶段 10 万卡耗时 122 天,扩建至 20 万卡仅用 92 天
-
算力对比
:相当于 GPT-4 训练算力的 12.8 倍(GPT-4 等效 15,625 块 H100),DeepSeek 算力的 7.2 倍
-
能耗惊人
:数据中心峰值功耗达 250 兆瓦,采用特斯拉 Megapack 供电和液冷系统
这场"暴力计算"引发行业震动,当 OpenAI 用 2.5 万块 A100 训练 GPT-4 时,xAI 用 20 万块 H100 验证了 Scaling Law 的持续有效性,但算力翻数倍仅带来不足 10% 的性能提升,也引发"边际效益递减"的质疑。