专栏名称: 程序员的那些事
最有影响力的程序员自媒体,关注程序员相关话题:IT技术、IT职场、在线课程、学习资源等。
目录
相关文章推荐
待字闺中  ·  DeepSeek 爆火带来的大变化 ·  6 天前  
程序猿  ·  TCP 才不傻! ·  2 天前  
程序猿  ·  问问DeepSeek,你和ChatGPT谁厉 ... ·  昨天  
程序员的那些事  ·  马斯克狂吹的 Grok 3 ... ·  2 天前  
程序员的那些事  ·  字节用 8266.8 ... ·  5 天前  
51好读  ›  专栏  ›  程序员的那些事

马斯克狂吹的 Grok 3 终于发布了:性能屠榜,算力碾压 DeepSeek 与 OpenAI

程序员的那些事  · 公众号  · 程序员  · 2025-02-18 20:46

正文

一、Grok3 震撼发布

马斯克的"AI 超算工厂"落地

2025 年 2 月 18 日,马斯克旗下 xAI 公司正式发布新一代大模型 Grok3,这场耗时 19 个月打造的"算力豪赌"引发全球关注。

在发布会上,马斯克携三位核心成员(包括两位华人科学家 Jimmy Ba 和吴宇怀)演示了 Grok3 的太空轨道计算、游戏开发等能力,并宣布成立 AI 游戏工作室。

作为首个在 20 万张 H100 集群上训练的大模型,Grok3 不仅推出满血版和 mini 版,还搭载了新型搜索引擎 DeepSearch 和"思维链"推理功能。

其订阅模式分为 X 平台 Premium+会员(优先体验)和独立订阅 SuperGrok(30 美元/月),语音模式因技术问题推迟一周上线。


二、性能屠榜

数学推理碾压竞品,竞技场首破 1400 分

Grok3 在多项基准测试中展现统治级表现:

  • 数学能力 :在 2024 美国数学邀请赛(AIME)中斩获 93 分,远超 DeepSeek-V3(39 分)和 GPT-4o(85 分)
  • 科学推理 :GPQA 测试 75 分,超越 Gemini 2 Pro(68 分)
  • 编码能力 :LCB 测试 57 分,较 DeepSeek-V3 提升 58%
  • 竞技场评分 :以 1402 分成为首个突破 1400 分的模型,较前代 Grok2 提升近 10%

更令人瞩目的是其"测试时计算"能力:开启"Big Brain"模式后,模型可调用额外算力进行深度思考。在火星返回轨道计算任务中,Grok3 通过数值求解开普勒定律生成精确 3D 动画代码,而同类模型生成的代码"飞船根本未靠近火星"。


三、Karpathy 亲测:

推理达 SOTA,但存在致命短板

AI 领域权威 Andrej Karpathy 获得早期体验资格后,给出深度评测:

  • 亮点 :成功生成《卡坦岛》风格的六边形棋盘游戏代码,推理水平与 OpenAI 顶级模型 o1-pro(月费 200 美元)相当,物理模拟测试效果媲美 o3-mini
  • 短板 :未能破解"表情符号谜题"(隐藏 Unicode 信息解码),而 DeepSeek-R1 曾部分破译
  • 综合评价 :"考虑到 xAI 仅用 19 个月从零起步,Grok3 的成就堪称奇迹"

四、20 万 GPU 打造"算力巨兽",

训练成本碾压 GPT-4

xAI 团队在发布会上透露,Grok 3 背后有 20 万张英伟达 GPU 、4 亿个 GPU 小时的超强算力支持。

  • 硬件规模 :分两阶段建成 20 万张 H100 集群,首阶段 10 万卡耗时 122 天,扩建至 20 万卡仅用 92 天
  • 算力对比 :相当于 GPT-4 训练算力的 12.8 倍(GPT-4 等效 15,625 块 H100),DeepSeek 算力的 7.2 倍
  • 能耗惊人 :数据中心峰值功耗达 250 兆瓦,采用特斯拉 Megapack 供电和液冷系统

这场"暴力计算"引发行业震动,当 OpenAI 用 2.5 万块 A100 训练 GPT-4 时,xAI 用 20 万块 H100 验证了 Scaling Law 的持续有效性,但算力翻数倍仅带来不足 10% 的性能提升,也引发"边际效益递减"的质疑。







请到「今天看啥」查看全文