专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
目录
相关文章推荐
十点读书  ·  别对任何关系上瘾 ·  昨天  
壹读  ·  麦当劳和肯德基“互撕”,谁赢了? ·  3 天前  
51好读  ›  专栏  ›  江大白

马斯克全新发布Grok3模型,坐拥20万张卡的新王!

江大白  · 公众号  ·  · 2025-02-19 08:00

正文

以下 章来源于微信公众号: Datawhale

作者: Datawhale

链接:https://mp.weixin.qq.com/s/yGN6dm5Oz1LHLgk9qIuCtg

本文仅用于学术分享,如有侵权,请联系 台作删文处理

导读
马斯克的 AI 公司 xAI 正式发布 Grok 3,其计算能力比 Grok 2 提升一个数量级,由 10 万颗 H100 GPU 组成的 Colossus 超级计算机 训练完成。Grok 3 在数学、科学和编程基准测试中超越 GPT-4o、Claude 3.5 等主流模型,并推出推理增强版 Grok 3 Reasoning 及智能体 DeepSearch。虽然性能强劲,但实际表现仍需更多测试验证。Grok 3 全功能版预计一周内上线!

昨天,马斯克所说的“地表最强的 AI”终于来了。
在 200 多万人的见证下,马斯克的 AI 公司 xAI 正式推出 Grok 3!
“我们非常高兴能够推出 Grok 3,我们认为,在很短的时间内,它的功能比 Grok 2 强大一个数量级。这要归功于一支不可思议的团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。
插个题外话,为什么取名 Grok,马斯克是这么说的:
Grok 这个词来自罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。这是一个火星词,意思是充分而深刻地理解某事。
Grok 真的以极其 夸张的速度进行迭
而这背后,离不开强大的算力与训练方式。
Grok 3 由 Colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的 10 倍。
同时,在训 练方法上,xAI 采取了一些新的策略来优化 Grok 3 的能力,包括合成数据集、自我纠错机制和强化学习。
xAI 最开始搭建这个 10 万 GPU 集群(全球最大的全连接 H100 集群)用了 122 天,后续拓展到 20 万集群仅用了 92 天。
再摆一个数据:
Grok 3 的算力消耗是 De epSeek-V3 的 263 倍。
马斯克真的凭着钞能力追到了第一梯队。。
就离谱_离谱表情 - 发表情 - fabiaoqing.com
铺垫了这么多,接下来进入正题, 我们来聊一聊 Grok 的能力
根据发布会的顺序:Grok 3、Grok 3 Reasoning、Agents。
一、首先是不带推理能力的 Grok 3。
Grok 3 和 Grok 3 mini 在数学、科学和编程基准测试「AIME'24(一个高水平的数学竞赛)、GPQA(一个研究生水平的科学知识测试)、LCB Oct-Feb(编程能力测试)」上超越了所有主流模型,包括 GPT-4o、Claude 3.5 Sonnet、De epSeek-V3 和 Gemini-2 Pro 等。
二、接下来是带推理能力的 Grok 3 Reasoning。

令人印象最深刻的是一个模拟航天器的任务,生成一 个地球发射、火星着陆以及利用霍曼转移轨道返回地球的动画 3D 代码。

这个问题的难点在于,过程中涉及到了大量数学和物理模型的计算。在此之前,团队从未试过让大模型去计算航天的发射窗口。
Grok 3很快生成了完整可运行的3D动画。 以下是 3D 动画的画面,直观展示了任务过程中,太阳、地球、火星和飞船之间的位置关系。

图片

研究者经过检查后表示:Grok-3 给的答案完全正确!
马斯克还说,这就是SpaceX真正的探索轨道。他充满信心地表示,两年内,地球和火星就会被连接在一起。
在跑分上,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势,最高分 达到 96 分。
图片
在 Chatbot Arena 竞技场, Grok-3 的早期版本(代号“巧克力”)位列第一并成为唯一一个得分超 1400 分的模型。
三、最后是 Agent。
发布会上, 马斯克也推出了基于 Grok 3 的智能体 De epSearch ,和 OpenAI 前不久发布 Deep Research 亿 丢丢相似。
但是在效果上,还是很不一样的,xAI 的侧重搜索,OpenAI 的侧重研究。(或者说 De epSearch 还达不到 Deep Research 的效果
De epSearch 允许用户对互联网和 X 平台进行全面搜索。该模式分析大量信息,并通过快速高效的搜索过程提供详细、合理的答案。
此外,它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自 X 的内容,它会尽量遵守这个要求,因此可控性更强,也更智能。
而 OpenAI 的 Deep Research ,则是 为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。 给它一个提示,ChatGPT 将查找、分析和综合数百个在线资源,以研究分析师的水平创建一份综合报告。
大家不要搞混哈。
根据发布会的介绍来看,Grok 3 好像很牛。
但到底是骡子是马,还得实测来看。
AI 大神 Karpathy 提前拿到了内测资格,带来了 2 小时的深度体验报告。
推理能力
✅ 优点:
  1. Grok 3 的推理模式表现接近顶尖水平。例如,它能完美生成《卡坦岛》风格的六边形棋盘网页代码(根据滑块调整 "环数"),这一任务只有 OpenAI 的高端模型(如每月 $200 的 o1-pro)能稳定完成,而 DeepSeek-R1、Gemini 2.0 Flash 和 Claude 均失败。

  2. 成功估算 GPT-2 的训练算力(需从论文中推算未明确列出的数据):Grok 3 在开启 "思考" 后准确完成,而 GPT-4o 和 o1-pro 均失败。

  3. 敢于尝试解决黎曼猜想(类似 DeepSeek-R1),而其他模型会直接放弃。

❌ 不足:
  • 未能解码通过 Unicode 变体选择器隐藏的 "emoji谜题" (这个问题上最强的是 DeepSeek-R1 ,曾部分成功解码)。

  • 生成简单 井字 棋棋盘 ,思路相当清 晰(许多最先进的模型通常会失败! )。 但在提高难度之后, 生成复杂井字棋棋盘时出现错误(o1-pro 也失败了)。

Agent:DeepSearch
✅ 优点:
综合搜索与推理,回答质量接近 Perplexity 的 DeepResearch
❌ 不足:
  1. 拒绝默认引用 X(推特)内容,需手动要求。

  2. 偶尔会出现虚构的链接或错误陈述。

  3. 要求 它创建一份关于 LLM 的主要实验室及其总资金和员工数量估算的报告时 ,漏掉自家公司 xAI。(这点有点搞笑了,最搞笑的是 OpenAI 的智能体也没有加 xAI,孽缘啊。。)

最后,Karpathy 给出的评价是:Grok-3 + Thinking 表现似乎达到了与 o1 Pro相当的水平,并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

在发文前,X 上的一位网友验证出了 Grok 3 可以解码 emoji 谜题,也收到了 AK 大神的点赞。







请到「今天看啥」查看全文