专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

新智元 · 微软20年精炼，全球首个拓扑量子芯片出炉！巴 ... · 20 小时前

爱可可-爱生活 · [CL]《Reasoning on a ... · 昨天

新智元 · 「诺奖风向标」2025斯隆奖公布，清华姚班大 ... · 昨天

新智元 · DeepSeek满血微调秘籍来了，全网首发打 ... · 昨天

爱可可-爱生活 · 【[20星]Awesome-Inferenc ... · 2 天前

51好读 › 专栏 › 新智元

马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

新智元 · 公众号 · AI · 2025-02-18 14:47

正文

新智元报道

编辑：编辑部 HNYZ

【新智元导读】马斯克口中全世界最聪明大模型Grok-3，终于震撼登场！20万块GPU训出的模型，实属全球首次。果然，Grok-3已火速屠榜多个排行榜，击败o3-mini（high）和DeepSeek-R1。

人类史上首个在20万块GPU上训出的模型终于问世！

刚刚，马斯克带队三位xAI成员在线开启直播，官宣Grok-3全家桶——

Grok-3（Beta）、Grok-3 mini

首个推理模型Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：击败o3-mini/DeepSeek-R1，解锁推理时计算

首个AI智能体「DeepSearch」：联网深入搜索

一股OpenAI发布会的味道扑面而来

据介绍，三代Grok的训练计算量竟是Grok-2的10倍，那么实际表现又如何？

世界最大超算集群Colossus已有20万块GPU：10万块GPU同步训练（第一阶段用时122天搭建）；20万GPU（第二阶段用时92天）

在多项基准测试中，Grok-3在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。

在著名大模型LMSYS Arena排行榜中，Grok-3（chocolate终于揭秘）刷榜，Elo评分超1400位列最高，没有任何一个模型能与之相比。

Grok-3的数学能力十分惊人，几乎能完成大部分美国数学专业能力测试的题目。

更令人惊喜的是，Grok-3此次还带来了推理模型——Grok-3 Reasoning，在回答问题时会展示出思维过程。

进入聊天入口，直接选择「Think」模式，即可开启魔法。

此外，还有「Big Brain」模式、智能体「深度搜索」（Deep Search）模式同步上线。

几天前，马斯克曾在预告中放出豪言，「这是地球上最聪明的AI」，此言不虚。

总爱搞点事情的奥特曼，一会儿说GPT-4.5让自己深刻感受到AGI，一会儿又要开源模型全网投票。

甚至有网友提议，不如咱就7:30pm发布GPT-4.5吧！奥特曼：这不太好吧。

奥特曼的这番言论，摆明了是要扰乱军心。据传言，Grok-3发布这一历史性时刻，OpenAI全员观战。

OpenAI前脚发布的o3-mini刚刚击败了R1，如今又被Grok-3追回。不知今晚，GPT-4.5会不会降临？

暴击o3-mini、DeepSeek-R1，解锁测试时计算

有人说，Grok-3是终极的Scaling Law测试，如今看来，事实如此。

从2023年Grok-1首次面世，到Grok-1.5，再到Grok-2逐步迭代，模型推理性能飞速飙升的同时，还吞噬了大量的算力。

Grok-3家族，更是将「测试时计算」发挥到了极致。10万块H100超算，训出的野兽几乎无「模」能敌。

它成为首个Elo评分打破1400的模型，在所有分类测试中位列第一。

在多项基准测试中，推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上，性能均大幅超越o3-mini（high）、o1、DeepSeek-R1，还有Gemi-2 Flash Thinking。

可以说，迄今为止最强「推理模型」，全部败给了Grok-3 Reasoning，可以说，它是名副其实的「世界上最聪明的模型」。

团队表示，允许Grok去进行更长时间的思考和推理。

在最新的数学基准AIME 2025上，Grok-3两款新模型性能同样刷新SOTA，分别拿下了93和90分。

顺便提一句，Grok-3思维链和o3-mini套路一样——防止被偷家xAI掩盖了部分思考过程。

接下来，让我们一睹Grok-3强大的推理能力。

高级推理Think

首先是一个太空飞船任务，生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。

注意，这个问题的难点在于，过程中涉及到了大量数学和物理模型的计算。在此之前，团队从未试过让大模型去计算航天的发射窗口。

在「Think」模式下，可以看到Grok的思维痕迹，甚至可以进去看看Grok在解决问题时到底在想什么。

Grok 3很快生成了完整可运行的3D动画。在代码中，Grok-3数值上求解了开普勒定律。

下图是3D动画的画面，直观展示了任务过程中，太阳、地球、火星和飞船之间的位置关系。

甚至，宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径，这种穿越每26个月发生一次。接下来，我们现在正处于一个过渡窗口期。

研究者经过检查后激动表示：Grok-3给的答案完全正确！

最后马斯克揭开谜底：其实，这就是SpaceX真正的探索轨道。他充满信心地表示，两年内，地球和火星就会被连接在一起。

很快有网友评论，「可以确认，Grok-3强得离谱！」

与之相对比的是，o1、o1-pro、o3-mini（high）全都在这个问题上栽了：生成一段代码，实现从地球发射、登陆火星，然后在下一个发射窗口返回地球的3D动画。

「它们生成的代码能跑是能跑，但很不幸，飞船根本就没靠近过火星，更别说回来了。」该网友表示。

然后团队又让Grok-3制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。

「显然，如果你让AI去创作一款像俄罗斯方块这样的游戏，互联网上有许多例子，或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。

所以，现场他们让Grok-3制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体，这次他们使用了「Big Brain」模式，可以使用更多计算能力的一种模式。

Grok-3随后开始使用python编写代码，可以看出它调用了pygame、random和time这3个库来完成游戏的编写。

代码完成后，Grok-3生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行，虽然游戏逻辑有些随意，但是界面挺美观。

「我们在x.ai准备好成立一个游戏工作室了吗？」演示人员激动地说道，「是的，所以我们正在x.ai启动一个人工智能游戏工作室。」

在此过程中，研究者们讨论道：最好的AI模型，必须像人类一样思考，会去想所有可能的对策和解法，会自我批评、回溯，还会从第一性原理去思考。

甚至，Grok能够了解自己的逻辑和推理过程中的一些失误所在，更正自己的错误，将一些数学推理过程概念化，而现实生活中，也正是这些问题的延伸。

研究者表示，真正令人兴奋的就是，可以用Grok-3去完成现实世界中的任务，比如打造一辆特斯拉，或者去发射火箭。

这正是Grok团队目前正在思考的问题。

深度搜索DeepSearch

没想到，这一次马斯克还带来了Grok-3首个智能体——DeepSearch。

DeepSearch是Grok的第一代智能体，能够在互联网上进行更深入的搜索。

它允许用户对互联网和X平台进行全面搜索。该模式分析大量信息，并通过快速高效的搜索过程提供详细、合理的答案。

此外，它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自X的内容，它会尽量遵守这个要求，因此可控性更强，也更智能。

我们可以问DeepSearch智能体：下一次星舰发射是什么时候？

可以看到，在左边，它展示出了搜索和推理的过程，而在右边，则展示出了深度思考过程，以及模型正在浏览什么样的网址和网页。

最终，智能体给出了答案：25年2月24日。

游戏玩家还可以提问：在Poe 2中最硬核的流派是什么？

除了给出答案——炼狱师召唤流之外，智能体还在回答中给出了如何获得更多武器的攻略。

因此，比起现在普通的搜索引擎，使用Grok智能体能节约更多的时间。

Grok团队表示，从此，或许所有实习生都要失业了，我们需要的只是向大模型下任务。每个月花40美元，就能带来数十亿美元的回报。

马斯克：一周内所有功能上线，几个月内全面开源

所以，Grok-3到底什么时候开放？

对此，马斯克表示，订阅Premium Plus的X用户现在已经可以用上了。

而Grok忠实粉丝则可以单独订阅SuperGrok，从而解锁深度搜索和思考模型等先进功能，并成为早体验新特性的那一波。

全新网址是grok.com，另外App Store里也可以下载了。

马斯克强调，最新版本一定是网页版，App Store里是比较落后的。

目前，Grok-3每天都在更新推理功能，马斯克放话说：一周内，Grok的所有功能都将上线！

传送门：https://grok.com/

Q&A

什么时候出语音助手版？会花一周时间。

Grok-3 API什么时候上线？几周内。

Grok 3语音模式是原生的，还是文本转语音？它是Grok-3的一个变体，能理解你说的话，并且直接生成音频。

请到「今天看啥」查看全文

推荐文章

新智元 · 微软20年精炼，全球首个拓扑量子芯片出炉！巴掌大芯片碾压全球超算

20 小时前

爱可可-爱生活 · [CL]《Reasoning on a Spectrum: Al-20250220060303

昨天

新智元 · 「诺奖风向标」2025斯隆奖公布，清华姚班大神霸榜！8位华人计算机科学家入选

昨天

新智元 · DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

昨天

爱可可-爱生活 · 【[20星]Awesome-Inference-Time-Sca-20250218132956

2 天前

环球时报 · 惊险！第一夫人一个小动作救了特朗普

7 年前

大数据文摘 · 机器学习：如何在安卓上集成TensorFlow

7 年前

这里是美国 · 美国海军南海“丢人”，外国网友的反应亮了

7 年前

乱码 · 瞎了眼！男人模仿女人的自拍竟然是这种鬼！

7 年前

互联网那些事 · 巴菲特、李嘉诚、盖茨、小扎、沈南鹏、孙正义…… 这是他们眼中的未来

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!