专栏名称: 豹变

直抵核心。做最具穿透力、洞察力的商业观察，深度影响未来。

反击梁文锋，马斯克的“半成品”够格吗？

豹变 · 公众号 · 科技创业科技自媒体 · 2025-02-19 17:41

主要观点总结

本文报道了马斯克旗下人工智能公司xAI举办的直播活动，介绍了新一代模型Grok 3的发布和相关功能特点。文中提到Grok 3在多项基准测试中表现优秀，具备强大的推理能力，并且展示了DeepSearch功能等亮点。同时，文章还提到了xAI的发展迅猛，以及马斯克对于AI领域的竞争态势和xAI的未来规划。

关键观点总结

关键观点1: Grok 3在多项基准测试中表现出色，展现了强大的推理能力。

文章中详细描述了Grok 3的功能和特点，包括在AIME和GPQA等基准测试中的优秀表现，以及推理模型的优势等。

关键观点2: xAI发展迅猛，Grok 3的发布标志着公司在AI领域的进一步突破。

文章提到了xAI自成立以来的发展速度和成就，以及Grok 3的发布对于公司的重要意义。

关键观点3: 马斯克对于AI领域的竞争态势和xAI的未来规划表达了关切和期待。

文章提到了马斯克在直播中的表现和言论，包括对于竞争态势的评估、对于xAI未来的期待以及对于特斯拉接入Grok的回应等。

正文

作者 | 毕安娣

编辑 | 赵晋杰

起猛了，差点分不清马斯克和奥特曼。

北京时间2月18日中午，马斯克旗下人工智能公司xAI搞了一场直播，进行新一代模型Grok 3的介绍和现场演示。

气氛很轻松，马斯克和xAI团队的三名成员，围坐在一张小桌前，背后是用来展示的大屏幕。不管是这个形式，还是这个画面，都让人联想到OpenAI。只不过xAI走的是暗黑极客风，OpenAI则是温馨家居风。

这倒也不奇怪，毕竟马斯克从创办xAI伊始，就死死盯住OpenAI的背影狂追。

而看起来小小的发布会，在一个小时的时间里实则杀机满满：

*Grok 3在多项基准测试中，击败了竞争对手，包括DeepSeek的V3和OpenAI的GPT-4o；*推出名为“DeepSearch”的智能搜索引擎，由推理模型Grok 3 Reasoning和Grok 3 mini Reasoning驱动；

*Grok 3将显示详细的思维链，和DeepSeek R1和OpenAI的o3-mini相似；*将“尽快”加入语音模式。

xAI的发展迅猛，2023年7月成立，11月就发布了首个大模型Grok。次年5月，xAI完成60亿美元B轮融资，12月又宣布完成60亿美元C轮融资，估值超过400亿美元。

从去年9月，xAI建成包含10万张英伟达H100的集群Colossus开始，外界就在期待xAI的下一代大模型的发布。从去年年底，“跳票”到今年年初，外界又多了新的变数，一边是OpenAI开启算力基础建设的“星际之门”，一边是DeepSeek掀起低成本推理模型热潮，Grok 3的发布顶着巨大的压力。

在Grok 3发布之前，马斯克做足了预热，称其“聪明得吓人”“（是）最聪明的AI”，但从发布会来看，xAI尚未结束追赶态。马斯克的AI路，还未到一马平川之境。

就在马斯克鼓足热情发布Grok 3之际，奥特曼也暗戳戳来抢热度，在X（推特前身）上发起投票，询问网友对于OpenAI下一个开源项目的看法，是做一个相当小但仍需要在GPU上运行的o3-mini级模型更有用，还是做一个能做得最好的手机大小的端侧模型更有用。

超3万名参与投票的网友中，超过一半的票投向了端侧模型。毕竟，赶在奥特曼前面，大热的DeepSeek，已经抢先掀起了一波在智能手机和新能源汽车等终端，部署端侧模型的浪潮。

Grok 3发布会之前，外界也很关心特斯拉汽车是否会接入Grok。1月初，马斯克曾经给出肯定的回答，称Grok会登陆特斯拉。但可惜的是， 本次发布会中，马斯克并未回应特斯拉接入Grok的相关问题。

发布会一开始，xAI就着重谈了谈Grok 3背后的Colossus超算。

该超算包含10万张英伟达H100芯片，建立仅用三个月，是马斯克的一大“伟业”。连黄仁勋都表示，这堪称“奇迹”。

在发布会上，xAI表示训练进行到第92天时， 集群的规模拓展到了20万张芯片。 这是该消息首次被披露。

得益于新计算集群，马斯克在直播演讲表示：“Grok 3 的能力比 Grok 2 高出10倍。”

据xAI介绍，Grok 3 在包括 AIME（评估模型在数学问题样本上的表现）和 GPQA（使用博士级物理、生物和化学问题评估模型）在内的基准测试中胜过 GPT-4o。此外，Grok 3的早期版本在Chatbot Arena中也获得了有竞争力的分数，是有史以来第一个突破1400分的模型。这是一项众包测试，让不同的 AI 模型相互竞争，并让用户投票选出他们喜欢的答案。

准确地说，Grok 3是一系列模型。

Grok 3的较小版本Grok 3 mini可以更快地回答问题，但会牺牲一些准确性。

另外两个版本 Grok 3 Reasoning和Grok 3 mini Reasoning， 旨在仔细“思考”问题然后再提供解决方案，类似于OpenAI的o3-mini和DeepSeek的 R1 等“推理”模型。

推理模型在给出结果之前会彻底检查自己，这有助于它们避免通常会绊倒模型的一些陷阱。

xAI表示，Grok 3 Reasoning在几个流行的基准测试中超越了OpenAI的o3-mini的最佳版本——o3-mini-high，其中包括一个名为AIME 2025的较新的数学基准测试。

推理模型可通过 Grok 应用程序访问。用户可以要求 Grok 3“思考（Think）”，或者利用“大脑（Big Brain）”模式进行推理，该模式需要额外的计算。xAI 认为推理模型最适合数学、科学和编程相关的问题。

另一个明显冲着OpenAI和DeepSeek来的是“DeepSearch”， 直译是“深度搜索”。这是一个AI代理，由xAI的推理模型驱动，扫描互联网和X平台来分析信息。演示显示，DeepSearch包含研究、头脑风暴和数据分析等选项，会展示“思考”过程和计划响应的方式。

就在两周前，OpenAI推出AI代理“DeepResearch”，直译“深度研究”。

与 DeepSeek R1和现在的OpenAI o3-mini 一样，Grok 3将显示详细的思维链，让用户可以看到聊天机器人是如何思考问题的。马斯克证实，xAI 会稍微模糊思维，这样其他公司就不能直接复制xAI的聊天机器人。

顺带一提，马斯克表示，在 Grok 应用中，推理模型的一些“想法”被模糊化，以防止“蒸馏”，即AI模型开发人员从另一个模型中提取知识的方法。最近，DeepSeek 被指控蒸馏 OpenAI 的模型来创建自己的模型。

当然啦，新产品还是得 “会员抢先用”。

X的Premium+级别的订户将首先获得 Grok 3，其他功能则由xAI的新计划SuperGrok提供。SuperGrok 的价格为每月30美元或每年300美元，可解锁额外的推理和 DeepSearch 查询，并提供无限的图像生成。