本文报道了马斯克旗下人工智能公司xAI举办的直播活动,介绍了新一代模型Grok 3的发布和相关功能特点。文中提到Grok 3在多项基准测试中表现优秀,具备强大的推理能力,并且展示了DeepSearch功能等亮点。同时,文章还提到了xAI的发展迅猛,以及马斯克对于AI领域的竞争态势和xAI的未来规划。
文章中详细描述了Grok 3的功能和特点,包括在AIME和GPQA等基准测试中的优秀表现,以及推理模型的优势等。
文章提到了马斯克在直播中的表现和言论,包括对于竞争态势的评估、对于xAI未来的期待以及对于特斯拉接入Grok的回应等。
作者 |
毕安娣
编辑
|
赵晋杰
起猛了,差点分不清马斯克和奥特曼。
北京时间2月18日中午,马斯克旗下人工智能公司xAI搞了一场直播,进行新一代模型Grok 3的介绍和现场演示。
气氛很轻松,马斯克和xAI团队的三名成员,围坐在一张小桌前,背后是用来展示的大屏幕。不管是这个形式,还是这个画面,都让人联想到OpenAI。只不过xAI走的是暗黑极客风,OpenAI则是温馨家居风。
这倒也不奇怪,毕竟马斯克从创办xAI伊始,就死死盯住OpenAI的背影狂追。
而看起来小小的发布会,在一个小时的时间里实则杀机满满:
*Grok 3在多项基准测试中,击败了竞争对手,包括DeepSeek的V3和OpenAI的GPT-4o;*推出名为“DeepSearch”的智能搜索引擎,由推理模型Grok 3 Reasoning和Grok 3 mini Reasoning驱动;
*Grok 3将显示详细的思维链,和DeepSeek R1和OpenAI的o3-mini相似;*将“尽快”加入语音模式。
xAI的发展迅猛,2023年7月成立,11月就发布了首个大模型Grok。次年5月,xAI完成60亿美元B轮融资,12月又宣布完成60亿美元C轮融资,估值超过400亿美元。
从去年9月,xAI建成包含10万张英伟达H100的集群Colossus开始,外界就在期待xAI的下一代大模型的发布。从去年年底,“跳票”到今年年初,外界又多了新的变数,一边是OpenAI开启算力基础建设的“星际之门”,一边是DeepSeek掀起低成本推理模型热潮,Grok 3的发布顶着巨大的压力。
在Grok 3发布之前,马斯克做足了预热,称其“聪明得吓人”“(是)最聪明的AI”,但从发布会来看,xAI尚未结束追赶态。马斯克的AI路,还未到一马平川之境。
就在马斯克鼓足热情发布Grok 3之际,奥特曼也暗戳戳来抢热度,在X(推特前身)上发起投票,询问网友对于OpenAI下一个开源项目的看法,是做一个相当小但仍需要在GPU上运行的o3-mini级模型更有用,还是做一个能做得最好的手机大小的端侧模型更有用。
超3万名参与投票的网友中,超过一半的票投向了端侧模型。毕竟,赶在奥特曼前面,大热的DeepSeek,已经抢先掀起了一波在智能手机和新能源汽车等终端,部署端侧模型的浪潮。
Grok 3发布会之前,外界也很关心特斯拉汽车是否会接入Grok。1月初,马斯克曾经给出肯定的回答,称Grok会登陆特斯拉。但可惜的是,
本次发布会中,马斯克并未回应特斯拉接入Grok的相关问题。
发布会一开始,xAI就着重谈了谈Grok
3背后的Colossus超算。
该超算包含10万张英伟达H100芯片,建立仅用三个月,是马斯克的一大“伟业”。连黄仁勋都表示,这堪称“奇迹”。
在发布会上,xAI表示训练进行到第92天时,
集群的规模拓展到了20万张芯片。
这是该消息首次被披露。
得益于新计算集群,马斯克在直播演讲表示:“Grok 3 的能力比 Grok 2 高出10倍。”
据xAI介绍,Grok 3 在包括 AIME(评估模型在数学问题样本上的表现)和 GPQA(使用博士级物理、生物和化学问题评估模型)在内的基准测试中胜过 GPT-4o。此外,Grok 3的早期版本在Chatbot Arena中也获得了有竞争力的分数,是有史以来第一个突破1400分的模型。这是一项众包测试,让不同的 AI 模型相互竞争,并让用户投票选出他们喜欢的答案。
准确地说,Grok 3是一系列模型。
Grok 3的较小版本Grok 3
mini可以更快地回答问题,但会牺牲一些准确性。
另外两个版本 Grok 3 Reasoning和Grok 3 mini Reasoning,
旨在仔细“思考”问题然后再提供解决方案,类似于OpenAI的o3-mini和DeepSeek的 R1 等“推理”模型。
推理模型在给出结果之前会彻底检查自己,这有助于它们避免通常会绊倒模型的一些陷阱。
xAI表示,Grok 3
Reasoning在几个流行的基准测试中超越了OpenAI的o3-mini的最佳版本——o3-mini-high,其中包括一个名为AIME 2025的较新的数学基准测试。
推理模型可通过 Grok 应用程序访问。用户可以要求 Grok 3“思考(Think)”,或者利用“大脑(Big Brain)”模式进行推理,该模式需要额外的计算。xAI 认为推理模型最适合数学、科学和编程相关的问题。
另一个明显冲着OpenAI和DeepSeek来的是“DeepSearch”,
直译是“深度搜索”。这是一个AI代理,由xAI的推理模型驱动,扫描互联网和X平台来分析信息。演示显示,DeepSearch包含研究、头脑风暴和数据分析等选项,会展示“思考”过程和计划响应的方式。
就在两周前,OpenAI推出AI代理“DeepResearch”,直译“深度研究”。
与 DeepSeek R1和现在的OpenAI
o3-mini 一样,Grok 3将显示详细的思维链,让用户可以看到聊天机器人是如何思考问题的。马斯克证实,xAI 会稍微模糊思维,这样其他公司就不能直接复制xAI的聊天机器人。
顺带一提,马斯克表示,在 Grok 应用中,推理模型的一些“想法”被模糊化,以防止“蒸馏”,即AI模型开发人员从另一个模型中提取知识的方法。最近,DeepSeek 被指控蒸馏 OpenAI 的模型来创建自己的模型。
当然啦,新产品还是得
“会员抢先用”。
X的Premium+级别的订户将首先获得 Grok 3,其他功能则由xAI的新计划SuperGrok提供。SuperGrok 的价格为每月30美元或每年300美元,可解锁额外的推理和 DeepSearch 查询,并提供无限的图像生成。