马斯克在直播活动中发布了Grok3模型,该模型是对之前计算中心的预热结果。马斯克声称其计算资源使用是前身的10倍,并在一期工程中仅用了122天完成。
Grok 3的训练量是Grok 2的10倍,并在基准测试中显著优于其他模型。它包含两个版本,即Grok3和Grok3-mini,目前早期版本在LLM竞技场排名第一。此外,Grok3具备推理能力,并在代码能力和思考过程中展现出优势。
Grok3支持深度搜索功能,能够深入思考用户意图、考虑事实、浏览网站、交叉验证信息来源等。此外,其Agent能力也必须跟上,公开执行搜索的步骤。
目前,最先可以体验Grok3的渠道是推特的X Premium+会员。此外,还有单独的Grok网站和APP以及Super Grok会员。未来,网页和应用的所有功能将在一周内全面推出,API将在几周内推出。还有语音应用即将推出,Grok2将在几个月后开源。
从 24 年底马斯克就开始给他们新建巨大计算中心训练的 Grok3 模型开始预热了,今天中午 12 点的直播活动中终于发布了 Grok3。
这次马斯克开始玩真的了,不仅模型的素质跟上了 Open AI 的 O1,而且在产品功能上全面对标 ChatGPT。
训练的硬件
Musk 声称 Grok 3 的开发使用了比其前身 Grok 2“10 倍”多的计算资源,xAI 一直在使用位于孟菲斯的一个庞大数据中心——
一个包含约 20 万个 GPU 的数据中心
——来训练 Grok 3。其中的一期工程只用了 122 天就完成了,工程这块还得看马斯克。
模型能力
Grok 3 的训练量是 Grok 2 的 10 倍,在 1 月初完成了预训练,即使现在依然在训练过程中。
Grok3 包含两个模型版本 Grok3 和 Grok3-mini,Grok 3 AIME 和 GPQA 在内的基准测试中显著优于其他模型,如 Gemini 2 Pro 和 GPT-4o。即使是 Grok-3 mini 也表现不错。
目前的早期版本在 Elo 机制的 LLM 竞技场 1400 分排第一。
同时
Grok3 也具备推理能力
,马斯克表示在代码能力上 Grok3 非常强,同时在推理时不会展示原始思考过程。
至于推理性能,在提供更多测试时间计算资源(使其能够思考更长时间)的情况下,它优于 o1 和 DeepSeek-R1。
Grok 3 Reasoning Beta 在 AIME 2025 上的表现也高于 o3-mini-high。
深度搜索功能
除了模型能力对标 Open AI 之外,前沿的 Agents 能力也必须更上,Grok3 支持类似 Open AI 深度研究的 DeepSearch能力。
这个功能模型能够
深入思考用户意图、需要考虑哪些事实、要浏览多少个网站、可以交叉验证不同来源,确保信息的真实性
。DeepSearch 还会公开其执行搜索本身所采取的步骤。
如何使用和收费
目前最先可以体验到 Grok3 的渠道应该是推特的 X Premium+ 会员,同时他们也推出了单独的 Grok 网站和 APP。
另外还有搭配单独有用的 Super Grok 会员,支持 Grok 3的权限、解锁DeepSearch和Think功能、抢先体验新功能、更高的图像生成限制等。