本文介绍了马斯克发布的“地球上最聪明AI”Grok 3的相关信息。Grok 3在基准测试、资本投入等方面表现出惊人的实力,发布了包括Grok 3、Grok 3 mini、推理模式(Think)、DeepSearch、Big Brain等更新。文章还介绍了Grok 3的推理能力、Deep Search的特点、Big Brain模式的应用以及Grok 3背后的计算资源和API的推出。同时,文章还涉及了xAI与OpenAI的竞争情况以及Grok 3面临的挑战。
Grok 3在基准测试中表现优于其他模型,具备强大的推理能力,推出了推理模式(Think)、Deep Search和Big Brain等功能。它基于xAI的Colossus集群,使用了大量的GPU资源进行训练。
xAI和OpenAI在AI领域存在激烈的竞争。两者都在进行巨额融资,估值不断飙升。OpenAI凭借其成熟的产品线和强大的市场份额仍然处于领先地位。Grok 3的发布在某些指标上有所优势,但整体而言,并没有太多创新。
Grok 3面临着诸多挑战,包括在技术、市场定位和融资策略上与OpenAI的直接竞争,以及实现其宏大愿景和面对更现实层面竞争的压力。要成为真正的“地球上最聪明AI”,xAI还有很长的路要走。
马斯克口中的“地球上最聪明的 AI”Grok 3来了。
在一场上百万人观看的直播中,马斯克发布了Grok 3,和他一起参与发布的还有两位华裔研究员,分别是xAI联合创始人Tony Wu、Jimmy Ba。从基准测试来看,Grok 3确实强得惊人,而从资本投入看,背后那20万块GPU的算力集群也令人咋舌。
Grok 3的发布包括一系列的模型:Grok 3, Grok 3 mini,以及推理模式(Think)、DeepSearch、Big Brain等更新。
基准评测方面,Grok 3在数学推理、STEM 与科学领域的基准测试中表现优于 GPT-4o、Gemini-2 Pro、Claude3.5 Sonnet、DeepSeek-V3等其他模型。即便是小版本的 Grok 3 Mini,也处于顶尖水平。
Grok 3 的早期版本在大模型竞技场 Chatbot Arena 中也取得了高分,这是一个众包测试平台,不同 AI 模型相互竞争,用户投票选出最佳答案,Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一。
Grok自2023年发布以来MMILU得分快速提升,尤其在2024年达到Grok 2的显著突破,显示出与GPT系列相比的快速追赶与进步。
“Grok 3 具备非常强大的推理能力,因此在我们迄今为止进行的测试中,Grok 3 的表现超越了我们已知的任何已发布产品,这是一个好迹象,”马斯克上周在迪拜举行的世界政府峰会上通过视频通话表示。
Grok 3 也推出了推理模式(Think),通过Grok 3 Reasoning 和 Grok 3 mini Reasoning,能够像 DeepSeek- R1 等推理模型一样进行思考。Grok 3的模型可以通过考虑所有可能的解决方案、自我批判、验证解决方案、回溯、从第一性原理思考等方式来解决复杂的问题。不过为了防止蒸馏,模糊化了Grok 3的部分推理过程。
Grok 3 Reasoning在多个流行基准测试中超越了 o3-mini 的最佳版本——o3-mini-high,其中包括新的数学基准AIME2025。
团队演示了用Grok 3的Think模式生成一个关于从地球发射到火星再返回地球的动画 3D 绘图,展示下一次发射窗口的轨迹。
在演示中,Grok 3提供了一个使用Matplotlib的Python脚本,并解释了代码。代码似乎是通过数值方式解决开普勒定律。代码运行后,Grok 动画化了地球和火星两颗行星,用绿色小球表示航天器在它们之间的旅程。
演示是在现场生成的,因此没有验证解决方案是否完全正确,但佩戴着一个展示地球火星转移轨道的吊坠的马斯克表示与实际解法接近。
提前体验了Grok 3的Andrej Karpathy表示Grok 3的Think模式实现了DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude均未能实现的任务,但他表示顶尖的 OpenAI 模型,比如o1-pro同样也能做到。
在OpenAI、Gemini和perplexity之后,Grok也推出了自己的深度搜索Deep Search。xAI团队将Deep Search定位为“下一代搜索引擎”,是 Grok Agent 的第一代产品。它不仅仅是一个简单的信息检索工具,旨在帮助编程、研究和解答日常问题。
从演示来看,Grok 3的Deep Search也并未有太多独特之处,更多强调它不同于传统搜索引擎的关键词匹配模式,能深入理解用户查询的语义和意图,并从多个信息源获取内容,交叉验证以确保准确性,比传统搜索引擎更具可调控性,允许用户指定来源。
xAI团队特别提到了Deep Search搜索过程对用户透明,能让用户了解AI的“思考”过程。
Andrej Karpathy认为Grok 3的DeepSearch大致相当于Perplexity的DeepResearch,但尚未达到OpenAI最近发布的Deep Research的水平。
对于更复杂的查询,利用“Big Brain”模式用更多的计算进行推理。xAI 将这些推理模型描述为最适合数学、科学和编程问题,看上去像是“满血版”的另一种说法。
xAI团队演示了Grok 3在Big Brain模式下创造融合了Tetris(俄罗斯方块)和Bejeweled(宝石迷阵)的全新游戏。xAI团队解释说,由于是在直播中即兴生成,Grok有可能会犯一些小的编码错误,导致游戏运行不完全符合预期。。在直播的测试中,生成的游戏能够正常运行,但游戏的颜色显示有些问题,另外不清楚是否实现了俄罗斯方块清除一整行的机制。
xAI团队也在直播中坐实了将推出一个AI游戏工作室的计划,马斯克在前一天也曾在X上发表了相关推文。
Grok 3 基于 xAI 的 Colossus 集群,一期10万张卡只用了122 天建设,又用了92天扩张到20万张,并使用了约20万块GPU来训练Grok 3,并于一月初完成了预训练。此前马斯克在X平台上发帖称,Grok 3的开发使用了比其前身Grok 2 多“10 倍”的计算资源,并且训练数据集得到了扩展,据称包括了法庭案件的文件。在直播中他表示,Grok 3的计算资源大约是Grok 2的15倍左右。
马斯克还透露,xAI 正在建设新的AI集群,其功率将是当前集群的五倍。
另外关于语音模式,团队没有给出具体的发布日期,但马斯克表示“大概一周左右就会发布”。
具体细节上,语音将直接由类似于Grok的模型生成,该模型能够理解所说的话并直接生成音频。这种方式使得 AI 能够记住细节,并更自然地继续对话。语音模式功能将在应用和 API 中同时提供。
xAI计划在未来几周内推出Grok-3的API。这个API将包括Grok-3的推理模型和Deep Search功能。xAI团队对企业级应用场景非常期待,认为Grok-3的强大能力和Deep Search的加入,将为企业用户带来巨大价值。
值得注意的是,xAI在近期还推出了只要同意共享数据,最低充值5美元,就赠送150美元的API额度的活动。显然,xAI不在乎让出这点羊毛,更看重的是通过这种方式获取用户和数据。
关于开源计划,马斯克表示将延续此前的策略,当Grok 3成熟且稳定时(大概会在几个月内实现)将开源Grok 2。