马斯克旗下xAI发布Grok 3推理模型自称超越o1、R1

凤凰网科技 · 公众号 · 科技媒体 · 2025-02-18 12:58

主要观点总结

本文介绍了马斯克旗下的xAI发布的大模型Grok 3。Grok 3在多个测试中表现优异，如在AIME'24数学能力测试、GPQA科学知识评估和LCB Oct-Feb编程能力测试中得分均高于DeepSeek-V3。此外，Grok 3在训练过程中调用了10万个Nvidia H100芯片，实现了与前代产品的跨越式提升。其最大亮点是引入了“思维链”推理机制，允许其分步骤解决复杂问题，提高模型处理复杂查询和提供更连贯、更有逻辑响应的能力。马斯克表示，这一机制使Grok 3在逻辑推理测试中的表现超过ChatGPT-5和谷歌的Gemini Ultra。

关键观点总结

关键观点1: Grok 3在多个测试中表现优秀

在AIME'24数学能力测试、GPQA科学知识评估和LCB Oct-Feb编程能力测试中，Grok 3的得分均高于DeepSeek-V3。

关键观点2: Grok 3训练过程中使用了大量Nvidia H100芯片

Grok 3在训练过程中调用了10万个Nvidia H100芯片，实现了与前代产品的跨越式提升。

关键观点3: Grok 3引入了“思维链”推理机制

这一机制允许Grok 3分步骤解决复杂问题，提高模型处理复杂查询和提供更连贯、更有逻辑响应的能力。马斯克表示这一机制使Grok 3在逻辑推理测试中表现突出。

关键观点4: Grok大模型已接入社交媒体X平台

用户可以在X平台上使用Grok聊天机器人。

正文

摘要：

此前，马斯克曾称Grok 3是“地球上最聪明的人工智能”。

凤凰网科技出品

2月18日，马斯克旗下的xAI发布了大模型Grok 3。

马斯克旗下xAI发布Grok 3模型

此前，马斯克曾称Grok 3是“地球上最聪明的人工智能”。

在AIME'24数学能力测试中，Grok-3取得了52分，明显高于DeepSeek-V3的39分。在GPQA科学知识评估中，Grok-3以75分的优异成绩领先DeepSeek-V3的65分。此外，在LCB Oct-Feb编程能力测试中，Grok-3也以57分的成绩超越了DeepSeek-V3的36分。

据xAI官方介绍，Grok 3 在训练过程调用了 10 万个 Nvidia H100芯片，较前代产品 Grok 2 使用的 15,000 个 GPU 实现了数倍的跨越式提升。

Grok 3最大的亮点在于其引入了“思维链”（Chain Of Thought）推理机制。 这一机制允许Grok 3像人类一样分步骤解决复杂问题，显著提高了模型处理复杂查询和提供更连贯、更有逻辑响应的能力。马斯克在发布会上表示，这种推理机制使得Grok 3在逻辑推理测试中的表现远超ChatGPT-5和谷歌的Gemini Ultra，能够构思出新颖的想法和解决方案。

Grok大模型已接入马斯克旗下社交媒体X平台，用户可在X上使用Grok聊天机器人。