专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

刚刚，马斯克发布 Grok3，推理能力超 o3 mini(high) 和 DeepSeek-R1

学术头条 · 公众号 · · 2025-02-18 13:58

正文

在试图以 974 亿美元收购 OpenAI 的提议被拒绝后， 世界首富马斯克又搞了一个大动作 ——

刚刚，他发布了 号称“地球最聪明的 AI” ，Grok3，其由一个包含约 20 万个 GPU 的数据中心训练，计算能力是上一代模型 Grok 2 的“10 倍”，且使用了扩大的训练数据集。

据此前介绍，Grok 3 是在合成数据的基础上进行训练的，它能够通过重读数据来反思所犯的错误，从而达到逻辑上的一致性。

评测结果方面 ，Grok3 在 AIME'24（美国数学竞赛）、GPQA（研究生水平科学知识问答能力的基准测试）等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。

尤其在推理方面 ，Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势，最高分达到 96 分，超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。

甚至， 在最新的 AIME 2025 评测中 ，Grok3 推理系列模型更是达到了 90 及以上的分数，稍微领先 o3 mini(high) 的 87 分。

基于 Grok3 推理模型，Grok app 上线了 DeepSearch 功能，DeepSearch 可以表达其理解查询的过程以及计划响应的方式，会扫描互联网和 X，分析信息，并针对问题提供摘要。据现场演示， DeepSearch 包括研究、头脑风暴和数据分析等选项。

此外，在 Chatbot Arena 评估中，Grok-3 的得分达到了 1400 分，同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。

推荐文章

Linux就该这么学 · 不止是操作系统！Linux 如何颠覆你对电脑的认知？

4 小时前

Linux就该这么学 · 开源装机工具 Ventoy 更新 1.1.03：修复 Win11 0x80070001 错误，改善 Linux 兼容性

4 小时前

Linux就该这么学 · 官宣：这所高校禁用 DeepSeek

昨天

Linux就该这么学 · Fedora即将登陆Win10/11 Linux 子系统，社区“捉虫”活动启动

2 天前

Linux就该这么学 · 网络工程师这样用，简直是要榨干 DeepSeek 了！

3 天前

有车以后 · 最便宜的7座SUV，据说60%的车主都一年回本！

7 年前

禅语心苑 · 羡慕从来不发朋友圈的人，因为…

7 年前

吴晓波频道 · 你的城市还用现金吗？杭州的劫匪已经抢不到钱了 | 小巴侃经济

7 年前

中邮阅读 · 讲真，同情才是最大的伤害！

7 年前

不贱不散 · 路边偶遇这样的妹子，太稀罕了！

7 年前