专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

马斯克发布 Grok3，推理能力超 o3 mini(high) 和 DeepSeek-R1

AI TIME 论道 · 公众号 · · 2025-02-18 14:30

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在试图以 974 亿美元收购 OpenAI 的提议被拒绝后， 世界首富马斯克又搞了一个大动作 ——

刚刚，他发布了 号称“地球最聪明的 AI” ，Grok3，其由一个包含约 20 万个 GPU 的数据中心训练，计算能力是上一代模型 Grok 2 的“10 倍”，且使用了扩大的训练数据集。

据此前介绍，Grok 3 是在合成数据的基础上进行训练的，它能够通过重读数据来反思所犯的错误，从而达到逻辑上的一致性。

评测结果方面 ，Grok3 在 AIME'24（美国数学竞赛）、GPQA（研究生水平科学知识问答能力的基准测试）等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。

尤其在推理方面 ，Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势，最高分达到 96 分，超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。

甚至， 在最新的 AIME 2025 评测中 ，Grok3 推理系列模型更是达到了 90 及以上的分数，稍微领先 o3 mini(high) 的 87 分。

基于 Grok3 推理模型，Grok app 上线了 DeepSearch 功能，DeepSearch 可以表达其理解查询的过程以及计划响应的方式，会扫描互联网和 X，分析信息，并针对问题提供摘要。据现场演示， DeepSearch 包括研究、头脑风暴和数据分析等选项。

此外，在 Chatbot Arena 评估中，Grok-3 的得分达到了 1400 分，同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。

此外，马斯克在直播中透露，未来——最快一周后——Grok 应用程序将具备“语音模式”，这将为 Grok 模型提供合成语音。几个月后，xAI 将开源上一代模型 Grok 2。“我们的一般做法是，当下一个版本完全推出时，我们将开源上一个版本（Grok）。”

马斯克曾多次警告说，人工智能会给人类文明带来风险，但他仍在极力推动加大对这一领域的投资。

xAI 于 12 月表示，它在新一轮融资中筹集了 60 亿美元，投资者包括美国风险资本家、芯片制造商英伟达和 AMD，以及沙特阿拉伯和卡塔尔的投资基金等。去年 5 月，该公司首次融资便获得了高达 60 亿美元的资金。

近期精彩活动推荐

从MoE架构到AGI：DeepSeek将给未来带来哪些影响？｜圆桌思辨预告

推荐文章

苏群 · 掏出来被问了800遍！百元内的智能数显耳机天花板，无惧汗雨、不伤耳存在感超低！！

2 天前

知产观察家 · 招生启动 | 艺术与创意领域知识产权管理人才高级研修班

昨天

野球帝 · MVP要是不给他，真就过分了...

2 天前

康石石 · 美国签证好拿的STEM设计项目一览

2 天前

康石石 · 华东师范大学丨工业交互各研究方向及上岸解析

3 天前

教你看穿男人的心 · “装傻”的女人，最令男人着迷了！

8 年前

网易科技 · 美国男子在Facebook上直播杀人，自称已经杀死了15人！

7 年前

杭州发布 · 最新 | 孩子来杭入园入学政策有变化，这个证特重要！

7 年前

上海陆家嘴并购联盟 · 周末，整个金融圈都在同情这位创始人！

7 年前

雪球 · 经济学家岂好辩哉

7 年前