专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
Linux就该这么学  ·  不止是操作系统!Linux ... ·  4 小时前  
Linux就该这么学  ·  开源装机工具 Ventoy 更新 ... ·  4 小时前  
Linux就该这么学  ·  官宣:这所高校禁用 DeepSeek ·  昨天  
Linux就该这么学  ·  Fedora即将登陆Win10/11 ... ·  2 天前  
Linux就该这么学  ·  网络工程师这样用,简直是要榨干 ... ·  3 天前  
51好读  ›  专栏  ›  学术头条

刚刚,马斯克发布 Grok3,推理能力超 o3 mini(high) 和 DeepSeek-R1

学术头条  · 公众号  ·  · 2025-02-18 13:58

正文


在试图以 974 亿美元收购 OpenAI 的提议被拒绝后, 世界首富马斯克又搞了一个大动作 ——

刚刚,他发布了 号称“地球最聪明的 AI” ,Grok3,其由一个包含约 20 万个 GPU 的数据中心训练,计算能力是上一代模型 Grok 2 的“10 倍”,且使用了扩大的训练数据集。

据此前介绍,Grok 3 是在合成数据的基础上进行训练的,它能够通过重读数据来反思所犯的错误,从而达到逻辑上的一致性。


评测结果方面 ,Grok3 在 AIME'24(美国数学竞赛)、GPQA(研究生水平科学知识问答能力的基准测试)等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。


尤其在推理方面 ,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势,最高分达到 96 分,超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。


甚至, 在最新的 AIME 2025 评测中 ,Grok3 推理系列模型更是达到了 90 及以上的分数,稍微领先 o3 mini(high) 的 87 分。


基于 Grok3 推理模型,Grok app 上线了 DeepSearch 功能,DeepSearch 可以表达其理解查询的过程以及计划响应的方式, 会扫描互联网和 X,分析信息,并针对问题提供摘要。据现场演示 DeepSearch 包括研究、头脑风暴和数据分析等选项。


此外,在 Chatbot Arena 评估中,Grok-3 的得分达到了 1400 分,同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。







请到「今天看啥」查看全文