专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？

学术头条 · 公众号 · · 2025-01-14 16:08

正文

高考、考研数学，旨在考察学生的逻辑推理素养，每年都会难倒一大片准备上岸的学子。

那么，对于被训练成「像人类一样思考」的人工智能（AI）系统，尤其是近期讨论颇多的 o1 类推理模型而言， 「数学」这门考试到底难不难呢？

更进一步说， 如果同时参加 2025 考研的数学考试，国内头部推理模型与 OpenAI o1 的差距又有多大呢？

日前，来自 清华大学人工智能研究院基础模型研究中心 的团队，便晒出了国内外 13 个模型（基础模型、深度推理模型）在 2025 年考研数学（一、二、三）上交出的答卷——

直白一点说： o1 最强，但对国产头部模型 （如 GLM-zero-preview、QwQ） 的领先优势不大。

具体而言，这些推理模型的 2025 考研数学成绩全部达到了 120+，最强模型 OpenAI o1 的分数达到了惊人的 141.3 分 （平均），在总计 66 道题目中，仅答错了 3.5 道。

另外，相比于 o1，国内推理模型 GLM-zero-preview（平均 138.7 分 ）和 QwQ（平均 137.0 分 ）的表现也并无巨大劣势，分差仅在个位数水平。

第三梯队模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表现也不差，分数均在 120 分以上。

值得注意的是，曾于 2023 年位居榜首的基础模型 GPT-4，在本次测试中仅获得 70.7 分，排名倒数第一。这一结果表明， 在过去的一年中，语言模型在数学推理领域取得了显著的进步 。

完整评测结果如下：

值得一提的是，尽管 o1 在深度推理方面的表现击败了所有国产推理大模型，但国产大模型正将这一差距逐渐缩小，此次智谱的 GLM-zero-preview 和阿里的 QwQ 的成绩便说明了这一点。

基础模型 vs 深度思考模型

为全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果，评测团队对相应基础模型与深度推理模型进行了对比分析。

他们表示，这一对比并非意味着各深度推理模型是基于对应基础模型所做优化，其主要目的在于直观呈现各厂商在模型综合能力提升方面的进展与成效。