专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

新智元 · 奥特曼预警AI成本每年降10倍，10年后每个 ... · 昨天

爱可可-爱生活 · 【Transformers from ... · 昨天

新智元 · DeepSeek-R1-Zero不存在顿悟时 ... · 3 天前

量子位 · DeepSeek下棋靠忽悠赢了ChatGPT ... · 3 天前

硅星GenAI · DeepSeek-R1深度思考火出圈; ... · 4 天前

硅星GenAI · DeepSeek-R1深度思考火出圈; ... · 4 天前

51好读 › 专栏 › 新智元

o3-mini数学推理暴打DeepSeek-R1？AIME 2025初赛曝数据集污染大瓜

新智元 · 公众号 · AI · 2025-02-08 11:33

正文

新智元报道

编辑：编辑部 JHYZ

【新智元导读】就在刚刚，AIME 2025 I数学竞赛的大模型参赛结果出炉，o3-mini取得78%的最好成绩，DeepSeek R1拿到了65%，取得第四名。然而一位教授却发现，某些1.5B小模型竟也能拿到50%，莫非真的存在数据集污染？

大语言模型，到底是学会了解决数学问题，还是只是背下了答案？

LLM的「Generalize VS Memorize」之争，迎来最新进展。

苏黎世联邦理工的研究员Mislav Balunović，在X上公布了一众顶级AI推理模型在AIME 2025 I比赛中的结果。

其中，o3-mini (high)令人印象非常深刻，以非常低的成本解决了78%的问题。

DeepSeek-R1，则解决了65%的问题，而且它的蒸馏变体也表现不错，不愧是领先的开源模型！

绿色表示问题的解答率超过75%，黄色表示解答率在25%-75%之间，红色表示解答率低于25%

然而，结果真的是这样吗？

AI做出奥数题，只因原题已在网上泄露？

威斯康星大学麦迪逊分校教授，目前在微软担任研究员的Dimitris Papailiopoulos，对这一测试的结果提出了质疑。

教授表示，自己对AI模型在数学题上取得的进步，非常惊讶。

原本他以为，一些较小的蒸馏模型遇到这些题就寄了，没想到它们却拿到了25%到50%的分数。

这可太令人意外了！

要知道，如果这些题完全是新的，模型在训练过程中从未见过，按理说小模型能拿0分以上的分数就很好了。

一个1.5B参数的模型连三位数的相乘都做不出，结果却能做出奥数题，这合理吗？

这就不由得让人怀疑，其中有什么问题了。

AIME I是指2025年首场美国邀请数学考试，学生们需要在三个小时内挑战15道难题

您猜怎么着？

教授在用OpenAI Deep Research搜索之后发现，AIME 2025第1题，在Quora上就有「原题」！

而且这还真不是巧合，教授再次使用Deep Research查找了第3题。结果呢？一个非常相似的问题出现在 math.stackexchange 上：

仍然感到怀疑的教授，用DeepResearch继续查找了第7题。

然后就发现，一个完全相同的问题，出现在2023年佛罗里达在线数学公开赛第9题中。

接下来，教授放弃了，因为p值已经低到不行了。

他发出诘问：这对数学基准意味着什么？对RL的突飞猛进又意味着什么？

教授表示自己并不确定，但他也不排除GRPO（一种强化学习优化策略）在强化了模型记忆的同时，也提高了它数学技能的可能性。

至少，这件事表明了一点：数据净化很难。

永远不要低估你在互联网上能找到的东西。几乎所有东西都能在网上找到。

网友们也表示，虽然数学奥赛每年都会出新题，但根本无法100%保证之前没有同样的问题出现过。

还有好奇的网友也来搜索了一把。

其中，问题6似乎有原题，问题8和问题10都有略微相似的题型。

这不禁让人想起OpenAI秘密资助某数据集的旧闻：如果没有特殊目的，为什么不告诉出题的数学家呢？

难道真如网友Noorie所言「数据去污才是新的Scaling Law」？

请到「今天看啥」查看全文

推荐文章

新智元 · 奥特曼预警AI成本每年降10倍，10年后每个人AI智力=全人类总和！

昨天

爱可可-爱生活 · 【Transformers from Scratch：从零开始构-20250210081812

昨天

新智元 · DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

3 天前

量子位 · DeepSeek下棋靠忽悠赢了ChatGPT，网友：孙子兵法都用上了

3 天前

硅星GenAI · DeepSeek-R1深度思考火出圈; OpenAI o3-mini紧急上线｜春节周AI热榜

4 天前

硅星GenAI · DeepSeek-R1深度思考火出圈; OpenAI o3-mini紧急上线｜春节周AI热榜

4 天前

灼见 · 请警惕你的“弱者思维”

8 年前

生活一点通 · 拖地的时候只要用点这玩意，地板干净无灰尘，关键还杀毒消菌！

7 年前

环球物理 · 【高中物理】高中力学易错点（看过都说好！）

7 年前

雷科技 · 三星拿下苹果 1.8 亿块屏幕订单：iPhone 9 成巨屏怪兽

7 年前

马蜂窝旅游 · 实拍震后的九寨沟！著名景点火花海永远消失了……

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!