专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
Quora文选英语  ·  老外说𝒎𝒖𝒎'𝒔 𝒕𝒉𝒆 ... ·  昨天  
知乎日报  ·  有什么东西是外国人吃,而中国人不吃的? ·  2 天前  
知乎日报  ·  世界上第一个养猫的人是谁? ·  2 天前  
巴比特资讯  ·  杨植麟和梁文锋,论文撞车了 ·  2 天前  
巴比特资讯  ·  第一批DeepSeek开发者,已经开始逃离了 ·  2 天前  
51好读  ›  专栏  ›  学术头条

首次击败人类数学天才,高中生最难数学考试被DeepMind AI攻克了

学术头条  · 公众号  ·  · 2025-02-09 08:31

正文


让人类高中生头疼的最难数学考试—— 国际数学奥林匹克竞赛(IMO)——被人工智能(AI)攻克了。

在一项近期公布的研究中, Google DeepMind 团队称他们的 几何解题系统 AlphaGeometry 解决了 84%(42/50)的几何难题,其表现 首次超过了 IMO 平均金牌得主 (40.9/50)的水平。

此外,去年 7 月,AlphaGeometry 也“联手”AlphaProof(一个基于强化学习的形式数学推理新系统),在当年 IMO 中首次达到了银牌获得者的水平。

AlphaGeometry2 是 AlphaGeometry 的显著改进版本。它是一个 神经符号混合系统,其语言模型基于 Gemini 并在比其前身多一个数量级的合成数据上从头开始训练。这帮助模型解决更具有挑战性的几何问题, 包括关于物体运动和角度、比例或距离的方程问题。

AlphaGeometry2 使用的符号引擎比其前身快两个数量级。 面对新问题时,一种 新颖的知识共享机制 被用来实现不同搜索树的先进组合,以解决更复杂的问题。

对此,伦敦帝国理工学院数学家 Kevin Buzzard 评价道:“我想,不久之后,计算机就能在 IMO 竞赛中拿满分了”。

相关研究论文以“ Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2 ”为题,已发布在预印本网站 arXiv 上。


更强的数学推理,速度提升 300 倍


AlphaGeometry2(AG2)是 Google DeepMind 开发的一款神经-符号混合 AI 系统,用于解决国际数学奥林匹克(IMO)的几何问题。

AG2 结合了语言模型(Neural)和符号推理引擎(Symbolic),采用一种混合推理方法(neuro-symbolic approach)来解决几何问题。 相比其前代 AlphaGeometry(AG1),AG2 在解题率、搜索算法、语言模型和符号推理方面都有重大改进,首次超越了 IMO 平均金牌得主的表现。

据论文描述, AG2 在原始 AlphaGeometry(AG1)语言的基础上进行了扩展 ,使其能够处理更复杂的几何问题,包括:

  • 物体移动(Locus-type Problems):AG2 新增了轨迹(locus)相关谓词,使 AI 能够推理点、直线、圆等几何对象的移动;

  • 线性方程问题(Linear Equations):AG2 现在可以解析涉及角度、比例和距离的线性方程;

  • 新的几何谓词(Predicates):AG2 语言新增了多个谓词,以支持更复杂的几何推理。

这些扩展将 AG2 语言的覆盖率(coverage rate)从 66% 提高到了 88% ,使其能够处理更多 IMO 几何题目。

图|AG2 与 AG1 的训练数据分布对比(a-c): a.与 AG1 相比,AG2 包含更复杂/更长的问题; b.AG2 在每种问题类型的示例分布上更加均衡; c.G2 在包含辅助点的证明与不包含辅助点的证明之间具有更均衡的比例)

此外, AG2 还采用了 Gemini 语言模型,相比 AG1 具有更强的数学推理能力。 该语言模型用于预测几何构造(如辅助线、角度计算等),并帮助生成解题步骤,其训练数据包含 3 亿条自动生成的定理和证明,大幅扩展了 AI 的数学知识库。

同时, AG2 采用了一种新型搜索算法(Shared Knowledge Search Trees, SKEST),引入知识共享机制,将多个搜索树(multiple search trees)结合在一起, 相比 AG1 仅用单一搜索策略,AG2 允许不同搜索路径可以共享已验证的数学推理,显著提升了 IMO 竞赛的求解能力。

图| 搜索算法概览: 将多个搜索树结合在一起并通过一种特殊的知识共享机制,在它们之间共享已证明的推理

不仅如此, 相比 AG1 的符号引擎,AG2 在求解速度上提升 300 倍 ,并且新增处理“双点”能力,能够解决一些需要构造多个相交点的问题。


探索可泛化 AI


尽管 AG2 已经取得突破性进展,但仍存在一定局限性。 在 AG2 未能解决的题目中,有 6 道 IMO 题目因涉及变量点个数、不等式、非线性方程而未能求解,因 AG2 语言尚不支持这些类型;2 道题目涉及更高级的几何技术(如反演、投影几何、根轴法),目前也未在 AG2 的符号引擎中实现。






请到「今天看啥」查看全文