专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却惨遭“大佬”打脸？

AI领域技术栈 · 公众号 · · 2024-12-10 09:55

正文

阅读原文小猫动图

近日，一场备受瞩目的数学盛宴——普特南数学竞赛（Putnam Exam）在MIT沃克纪念堂落下帷幕。这场被誉为美国本科生最难数学竞赛的年度盛事，吸引了来自北美数百所高校的3500多名数学精英前来角逐。然而，在这场高手如云的较量中，一个非传统的参赛者却意外地成为了焦点，它就是OpenAI最新发布的最强数学大模型o1 pro。

o1 pro的惊艳亮相与迅速陨落

在普特南数学竞赛还未正式拉开帷幕之前，就有传言称，一些大模型将对这场数学盛宴发起挑战。而OpenAI最新发布的满血版o1，以及它的升级版o1 pro，无疑是这场挑战的热门选手。相较于之前的o1-preview，o1的数学性能提升了27%，而o1 pro更是提升了36%。这样的性能提升，让人们对o1 pro在普特南竞赛中的表现充满了期待。

然而，当o1 pro真的被投入这场竞赛的考题中时，它的表现却让人大跌眼镜。有网友将普特南竞赛的考题交给了o1 pro，令人吃惊的是，6个小时的赛题，它居然只用了半小时就做出来了！这样的速度，无疑让所有人都为之震惊。然而，当网友们仔细查看o1 pro的答案时，却发现了一个惊人的事实：o1 pro似乎没有一道题是正确的。

详细看了答案的网友们表示，o1 pro虽然解题速度惊人，但答案却错误百出。比如对于A1这道题，虽然它只用了1分钟58秒就做了出来，总体思路也是正确的，但仍有很多错误。A2题也没有完全解决，而A3题的答案更是完全错误。网友们纷纷感叹，o1 pro还远未达到普特南考试的水平。

o1 pro的“高光时刻”与争议

尽管o1 pro在普特南竞赛中的整体表现不尽如人意，但它也并非毫无亮点。CodeSignal创始人Tigran Sloyan开启了两轮大测试，让o1 pro分别去解决普特南数学竞赛A1题，以及国际数学奥林匹克（IMO）试题。在普特南数学竞赛测试中，o1 pro成功做对了第一题，得分+10，就已经超越了30%的参赛者。而在IMO测试中，o1 pro更是完美解决了2006年测试集中最难的Q3题，仅仅用了6分48秒。

这个结果无疑让所有人都为之惊叹。要知道，在2006年全球大约500名19岁以下顶尖数学天才中，只有28人能在4个半小时内完全解出这道题。而美国队的6名成员，却无一人做到。o1 pro的这一表现，无疑让人们看到了AI在数学领域的巨大潜力。

然而，o1 pro的这一“高光时刻”并未持续太久。xAI科学家Hieu Pham在仔细研究了o1 pro的解题过程后表示，o1 pro的答案完全是胡说八道。他认为，o1 pro在IMO竞赛中提交这样的解答，最多也只能给1分（满分7分）。如果遇到宽松的评判员，最多给2分，不会再多了。Hieu Pham还指出，训练数据问题是一部分，o1 pro给出的答案中的某个分数很可疑。

AI在数学竞赛中的挑战与机遇

o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却惨遭“大佬”打脸？

正文

请到「今天看啥」查看全文