近日,一场备受瞩目的数学盛宴——普特南数学竞赛(Putnam Exam)在MIT沃克纪念堂落下帷幕。这场被誉为美国本科生最难数学竞赛的年度盛事,吸引了来自北美数百所高校的3500多名数学精英前来角逐。然而,在这场高手如云的较量中,一个非传统的参赛者却意外地成为了焦点,它就是OpenAI最新发布的最强数学大模型o1 pro。
在普特南数学竞赛还未正式拉开帷幕之前,就有传言称,一些大模型将对这场数学盛宴发起挑战。而OpenAI最新发布的满血版o1,以及它的升级版o1 pro,无疑是这场挑战的热门选手。相较于之前的o1-preview,o1的数学性能提升了27%,而o1 pro更是提升了36%。这样的性能提升,让人们对o1 pro在普特南竞赛中的表现充满了期待。
然而,当o1 pro真的被投入这场竞赛的考题中时,它的表现却让人大跌眼镜。有网友将普特南竞赛的考题交给了o1 pro,令人吃惊的是,6个小时的赛题,它居然只用了半小时就做出来了!这样的速度,无疑让所有人都为之震惊。然而,当网友们仔细查看o1 pro的答案时,却发现了一个惊人的事实:o1 pro似乎没有一道题是正确的。
详细看了答案的网友们表示,o1 pro虽然解题速度惊人,但答案却错误百出。比如对于A1这道题,虽然它只用了1分钟58秒就做了出来,总体思路也是正确的,但仍有很多错误。A2题也没有完全解决,而A3题的答案更是完全错误。网友们纷纷感叹,o1 pro还远未达到普特南考试的水平。
尽管o1 pro在普特南竞赛中的整体表现不尽如人意,但它也并非毫无亮点。CodeSignal创始人Tigran Sloyan开启了两轮大测试,让o1 pro分别去解决普特南数学竞赛A1题,以及国际数学奥林匹克(IMO)试题。在普特南数学竞赛测试中,o1 pro成功做对了第一题,得分+10,就已经超越了30%的参赛者。而在IMO测试中,o1 pro更是完美解决了2006年测试集中最难的Q3题,仅仅用了6分48秒。
这个结果无疑让所有人都为之惊叹。要知道,在2006年全球大约500名19岁以下顶尖数学天才中,只有28人能在4个半小时内完全解出这道题。而美国队的6名成员,却无一人做到。o1 pro的这一表现,无疑让人们看到了AI在数学领域的巨大潜力。
然而,o1 pro的这一“高光时刻”并未持续太久。xAI科学家Hieu Pham在仔细研究了o1 pro的解题过程后表示,o1 pro的答案完全是胡说八道。他认为,o1 pro在IMO竞赛中提交这样的解答,最多也只能给1分(满分7分)。如果遇到宽松的评判员,最多给2分,不会再多了。Hieu Pham还指出,训练数据问题是一部分,o1 pro给出的答案中的某个分数很可疑。