【#大模型半小时做完本科生最难数学竞赛#,30分钟交卷却被「大佬」现场打脸】美国本科生最难数学竞赛,o1 pro竟然只用半小时就全部做出来了?要知道,参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现,12道题没有一道是完全正确的。比如有些题目,o1 pro只用不到两分钟就宣告完成,总体思路也是正确的,但就是没办法做到全对,有些题目答案形式正确,但证明的过程却不乏漏洞。
不过,OpenAI公开的测试结果显示,o1的数学性能大幅超越了GPT-4o,飙升43.3%实现了质的飞升。而且,每个模型重复运行2次,并让GPT-4o作为标准的判断者,以评估模型的答案,最终再由人类专家进行验证,那么第二次运行时,o1-preview得分就提高到了79分,已然有了长足的进步。
注:普特南数学竞赛专为美国和加拿大的本科生设立,今年是第85届年赛。最初只是各个高校数学系之间的友好较量。如今,它已经发展成为世界上最具权威的大学数学竞赛。(文章来源:新智元) o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸
不过,OpenAI公开的测试结果显示,o1的数学性能大幅超越了GPT-4o,飙升43.3%实现了质的飞升。而且,每个模型重复运行2次,并让GPT-4o作为标准的判断者,以评估模型的答案,最终再由人类专家进行验证,那么第二次运行时,o1-preview得分就提高到了79分,已然有了长足的进步。
注:普特南数学竞赛专为美国和加拿大的本科生设立,今年是第85届年赛。最初只是各个高校数学系之间的友好较量。如今,它已经发展成为世界上最具权威的大学数学竞赛。(文章来源:新智元) o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸