专栏名称: 新浪科技
新浪科技官方微博 新浪科技是中国最有影响力的TMT产业资讯及数码产品服务平台。让我们带你观察世界变化,看清行业趋势!
目录
相关文章推荐
新浪科技  ·  【#小米回应YU7公告时间早#】12月10日 ... ·  昨天  
新浪科技  ·  【备战 OpenAI Sora ... ·  4 天前  
钛媒体  ·  大模型商业化,营销率先突出重围 ·  5 天前  
51好读  ›  专栏  ›  新浪科技

【#大模型半小时做完本科生最难数学竞赛#,30分钟交卷却被「大佬-20241209140310

新浪科技  · 微博  · 科技媒体  · 2024-12-09 14:03

正文

2024-12-09 14:03

#大模型半小时做完本科生最难数学竞赛#,30分钟交卷却被「大佬」现场打脸】美国本科生最难数学竞赛,o1 pro竟然只用半小时就全部做出来了?要知道,参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现,12道题没有一道是完全正确的。比如有些题目,o1 pro只用不到两分钟就宣告完成,总体思路也是正确的,但就是没办法做到全对,有些题目答案形式正确,但证明的过程却不乏漏洞。

不过,OpenAI公开的测试结果显示,o1的数学性能大幅超越了GPT-4o,飙升43.3%实现了质的飞升。而且,每个模型重复运行2次,并让GPT-4o作为标准的判断者,以评估模型的答案,最终再由人类专家进行验证,那么第二次运行时,o1-preview得分就提高到了79分,已然有了长足的进步。

注:普特南数学竞赛专为美国和加拿大的本科生设立,今年是第85届年赛。最初只是各个高校数学系之间的友好较量。如今,它已经发展成为世界上最具权威的大学数学竞赛。(文章来源:新智元) o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸