专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
宝玉xp  ·  转发微博-20241219152048 ·  2 天前  
爱可可-爱生活  ·  【E2B MCP ... ·  3 天前  
爱可可-爱生活  ·  几篇论文实现代码:《OAKINK2: A ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

转发微博-20241221161829

宝玉xp  · 微博  · AI  · 2024-12-21 16:18

正文

2024-12-21 16:18

转发微博
#模型时代# 起码这5年,不能用刻舟求剑的方法评价AI。

11月份的时候,Epoch AI邀请了包括菲尔兹奖得主陶哲轩在内的60多位数学家,开发了一个新的数学基准测试FrontierMath(地址:epoch.ai/frontiermath/the-benchmark)。

这个测试就是瞄着大模型来的,让数学家们原创数学难题,模型不可能基于既定数据集训练(图一)。

效果也很好,sota模型的得分只有2%。

当时有不少媒体很激动,写了一堆耸人听闻的标题:

我大概搜了下,比如:

*ScalingLaw终结了么?

*AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”

*陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

结果刚过一个月,o3模型就把2%提升到了25%。

显然,还不到谈第四次AI寒冬的时候。