转发微博
#模型时代# 起码这5年,不能用刻舟求剑的方法评价AI。
11月份的时候,Epoch AI邀请了包括菲尔兹奖得主陶哲轩在内的60多位数学家,开发了一个新的数学基准测试FrontierMath(地址:epoch.ai/frontiermath/the-benchmark)。
这个测试就是瞄着大模型来的,让数学家们原创数学难题,模型不可能基于既定数据集训练(图一)。
效果也很好,sota模型的得分只有2%。
当时有不少媒体很激动,写了一堆耸人听闻的标题:
我大概搜了下,比如:
*ScalingLaw终结了么?
*AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”
*陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
结果刚过一个月,o3模型就把2%提升到了25%。
显然,还不到谈第四次AI寒冬的时候。
11月份的时候,Epoch AI邀请了包括菲尔兹奖得主陶哲轩在内的60多位数学家,开发了一个新的数学基准测试FrontierMath(地址:epoch.ai/frontiermath/the-benchmark)。
这个测试就是瞄着大模型来的,让数学家们原创数学难题,模型不可能基于既定数据集训练(图一)。
效果也很好,sota模型的得分只有2%。
当时有不少媒体很激动,写了一堆耸人听闻的标题:
我大概搜了下,比如:
*ScalingLaw终结了么?
*AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”
*陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
结果刚过一个月,o3模型就把2%提升到了25%。
显然,还不到谈第四次AI寒冬的时候。