专栏名称: 宝玉xp

前微软Asp.Net最有价值专家互联网科技博主我是宝玉。

目录

相关文章推荐

量子位 · 豆包升级了“眼睛”，看APP截图就能写代码了 ... · 2 天前

宝玉xp · 转发微博-20241219152048 · 2 天前

爱可可-爱生活 · 【E2B MCP ... · 3 天前

爱可可-爱生活 · 几篇论文实现代码：《OAKINK2: A ... · 3 天前

量子位 · 谷歌版Sora升级4K高清！一句话控制镜头运 ... · 5 天前

51好读 › 专栏 › 宝玉xp

转发微博-20241221161829

宝玉xp · 微博 · AI · 2024-12-21 16:18

正文

2024-12-21 16:18
本条微博链接

转发微博

#模型时代# 起码这5年，不能用刻舟求剑的方法评价AI。

11月份的时候，Epoch AI邀请了包括菲尔兹奖得主陶哲轩在内的60多位数学家，开发了一个新的数学基准测试FrontierMath（地址：epoch.ai/frontiermath/the-benchmark）。

这个测试就是瞄着大模型来的，让数学家们原创数学难题，模型不可能基于既定数据集训练（图一）。

效果也很好，sota模型的得分只有2%。

当时有不少媒体很激动，写了一堆耸人听闻的标题：

我大概搜了下，比如：

*ScalingLaw终结了么?

*AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”

*陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

结果刚过一个月，o3模型就把2%提升到了25%。

显然，还不到谈第四次AI寒冬的时候。

推荐文章

量子位 · 豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

2 天前

宝玉xp · 转发微博-20241219152048

2 天前

爱可可-爱生活 · 【E2B MCP Server：为Claude桌面应用提供代码运-20241219134911

3 天前

爱可可-爱生活 · 几篇论文实现代码：《OAKINK2: A Dataset of -20241219135657

3 天前

量子位 · 谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵海螺

5 天前

19楼 · 这次得了诺贝尔文学奖的竟然是个唱歌的？看完你会觉得村上春树陪跑也正常吧

8 年前

鲁中晨报 · 淄博市政协原党组成员、副主席王修德等3人被“双开”

8 年前

手艺门 · 对我这种文盲来说，祖国书法真是种令人懵逼的存在！

7 年前

军情战评 · 王毅谈朝核问题：中国不会被各种说法忽悠该干什么还干什么

7 年前

生态梦网 · 夏至，我们这样表白生态城！

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!