全球最难的AI基准测试要升级了!
ARC-AGI基准测试的创始人François Chollet刚刚透露,
ARC-AGI-2将在2025年初发布!
为什么现在要升级呢?
因为他们发现了一个有趣的现象:
当前版本的一半测试数据已经失去了评估AGI的意义
。
这个消息来得一点都不意外。
2024年的ARC Prize竞赛刚刚结束,
最高分达到了55.5%
。
听起来好像还不错?
但是Chollet却看到了隐藏的危机:
早在2020年,
仅仅用简单的暴力程序搜索
,把所有参赛作品的结果合并在一起,就能达到49%的分数。
这意味着,
数据集中约一半的任务对评估AGI来说已经「失效」了
!
更令人担忧的是,2024年所有参赛作品的集成结果已经飙升到了81%。这说明通过堆砌算力和暴力搜索,很快就能「攻破」这个测试。
Chollet 直言:「
我们需要一个更好的AGI指南针
」。
来看看ARC-AGI-2会带来哪些改进。
从技术报告中我们可以看到几个关键点:
评估数据集将扩大规模
。当前版本只有100个私有评估任务,而这些任务已被用于四次竞赛,累计产生了约10,000个评分结果。这让数据集面临严重的过拟合风险。
测试流程将更加严格
。新版本将采用两个独立的评估集:一个用于中间排行榜,另一个用于最终评分。这样可以有效防止参赛者通过排行榜成绩反推测试数据的内容。
任务难度将更加均衡
。目前的评估数据集在人类难度分布上并不连续,这让不同评估结果之间的比较变得困难。新版本将确保任务难度分布的一致性。
2024年的ARC Prize竞赛取得了巨大成功:
-
1430个团队提交了17789份参赛作品
-
最高分从33%提升到55.5%
-
7家资金充足的创业公司转向了ARC-AGI研究
-
多个大型企业实验室也开始关注这一领域
但对Chollet来说,这些进展反而凸显出了现有基准测试的不足。
AGI的道路仍然漫长,我们需要一个更好的指南针
。
即便在悬赏60万美元的巨额奖金刺激下,没有任何团队达到85%的获奖标准。
这本身就说明了问题的难度。
这就是为什么ARC-AGI-2的到来如此重要。
它将为AGI研究提供一个更可靠的评估标准,帮助研究人员在正确的道路上继续前进。
相关链接
[1] 原文链接:
https://twitter.com/EigenGender/status/1866138849388462241
[2] PDF:
https://arcprize.org/media/arc-prize-2024-technical-report.pdf