ARC-AGI-2要来了！当前一半数据已无效

AGI Hunt · 公众号 · · 2024-12-10 00:23

正文

全球最难的AI基准测试要升级了！

ARC-AGI基准测试的创始人François Chollet刚刚透露， ARC-AGI-2将在2025年初发布！

为什么现在要升级呢？

因为他们发现了一个有趣的现象： 当前版本的一半测试数据已经失去了评估AGI的意义 。

这个消息来得一点都不意外。

2024年的ARC Prize竞赛刚刚结束， 最高分达到了55.5% 。

听起来好像还不错？

但是Chollet却看到了隐藏的危机：

早在2020年， 仅仅用简单的暴力程序搜索 ，把所有参赛作品的结果合并在一起，就能达到49%的分数。

这意味着， 数据集中约一半的任务对评估AGI来说已经「失效」了 ！

更令人担忧的是，2024年所有参赛作品的集成结果已经飙升到了81%。这说明通过堆砌算力和暴力搜索，很快就能「攻破」这个测试。

Chollet 直言：「 我们需要一个更好的AGI指南针 」。

来看看ARC-AGI-2会带来哪些改进。

从技术报告中我们可以看到几个关键点：

评估数据集将扩大规模 。当前版本只有100个私有评估任务，而这些任务已被用于四次竞赛，累计产生了约10,000个评分结果。这让数据集面临严重的过拟合风险。

测试流程将更加严格 。新版本将采用两个独立的评估集：一个用于中间排行榜，另一个用于最终评分。这样可以有效防止参赛者通过排行榜成绩反推测试数据的内容。

任务难度将更加均衡 。目前的评估数据集在人类难度分布上并不连续，这让不同评估结果之间的比较变得困难。新版本将确保任务难度分布的一致性。

2024年的ARC Prize竞赛取得了巨大成功：

但对Chollet来说，这些进展反而凸显出了现有基准测试的不足。

AGI的道路仍然漫长，我们需要一个更好的指南针 。

即便在悬赏60万美元的巨额奖金刺激下，没有任何团队达到85%的获奖标准。

这本身就说明了问题的难度。

这就是为什么ARC-AGI-2的到来如此重要。

它将为AGI研究提供一个更可靠的评估标准，帮助研究人员在正确的道路上继续前进。