专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
出彩写作  ·  deepseek推荐的材料校稿实用技巧 ·  昨天  
新北方  ·  本轮寒潮已结束,中到大雪要来了! ·  2 天前  
新北方  ·  男孩放鞭炮烧毁车辆,监护人负全责! ·  3 天前  
51好读  ›  专栏  ›  AGI Hunt

ARC-AGI-2要来了!当前一半数据已无效

AGI Hunt  · 公众号  ·  · 2024-12-10 00:23

正文

全球最难的AI基准测试要升级了!

ARC-AGI基准测试的创始人François Chollet刚刚透露, ARC-AGI-2将在2025年初发布!

为什么现在要升级呢?

因为他们发现了一个有趣的现象: 当前版本的一半测试数据已经失去了评估AGI的意义

这个消息来得一点都不意外。

2024年的ARC Prize竞赛刚刚结束, 最高分达到了55.5%

听起来好像还不错?

但是Chollet却看到了隐藏的危机:

早在2020年, 仅仅用简单的暴力程序搜索 ,把所有参赛作品的结果合并在一起,就能达到49%的分数。

这意味着, 数据集中约一半的任务对评估AGI来说已经「失效」了

更令人担忧的是,2024年所有参赛作品的集成结果已经飙升到了81%。这说明通过堆砌算力和暴力搜索,很快就能「攻破」这个测试。

Chollet 直言:「 我们需要一个更好的AGI指南针 」。

来看看ARC-AGI-2会带来哪些改进。

从技术报告中我们可以看到几个关键点:

评估数据集将扩大规模 。当前版本只有100个私有评估任务,而这些任务已被用于四次竞赛,累计产生了约10,000个评分结果。这让数据集面临严重的过拟合风险。

测试流程将更加严格 。新版本将采用两个独立的评估集:一个用于中间排行榜,另一个用于最终评分。这样可以有效防止参赛者通过排行榜成绩反推测试数据的内容。

任务难度将更加均衡 。目前的评估数据集在人类难度分布上并不连续,这让不同评估结果之间的比较变得困难。新版本将确保任务难度分布的一致性。

2024年的ARC Prize竞赛取得了巨大成功:

  • 1430个团队提交了17789份参赛作品

  • 最高分从33%提升到55.5%

  • 7家资金充足的创业公司转向了ARC-AGI研究

  • 多个大型企业实验室也开始关注这一领域

但对Chollet来说,这些进展反而凸显出了现有基准测试的不足。

AGI的道路仍然漫长,我们需要一个更好的指南针

即便在悬赏60万美元的巨额奖金刺激下,没有任何团队达到85%的获奖标准。

这本身就说明了问题的难度。

这就是为什么ARC-AGI-2的到来如此重要。

它将为AGI研究提供一个更可靠的评估标准,帮助研究人员在正确的道路上继续前进。

相关链接

[1] 原文链接: https://twitter.com/EigenGender/status/1866138849388462241

[2] PDF: https://arcprize.org/media/arc-prize-2024-technical-report.pdf

👇







请到「今天看啥」查看全文