https://www.kaggle.com/competitions/arc-prize-2025/overview
unset
unset
赛题背景
unset
unset
当前的人工智能系统尽管经过了大量数据的广泛训练,但仍然无法泛化到训练数据之外的新问题。大型语言模型(LLM)使人工智能在许多已知任务中得到了广泛应用,但通向人工通用智能(AGI)的进展受到理念的限制。AGI的进步可能会使人工智能系统能够像人类一样思考和发明。
unset
unset
赛题任务
unset
unset
ARC Prize 2025竞赛旨在开发能够高效学习新技能并解决开放式问题的人工智能系统,而非仅仅依赖于通过大量数据集训练的系统。该竞赛的最高提交作品将朝着人类水平的推理能力展示进步。
unset
unset
评估方式
unset
unset
竞赛根据正确预测的百分比来评估提交的作品。对于每个任务,你需要尝试两次预测任务中每个测试输入网格的精确输出(一个任务可能有多个测试输入需要预测输出)。
每个任务的测试输出都有一个真实值。对于给定任务的输出,如果两次预测中的任何一次与真实值完全匹配,则该任务测试输出得分为1,否则为0。最终得分是每个任务输出的最高分之和除以任务测试输出的总数。
-
文件格式
:提交文件必须是一个名为submission.json的json文件。
-
预测结构
:对于评估集中的每个任务输出,你需要进行两次预测(attempt_1和attempt_2)。预测的结构如下所示。许多任务有多个输出(一个列表中包含多个字典),尽管有些任务只有一个输出需要预测。当一个任务有多个测试输出需要预测时(例如任务12997ef3),它们必须与相应的测试输入保持相同的顺序。
-
注意事项
:输入挑战json文件中的所有task_ids也必须出现在submission.json文件中。即使你的提交没有两次预测,“attempt_1”和“attempt_2”也必须存在。
unset
unset
赛题数据
unset
unset
在查看任务时,“考生”可以访问演示对(训练对)的输入和输出,以及测试对的输入。目标是构建与测试输入网格相对应的输出网格,每个测试输入有两次尝试机会。“构建输出网格”涉及选择输出网格的高度和宽度,然后用符号(介于0到9之间的整数,这些整数被可视化为颜色)填充网格中的每个单元格。
信息存储在两个文件中:
-
arc-agi_training-challenges.json
:包含输入/输出对,这些对展示了要应用于每个任务的“测试”输入的推理模式。此文件和相应的解决方案文件可以用于训练你的模型。
-
arc-agi_training-solutions.json
:包含对应的任务“测试”输出(真实值)。
-
arc-agi_evaluation-challenges.json
:包含输入/输出对,这些对展示了要应用于每个任务的“测试”输入的推理模式。此文件和相应的解决方案文件可以作为验证数据用于你的模型。
-
arc-agi_evaluation-solutions.json
:包含对应的任务“测试”输出(真实值)。
-
arc-agi_test-challenges.json
:此文件包含用于排行榜评估的任务,包含每个任务的“训练”输入/输出对以及“测试”输入。你的任务是预测“测试”输出。注意:此页面上显示的文件是一个占位符,使用的是arc-agi_evaluation-challenges.json中的任务。当你提交笔记本重新运行时,此文件将被替换为实际的测试挑战。
-
sample_submission.json
:格式正确的提交文件。
每个任务包含一个字典,其中包含两个字段:
-
“train”
:演示输入/输出对。它是一个“对”的列表(通常是3对)。
-
“test”
:测试输入——你的模型应该预测输出。
一个“对”是一个包含两个字段的字典:
一个“网格”是一个矩形矩阵(列表的列表),包含介于0到9(含)之间的整数。最小可能的网格大小是1x1,最大是30x30。
unset
unset
赛题时间
unset
unset
-
-
报名截止日期
:2025年10月27日。在该日期之前,你必须接受竞赛规则才能参赛。
-
团队合并截止日期
:2025年10月27日。这是参赛者可以加入或合并团队的最后一天。
-
与
36000+
来自竞赛爱好者一起交流~