//@高飞://@胡延平EarthRambler:OpenAI -20241223071907_宝玉xp的专栏文章_微信文章

//@高飞://@胡延平EarthRambler:OpenAI o3对“合成程序”的意义，相当于AlexNet之于“深度学习”，要赞高飞这句。但不赞成Mike Knoop的一些分析。纯我个人看法，o3在ARC-AGI测试中的水准跃升，可能来自三个方面的进步：1.建立了比思维链更具整体感和动态调适能力的理解力（反过来支持和强化思维链），2.为每一项任务生成任务程序并且动态调适的能力（而不仅仅是思维链），3.思考与监督思考的能力，且机制和过程都更为复杂（而不是Mike Knoop所谓搜索）。三项能力叠加，解决未曾学习过的新问题的能力有了明显进步，不过依然远不足以达到解决传统问题所能达到的阈值，但开启的架构方向，其意义和潜力是当年AlexNet级别的。对此，平面思维会认为是思维链的进化，立体思维会认为是出现了比思维链更高维的整体思考能力。

#模型时代# OpenAI o3对“合成程序”的意义，相当于AlexNet之于“深度学习”？

OpenAI在发布会的尾声，终于放了一个大卫星，发布了o3的期货。

由于o3作为推理模型的特殊性，目前场景面向数学、编码，所以一般的基准测试已经不奏效了，所以这次OpenAI和ARC 竞赛合作，用ARC-Prize作为衡量模型性能的主要指标。

评测结果是：

在低计算模式下(每项任务花费 20 美元)，o3得到 75.7%的分数,在高计算模式下(每项任务数千美元)得到 87.5%的分数。

大家可能对ARC-Prize不太了解，我这里简单介绍一下。

ARC的核心理论是肖雷测试：“当常人容易而人工智能难的任务差距归零时，就达到了通用人工智能”。

这句话其实很好理解，模型可以干很多人类干不了的事儿，但也有很多人类凭直觉就能干的事儿，模型却做不到。一个简单的例子，就是那个著名的“Strawberry这个单词里有多少个R”的问题。

由于ARC是针对大语言模型的弱点进行设计的，所以之前所有模型在测试中都表现不佳。

拿OpenAI的GPT系列来说，GPT-3得分为0，GPT-4接近0，GPT-4o好了一点，也只有5%。即使将这些模型扩展到极限，其分数也无法接近早期暴力枚举方法能达到的50%。

此前，ARC 给出了总奖金超过 100 万美元的奖励，包括首个团队达到 85% 基准的 60 万美元大奖，和促进进展的创新论文等其他奖项。

显然，ARC团队对题目难度还是有信心的。

但是，这个天花板现在被o3捅破了。（图一：大家可以看一下o3和之前模型的表现比较）

o3在低计算能力限制下，在半私有评估集上取得了 75.7%的成绩，在高算力(172 倍)的 o3 配置下，一举获得 87.5%的分数。（图二）

当然，在o1阶段，已经表现出了这个态势，当时突破了50%门槛。

ARC竞赛的联合发起人Mike Knoop也表现的很震惊，在X上写了一个短文，认为o3意义重大。

其中有句话分量比较重，说：

“我相信 o3 对“程序合成”而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据，证明基于深度学习的程序搜索是可行的”。

所谓“程序合成”，就是人类只需描述所需的功能和约束，计算机就可以根据这些描述生成相应程序。用人话说，可以理解为“编码”的自动驾驶。

那么，为什么当年的o1，现在的o3能取得这个成就？

如果传统LLM(如GPT-4o)的工作方式是作为"向量程序库"。

当收到提示时，它们会提取与提示相匹配的程序并在输入上"执行"。这种方法可以通过被动接触人类生成的内容来存储和操作数百万个有用的小程序。

然而，这种"记忆、提取、应用"的范式虽然可以在有合适训练数据的情况下实现任意任务的技能，但它无法适应新颖性或即时掌握新技能。

因为，要适应新鲜事物，需要两件事。

首先，需要知识。一组可重复使用的函数或程序，这方面大模型不缺，其次，需要能够在面临新任务时将这些函数重新组合成一个全新的程序，一个能够模拟手头任务的程序，即程序合成。

此前的模型缺乏这种功能。而o 系列模型解决了这个问题。

o3的主要突破在于它采用了一种全新的"自然语言程序搜索和执行"机制。

在测试时，模型会搜索可能的思维链(Chain of Thought)来描述解决任务的步骤，这个搜索过程类似于AlphaZero式的蒙特卡洛树搜索，并由评估器模型引导。

这种机制让o3能够在测试时动态地重组知识，生成和执行自己的程序，其中思维链本身成为知识重组的产物。这远比简单的预训练响应要强大。

既然说o3有“合成程序”的能力，也有一项基准可以直接证明OpenAI o3的编码能力，它的Codeforces 分数为 2727，相当于地球上第 175 位最优秀的人类编程竞赛选手。（图三）

当然，我们都知道，人类开发者的工作不止局限于编码自身。

而且，目前为止o3是期货，在生产环境会表现如何，还要到时的实际情况，以及竞争对手的表现比较。

关于ARC对o3的更多评价，见：arcprize.org/blog/oai-o3-pub-breakthrough）

下为Mike Knoop的推文原文（出处：x.com/mikeknoop）：
***

o3 的确非常特别，大家都需要重新审视自己对 AI 能力与局限的直觉。

虽然目前还是早期阶段，但这个系统展现出了在 ARC-AGI 的“金丝雀”测试下真实的智能提升。

semiprivate v1 的测试得分：

GPT-2（2019 年）：0%
GPT-3（2020 年）：0%
GPT-4（2023 年）：2%
GPT-4o（2024 年）：5%
o1-preview（2024 年）：21%
o1 high（2024 年）：32%
o1 Pro（2024 年）：约 50%
o3 tuned low（2024 年）：76%
o3 tuned high（2024 年）：87%
当初是我投入了最初的一百万美元创建了 @arcprize，我想再次重申我的承诺：我们会持续举办这个大奖赛，直到有人开源一个高效且能达到 85% 水平的解决方案。

但我们的目标远不止于此！ARC Prize 在今年找到了它的使命——成为通往 AGI 的长久北极星。

ARC 基准的设计原则是“对人类简单，但对 AI 困难”，只要在人类易解、AI 难解的范畴内仍存在挑战，就说明 AGI 依然还有进步空间。

目前在 v1 系列中，还有超过 100 个任务即使在 o3 的高算力配置下依然没有被解决，这非常值得关注。

o3 的后继者们将不得不面对“效率”这一难题。我预计这会成为 AI 领域的重点关注方向。参考数据：o3 high 使用的算力是 o3 low 的 172 倍，而 o3 low 的算力又是大奖赛目标算力的 100 到 1000 倍。

今年夏天，我们也正式开始推进 v2 的工作（v2 依旧在与 v1 相同的网格环境中），并计划与 2025 年的 ARC Prize 一同发布。前期测试表明，即便在 o3 high 的算力下，v2 也会有很好的表现。但 v2 的目标并不是做“对抗性基准”，而是要在通往 AGI 的道路上具有足够的意义和信息量。

我们也希望能有一些足以经受多年考验的 AGI 基准，我并不认为 v2 能担此大任。所以我们已经开始把注意力转向 v3——这将会与前两代非常不同。我也很期待与 OpenAI 以及其他研究机构合作，共同设计出 v3。

由于快到年末，我也想做一些反思。

任何花时间研究 ARC 数据集的人都会告诉你，它有某些特别之处；而一个能够完全破解它的系统就更是了不起。o 系列所展现出的能力，某种程度上让我们得以一窥这样的系统。

当我说“现在还只是早期阶段”时，我是认真的。我相信 o3 对程序合成而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据，证明基于深度学习的程序搜索是可行的。

现在我们又站在另一座大山的山脚，从我的角度看，它与深度学习在 AGI 里扮演的重要地位同样高，也同样关键。

这一年里有很多事情让我感到惊讶，包括 o3 的问世。但最令我吃惊的，是越来越多的人开始关注 ARC Prize。

我这些年一直在向 AI 研究人员做 ARC 的调查。在 ARC Prize 今年六月启动之前，只有大约十分之一的人听说过它。

而现在，它无可争议地成为了尖端实验室使用的尖端基准，以展示在 AGI 最尖端方向上的进展——这一人类史上最为重要的技术。

在这里，也要对fchollet表示感谢，他设计了这样一个出色的基准。

我会持续怀着感恩之心，去引领更多的关注投向 AGI 和 ARC Prize，我们 2025 年再见！

//@高飞://@胡延平EarthRambler:OpenAI -20241223071907

正文

2024-12-23 07:19
本条微博链接