专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

目录

相关文章推荐

人工智能那点事 · 一店铺未按要求彻夜亮灯被撬锁开灯？多方回应！ · 21 小时前

宝玉xp · “你被解雇了吗？”“是啊，我的经理说他试用了 ... · 昨天

爱可可-爱生活 · 【DeepSeek：比ChatGPT危险10 ... · 昨天

黄建同学 · 强化学习RL在DeepSeek的训练过程中非 ... · 3 天前

宝玉xp · 谷歌向美国平台与设备部门的所有员工提供“自愿 ... · 5 天前

51好读 › 专栏 › 机器学习研究组订阅

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

机器学习研究组订阅 · 公众号 · AI · 2024-12-21 20:23

正文

12天最后一天，OpenAI下一代推理模型o3真的出世了！

奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍

正如所爆料那样，突如其来的o3成为整场直播的「压轴菜」。

奥特曼表示，之所以跳过o2，是因为对伙伴的尊重，以及延续OpenAI一贯「起名特别差」的传统。

奥特曼的谜底也终于揭晓了——3个o

要知道，距离9月o1的出世，才过去了整整3个月的时间。o3的迭代速度，证明了Scaling Law似乎并未终结。

根据Keras之父发布的报告称，o3在低计算量模式下，每个任务需要花费高达20美金，而在高计算量模式中每个任务则需要数千美元。

o3数学代码封神，粉碎o1

在多项基准测试中，o3再次刷新SOTA，就数学、代码、软件工程等领域，完全粉碎了满血版o1！

在AIME 2024数学竞赛评测中，o3取得了96.7%的准确率，性能直接飙升13.4%；在博士级科学问答基准GPQA Diamond上，o3准确率为87.7%，相较于上一代o1提升9.7%。

在今年11月Epoch AI发布的数学基准Frontier Math上，o3准确率高达25.2%。

这个基准中，今天所有模型的准确率都低于2%，但是在激进的测试时间设置下，o3已经能够达到25%的准确率。

要知道，联手60多位数学家出题的陶哲轩，曾认为这项测试能够难住AI好多年。

如今，这一说法又被OpenAI o3推翻了。

在软件工程SWE-bench Verified基准上，o3的代码性能从o1的48.9%狂飙22.8%，达到了71.7%。

在Codeforces中，o3的Elo得分为2727，相较o1提升了800多分。

这个表现，已经达到了International Grandmaster的水平，相当于位列175名的人类选手。

甚至，超过了OpenAI的研究高级副总裁。

除o3之外，o3-mini同样在数学、编码、博士级科学问答、函数调用等基准上，取得了新的突破。

它真正定义了一种新的成本效益推理前沿。

奥特曼表示，这两款新模型将面向研究人员测试，并期待未来尽快推出上线。

OpenAI研究科学家Sebastien Bubeck称，o3在Frontier Maths取得25%准确率，在菲尔兹奖得主Tim Gowers看来极其惊人。这暗示了AI发展火花加速迸发。

网友纷纷表示，就在今天，我们已经实现了AGI！

o3-mini：三种「思考模式」，计算越多能力越强

o3-mini作为o3系列的新成员，与o1-mini一样，将为开发者带来高性价比的AI体验。

在编程能力评测中，o3-mini展现出惊人的实力。

通过「自适应思考时间」（adaptive thinking time）机制，o3能够根据任务难度自动调整推理深度。

由此，它才实现了在代码生成方面超越了前代o1。更令人惊叹的是，其运行速度和成本仅为o1的1/10。

o3-mini引入了三档思考级别——低强度推理、中等强度推理、高强度推理，可以根据具体需求去调整模型的推理深度。

简言之，简单任务能够得到快速响应。而复杂的问题，模型则可开启更深度的思考模式。

任泓宇（左）本科毕业于北大，后在斯坦福获得博士学位，负责o3-mini的训练

具体来说，在Codeforces测试中，o3-mini的Elo评分随着思考时间的增加，性能逐步的到提升。

甚至，在中等强度思下，o3-mini（medium）已经超了满血版o1的表现。

虽然o3-mini（high）在高强度思考下，仍落后于o3，但几乎差别不大。

而且，在成本和思考速度方面，o3-mini取得了超越o1-mini更好的性能。

在演示中，研究者要求模型使用Python实现代码生成器和执行器。

启动之后，就像运行Python脚本一样，模型将在本地启动一个服务器，带有一个包含文本框的UI。

然后我们就可以在其中发出编码请求了，它会请求调用o3-mini API，它将解决任务，返回一段代码。

代码会保存在本地桌面上，然后打开终端自动执行代码。

以下，就是模型生成的代码，用时仅38秒。

把代码复制粘贴到服务器上，并运行。

然后，便可获得对应的UI界面——一个文本框。

我们可以在其中输入代码，比如打出OpenAI和一个随机数，它就会将请求发送到o3-mini（medium）。

模型果然按要求输出OpenAI，以及41这个数字。

在下面这个任务中，研究者要求模型用较低的推理能力，来评估o3-mini在难度很高的GPQA数据集上的表现。

模型首先需要从该URL下载原始文件，然后需要识别哪些部分是问题，哪些是答案，哪些是选项。最后，模型需要整理出所有的问题，并尝试作答，解析结果，最后进行评分。

模型的运行速度极快，因为它调用的是o3-mini，并使用了较低的推理计算。

可以看到，结果为61.62%，和正式评估几乎一模一样。

而且这个运行极快的低推理能力模型，整个评估过程只用了一分钟。

除了代码成绩亮眼，o3-mini也展现出了卓越的数学能力。

在AIME 2024数学竞赛测试中，o3-mini（low）已经接近o1 mini的水平。

o3-mini（medium）以78.2%的准确率超越了o1（图中实心部分），而o3-mini（high）进一步提升了性能。

在延迟方面表现，o3-mini（low）大幅降低了延迟，降低至1秒内，媲美GPT-4的即时响应。

o3-mini（medium）的延迟比o1-mini快一半。

当然，OpenAI为了满足开发者的需求，o3-mini提供了全套API功能，包括函数调用、结构化输出、开发者消息。

更难能可贵的是，在这些功能上，o3-mini的性能不仅完全对标o1，并在多数评测中取得了更好的表现。

另外，在具有挑战性的GPQA数据集测试中，o3-mini展现出稳定的性能，即便是在低强度思考模式下，o3-mini（low）也达到了62%的准确率。

o3-mini暂时只向安全研究院开放测试，可以直接在OpenAI网站中进行申请。

ARC-AGI基准

ARC Prize Foundation是一家非营利组织，使命是在基准测试期间成为AGI的北极星。

他们的第一个基准ARC-AGI，是由Keras之父François Chollet于2019年在关于智力测量的论文中发表的，它在AI领域已经保持5年不败。

击败ARC-AGI的系统，将成为迈向AGI的重要里程碑。

它的全部内容，都是输入示例和输出示例，目标是了解变换的规则，猜出输出的示例。

而它的每项任务，都需要不同的技能。

比如下面这个任务，凭人类直觉，很容易猜出最后一张图应该是什么，但AI很难理解。

在这个任务中，则是需要在黄色方块中，数一下共有多少种颜色的方块，然后用它创建一个边框。

研究者使用了两个ARC-AGI 数据集对 o3 进行了测试：

半私有评估：100个私有任务，用于评估过拟合
公共评估：400个公共任务

他们在两种计算水平下进行了测试，样本规模分别为6（高效模式）和1024（低效模式，计算量是高效模式的172倍）。

厉害的是，在这个基准测试中，o3在低计算模式下，在半私有评估中的得分为75.7%；在高计算模式下，得分为87.5%。

具体来说，高计算模式下的得分为 75.7%，符合 RC-AGI-Pub的预算限制（成本低于1万美元），因此在公共排行榜上排名第一。

低计算模式下的得分为 87.5%，虽然成本较高，但仍然表明在新任务上的性能随着计算量的增加而提升。

这点尤为重要，因为人类在该任务上的表现通常在85%的水平。

超过这一数字，就意味着达到了一个重要的里程碑，因为此前从未有任何AI系统实现过这一成就。这标志着ARC-AGI领域的一个全新突破。

ARC Prize Foundation的主席表示，看到这些分数时，他意识到需要稍微改变一下自己的世界观，修正对AI究竟能做哪些事情的直觉。

而且要知道，目前还仅是AI的早期阶段，所以我们就更需要ARC-AGI这样的持久性基准测试，来对进展进行评估和引导了。

OpenAI o3，还不是AGI

总之，这是AI能力的一次令人惊讶且意义重大的跃升，展现了GPT系列模型前所未有的新任务适应能力。

要知道，ARC-AGI-1从2020年GPT-3的0%提升到2024年GPT-4o的5%，历时4年。

尽管成本较高，但o3的这些成绩并不仅仅是通过在基准测试上应用暴力计算得来的。

可以说，o3的性能不是一次渐进式的改进，而是一次真正的突破，标志着AI能力相比此前的LLM局限性，实现了质的飞跃。

能够适应从未遇到过的任务，意味着o3在ARC-AGI领域的表现已接近人类水平。

当然，这种通用性伴随着高昂的成本，目前还不算经济：我们可以花大约5美元，让人类解决一个ARC-AGI任务，仅消耗几美分的能源。

而o3在低计算模式下每个任务需要17-20美元。但成本效益可能会在未来显著提升，所以，AI在较短的时间内，将代替人类的动作。

o3 相较于GPT系列的改进，证明了架构的重要性。

要知道，我们无法通过给GPT-4增加更多计算量，来获得这样的结果。

请到「今天看啥」查看全文

推荐文章

人工智能那点事 · 一店铺未按要求彻夜亮灯被撬锁开灯？多方回应！

21 小时前

宝玉xp · “你被解雇了吗？”“是啊，我的经理说他试用了 OpenAI 的 -20250205112918

昨天

爱可可-爱生活 · 【DeepSeek：比ChatGPT危险100倍？它正在中文互联-20250205085327

昨天

黄建同学 · 强化学习RL在DeepSeek的训练过程中非常重要（网页链接），-20250203112623

3 天前

宝玉xp · 谷歌向美国平台与设备部门的所有员工提供“自愿离职”选项离职者可获-20250201122402

5 天前

梦幻西游 · 梦幻四格丨点滴路之懒

7 年前

心理测试 · 心话 | 当男生有了女票后最想做哪些事？

7 年前

北大清华讲座 · 6.30-7.1（周五-周六）讲座36场【一带一路：再造中国，再造世界】【书法的当代性】【二十一世纪高等教育发展的关键】

7 年前

中巴价投学苑 · 不读就出局｜年度收益增长率——读《笑傲股市》

7 年前

厦门地税 · 营业税，拜拜！1.7万亿的红包你有份吗？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!