专栏名称: 玩转VSCode

编程开发，业界资讯，以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等，全部都可以在这里找到。带你玩转 VS Code！

目录

相关文章推荐

51好读 › 专栏 › 玩转VSCode

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

玩转VSCode · 公众号 · · 2024-12-21 09:24

正文

新智元报道

编辑：编辑部 HYZ

【新智元导读】 OpenAI下一代模型——o3，重磅诞生了！陶哲轩预言难住AI好几年的数学测试，它瞬间破解，编程水平位于全球前200，在ARC-AGI基准中更是惊人，打破所有AI纪录接近人类水平，离AGI更近一步。

12天最后一天，OpenAI下一代推理模型o3真的出世了！

奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍

正如所爆料那样，突如其来的o3成为整场直播的「压轴菜」。

奥特曼表示，之所以跳过o2，是因为对伙伴的尊重，以及延续OpenAI一贯「起名特别差」的传统。

奥特曼的谜底也终于揭晓了——3个o

要知道，距离9月o1的出世，才过去了整整3个月的时间。o3的迭代速度，证明了Scaling Law似乎并未终结。

根据Keras之父发布的报告称，o3在低计算量模式下，每个任务需要花费高达20美金，而在高计算量模式中每个任务则需要数千美元。

o3数学代码封神，粉碎o1

在多项基准测试中，o3再次刷新SOTA，就数学、代码、软件工程等领域，完全粉碎了满血版o1！

在AIME 2024数学竞赛评测中，o3取得了96.7%的准确率，性能直接飙升13.4%；在博士级科学问答基准GPQA Diamond上，o3准确率为87.7%，相较于上一代o1提升9.7%。

在今年11月Epoch AI发布的数学基准Frontier Math上，o3准确率高达25.2%。

这个基准中，今天所有模型的准确率都低于2%，但是在激进的测试时间设置下，o3已经能够达到25%的准确率。

要知道，联手60多位数学家出题的陶哲轩，曾认为这项测试能够难住AI好多年。

如今，这一说法又被OpenAI o3推翻了。

在软件工程SWE-bench Verified基准上，o3的代码性能从o1的48.9%狂飙22.8%，达到了71.7%。

在Codeforces中，o3的Elo得分为2727，相较o1提升了800多分。

这个表现，已经达到了International Grandmaster的水平，相当于位列175名的人类选手。

甚至，超过了OpenAI的研究高级副总裁。

除o3之外，o3-mini同样在数学、编码、博士级科学问答、函数调用等基准上，取得了新的突破。

它真正定义了一种新的成本效益推理前沿。

奥特曼表示，这两款新模型将面向研究人员测试，并期待未来尽快推出上线。

OpenAI研究科学家Sebastien Bubeck称，o3在Frontier Maths取得25%准确率，在菲尔兹奖得主Tim Gowers看来极其惊人。这暗示了AI发展火花加速迸发。

网友纷纷表示，就在今天，我们已经实现了AGI！

o3-mini：三种「思考模式」，计算越多能力越强

o3-mini作为o3系列的新成员，与o1-mini一样，将为开发者带来高性价比的AI体验。

在编程能力评测中，o3-mini展现出惊人的实力。

通过「自适应思考时间」（adaptive thinking time）机制，o3能够根据任务难度自动调整推理深度。

由此，它才实现了在代码生成方面超越了前代o1。更令人惊叹的是，其运行速度和成本仅为o1的1/10。

o3-mini引入了三档思考级别——低强度推理、中等强度推理、高强度推理，可以根据具体需求去调整模型的推理深度。

简言之，简单任务能够得到快速响应。而复杂的问题，模型则可开启更深度的思考模式。

任泓宇（左）本科毕业于北大，后在斯坦福获得博士学位，负责o3-mini的训练

具体来说，在Codeforces测试中，o3-mini的Elo评分随着思考时间的增加，性能逐步的到提升。

甚至，在中等强度思下，o3-mini（medium）已经超了满血版o1的表现。

虽然o3-mini（high）在高强度思考下，仍落后于o3，但几乎差别不大。

而且，在成本和思考速度方面，o3-mini取得了超越o1-mini更好的性能。

在演示中，研究者要求模型使用Python实现代码生成器和执行器。

启动之后，就像运行Python脚本一样，模型将在本地启动一个服务器，带有一个包含文本框的UI。

然后我们就可以在其中发出编码请求了，它会请求调用o3-mini API，它将解决任务，返回一段代码。

代码会保存在本地桌面上，然后打开终端自动执行代码。

以下，就是模型生成的代码，用时仅38秒。

把代码复制粘贴到服务器上，并运行。

然后，便可获得对应的UI界面——一个文本框。

我们可以在其中输入代码，比如打出OpenAI和一个随机数，它就会将请求发送到o3-mini（medium）。

模型果然按要求输出OpenAI，以及41这个数字。

在下面这个任务中，研究者要求模型用较低的推理能力，来评估o3-mini在难度很高的GPQA数据集上的表现。

模型首先需要从该URL下载原始文件，然后需要识别哪些部分是问题，哪些是答案，哪些是选项。最后，模型需要整理出所有的问题，并尝试作答，解析结果，最后进行评分。

模型的运行速度极快，因为它调用的是o3-mini，并使用了较低的推理计算。

可以看到，结果为61.62%，和正式评估几乎一模一样。

而且这个运行极快的低推理能力模型，整个评估过程只用了一分钟。

除了代码成绩亮眼，o3-mini也展现出了卓越的数学能力。

请到「今天看啥」查看全文

推荐文章

理想聚焦 · 老杨头：纽约立交桥上救火车夹着国旗，闪着警报，咋回事？

8 年前

考研英语时事阅读 · 【TED演说】重新思考出轨... 给所有爱过的人| 总第47期

8 年前

冲蒌老伍 · 台山两代人的童年回忆，感慨万千

8 年前

电商解析 · 非京牌京籍网约车司机面临下岗危机新政下网约车格局靠服务取胜

7 年前

济宁拉呱 · 吃完大蒜满嘴味儿？别再吃口香糖了，用这个就能解决！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!