【新智元导读】
OpenAI下一代模型——o3,重磅诞生了!陶哲轩预言难住AI好几年的数学测试,它瞬间破解,编程水平位于全球前200,在ARC-AGI基准中更是惊人,打破所有AI纪录接近人类水平,离AGI更近一步。
12天最后一天,OpenAI下一代推理模型o3真的出世了!
奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍
正如所爆料那样,突如其来的o3成为整场直播的「压轴菜」。
奥特曼表示,之所以跳过o2,是因为对伙伴的尊重,以及延续OpenAI一贯「起名特别差」的传统。
要知道,距离9月o1的出世,才过去了整整3个月的时间。o3的迭代速度,证明了Scaling Law似乎并未终结。
根据Keras之父发布的报告称,o3在低计算量模式下,每个任务需要花费高达20美金,而在高计算量模式中每个任务则需要数千美元。
在多项基准测试中,o3再次刷新SOTA,就数学、代码、软件工程等领域,完全粉碎了满血版o1!
在AIME 2024数学竞赛评测中,o3取得了96.7%的准确率,性能直接飙升13.4%;在博士级科学问答基准GPQA Diamond上,o3准确率为87.7%,相较于上一代o1提升9.7%。
在今年11月Epoch AI发布的数学基准Frontier Math上,o3准确率高达25.2%。
这个基准中,今天所有模型的准确率都低于2%,但是在激进的测试时间设置下,o3已经能够达到25%的准确率。
要知道,联手60多位数学家出题的陶哲轩,曾认为这项测试能够难住AI好多年。
在软件工程SWE-bench Verified基准上,o3的代码性能从o1的48.9%狂飙22.8%,达到了71.7%。
在Codeforces中,o3的Elo得分为2727,相较o1提升了800多分。
这个表现,已经达到了International Grandmaster的水平,相当于位列175名的人类选手。
除o3之外,o3-mini同样在数学、编码、博士级科学问答、函数调用等基准上,取得了新的突破。
奥特曼表示,这两款新模型将面向研究人员测试,并期待未来尽快推出上线。
OpenAI研究科学家Sebastien Bubeck称,o3在Frontier Maths取得25%准确率,在菲尔兹奖得主Tim Gowers看来极其惊人。这暗示了AI发展火花加速迸发。
o3-mini:三种「思考模式」,计算越多能力越强
o3-mini作为o3系列的新成员,与o1-mini一样,将为开发者带来高性价比的AI体验。
在编程能力评测中,o3-mini展现出惊人的实力。
通过「自适应思考时间」(adaptive thinking time)机制,o3能够根据任务难度自动调整推理深度。
由此,它才实现了在代码生成方面超越了前代o1。更令人惊叹的是,其运行速度和成本仅为o1的1/10。
o3-mini引入了三档思考级别——低强度推理、中等强度推理、高强度推理,可以根据具体需求去调整模型的推理深度。
简言之,简单任务能够得到快速响应。而复杂的问题,模型则可开启更深度的思考模式。
任泓宇(左)本科毕业于北大,后在斯坦福获得博士学位,负责o3-mini的训练
具体来说,在Codeforces测试中,o3-mini的Elo评分随着思考时间的增加,性能逐步的到提升。
甚至,在中等强度思下,o3-mini(medium)已经超了满血版o1的表现。
虽然o3-mini(high)在高强度思考下,仍落后于o3,但几乎差别不大。
而且,在成本和思考速度方面,o3-mini取得了超越o1-mini更好的性能。
在演示中,研究者要求模型使用Python实现代码生成器和执行器。
启动之后,就像运行Python脚本一样,模型将在本地启动一个服务器,带有一个包含文本框的UI。
然后我们就可以在其中发出编码请求了,它会请求调用o3-mini API,它将解决任务,返回一段代码。
代码会保存在本地桌面上,然后打开终端自动执行代码。
我们可以在其中输入代码,比如打出OpenAI和一个随机数,它就会将请求发送到o3-mini(medium)。
模型果然按要求输出OpenAI,以及41这个数字。
在下面这个任务中,研究者要求模型用较低的推理能力,来评估o3-mini在难度很高的GPQA数据集上的表现。
模型首先需要从该URL下载原始文件,然后需要识别哪些部分是问题,哪些是答案,哪些是选项。最后,模型需要整理出所有的问题,并尝试作答,解析结果,最后进行评分。
模型的运行速度极快,因为它调用的是o3-mini,并使用了较低的推理计算。
可以看到,结果为61.62%,和正式评估几乎一模一样。
而且这个运行极快的低推理能力模型,整个评估过程只用了一分钟。
除了代码成绩亮眼,o3-mini也展现出了卓越的数学能力。