专栏名称: 机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
目录
相关文章推荐
人工智能那点事  ·  一店铺未按要求彻夜亮灯被撬锁开灯?多方回应! ·  21 小时前  
爱可可-爱生活  ·  【DeepSeek:比ChatGPT危险10 ... ·  昨天  
黄建同学  ·  强化学习RL在DeepSeek的训练过程中非 ... ·  3 天前  
51好读  ›  专栏  ›  机器学习研究组订阅

OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题

机器学习研究组订阅  · 公众号  · AI  · 2024-12-21 20:23

正文

12天最后一天,OpenAI下一代推理模型o3真的出世了!

奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍
正如所爆料那样,突如其来的o3成为整场直播的「压轴菜」。
奥特曼表示,之所以跳过o2,是因为对伙伴的尊重,以及延续OpenAI一贯「起名特别差」的传统。

奥特曼的谜底也终于揭晓了——3个o
要知道,距离9月o1的出世,才过去了整整3个月的时间。o3的迭代速度,证明了Scaling Law似乎并未终结。
根据Keras之父发布的报告称,o3在低计算量模式下,每个任务需要花费高达20美金,而在高计算量模式中每个任务则需要数千美元。

o3数学代码封神,粉碎o1


在多项基准测试中,o3再次刷新SOTA,就数学、代码、软件工程等领域,完全粉碎了满血版o1!
在AIME 2024数学竞赛评测中,o3取得了96.7%的准确率,性能直接飙升13.4%;在博士级科学问答基准GPQA Diamond上,o3准确率为87.7%,相较于上一代o1提升9.7%。
在今年11月Epoch AI发布的数学基准Frontier Math上,o3准确率高达25.2%。
这个基准中,今天所有模型的准确率都低于2%,但是在激进的测试时间设置下,o3已经能够达到25%的准确率。
要知道,联手60多位数学家出题的陶哲轩,曾认为这项测试能够难住AI好多年。
如今,这一说法又被OpenAI o3推翻了。
在软件工程SWE-bench Verified基准上,o3的代码性能从o1的48.9%狂飙22.8%,达到了71.7%。
在Codeforces中,o3的Elo得分为2727,相较o1提升了800多分。
这个表现,已经达到了International Grandmaster的水平,相当于位列175名的人类选手。
甚至,超过了OpenAI的研究高级副总裁
除o3之外,o3-mini同样在数学、编码、博士级科学问答、函数调用等基准上,取得了新的突破。
它真正定义了一种新的成本效益推理前沿。
奥特曼表示,这两款新模型将面向研究人员测试,并期待未来尽快推出上线。
OpenAI研究科学家Sebastien Bubeck称,o3在Frontier Maths取得25%准确率,在菲尔兹奖得主Tim Gowers看来极其惊人。这暗示了AI发展火花加速迸发。
网友纷纷表示,就在今天,我们已经实现了AGI

o3-mini:三种「思考模式」,计算越多能力越强

o3-mini作为o3系列的新成员,与o1-mini一样,将为开发者带来高性价比的AI体验。
在编程能力评测中,o3-mini展现出惊人的实力。
通过「自适应思考时间」(adaptive thinking time)机制,o3能够根据任务难度自动调整推理深度。
由此,它才实现了在代码生成方面超越了前代o1。更令人惊叹的是,其运行速度和成本仅为o1的1/10。
o3-mini引入了三档思考级别——低强度推理、中等强度推理、高强度推理,可以根据具体需求去调整模型的推理深度。

简言之,简单任务能够得到快速响应。而复杂的问题,模型则可开启更深度的思考模式。

任泓宇(左)本科毕业于北大,后在斯坦福获得博士学位,负责o3-mini的训练
具体来说,在Codeforces测试中,o3-mini的Elo评分随着思考时间的增加,性能逐步的到提升。
甚至,在中等强度思下,o3-mini(medium)已经超了满血版o1的表现。
虽然o3-mini(high)在高强度思考下,仍落后于o3,但几乎差别不大。
而且,在成本和思考速度方面,o3-mini取得了超越o1-mini更好的性能。
在演示中,研究者要求模型使用Python实现代码生成器和执行器。
启动之后,就像运行Python脚本一样,模型将在本地启动一个服务器,带有一个包含文本框的UI。
然后我们就可以在其中发出编码请求了,它会请求调用o3-mini API,它将解决任务,返回一段代码。
代码会保存在本地桌面上,然后打开终端自动执行代码。
以下,就是模型生成的代码,用时仅38秒。
把代码复制粘贴到服务器上,并运行。
然后,便可获得对应的UI界面——一个文本框。
我们可以在其中输入代码,比如打出OpenAI和一个随机数,它就会将请求发送到o3-mini(medium)。
模型果然按要求输出OpenAI,以及41这个数字。
在下面这个任务中,研究者要求模型用较低的推理能力,来评估o3-mini在难度很高的GPQA数据集上的表现。
模型首先需要从该URL下载原始文件,然后需要识别哪些部分是问题,哪些是答案,哪些是选项。最后,模型需要整理出所有的问题,并尝试作答,解析结果,最后进行评分。
模型的运行速度极快,因为它调用的是o3-mini,并使用了较低的推理计算。
可以看到,结果为61.62%,和正式评估几乎一模一样。
而且这个运行极快的低推理能力模型,整个评估过程只用了一分钟。
除了代码成绩亮眼,o3-mini也展现出了卓越的数学能力。
在AIME 2024数学竞赛测试中,o3-mini(low)已经接近o1 mini的水平。
o3-mini(medium)以78.2%的准确率超越了o1(图中实心部分),而o3-mini(high)进一步提升了性能。
在延迟方面表现,o3-mini(low)大幅降低了延迟,降低至1秒内,媲美GPT-4的即时响应。
o3-mini(medium)的延迟比o1-mini快一半。
当然,OpenAI为了满足开发者的需求,o3-mini提供了全套API功能,包括函数调用、结构化输出、开发者消息。
更难能可贵的是,在这些功能上,o3-mini的性能不仅完全对标o1,并在多数评测中取得了更好的表现。
另外,在具有挑战性的GPQA数据集测试中,o3-mini展现出稳定的性能,即便是在低强度思考模式下,o3-mini(low)也达到了62%的准确率。
o3-mini暂时只向安全研究院开放测试,可以直接在OpenAI网站中进行申请。

ARC-AGI基准


ARC Prize Foundation是一家非营利组织,使命是在基准测试期间成为AGI的北极星。
他们的第一个基准ARC-AGI,是由Keras之父François Chollet于2019年在关于智力测量的论文中发表的,它在AI领域已经保持5年不败。
击败ARC-AGI的系统,将成为迈向AGI的重要里程碑。
它的全部内容,都是输入示例和输出示例,目标是了解变换的规则,猜出输出的示例。
而它的每项任务,都需要不同的技能。
比如下面这个任务,凭人类直觉,很容易猜出最后一张图应该是什么,但AI很难理解。
在这个任务中,则是需要在黄色方块中,数一下共有多少种颜色的方块,然后用它创建一个边框。
研究者使用了两个ARC-AGI 数据集对 o3 进行了测试:
  • 半私有评估:100个私有任务,用于评估过拟合

  • 公共评估:400个公共任务

他们在两种计算水平下进行了测试,样本规模分别为6(高效模式)和1024(低效模式,计算量是高效模式的172倍)。
厉害的是,在这个基准测试中,o3在低计算模式下,在半私有评估中的得分为75.7%;在高计算模式下,得分为87.5%。
具体来说,高计算模式下的得分为 75.7%,符合 RC-AGI-Pub的预算限制(成本低于1万美元),因此在公共排行榜上排名第一。
低计算模式下的得分为 87.5%,虽然成本较高,但仍然表明在新任务上的性能随着计算量的增加而提升。
这点尤为重要,因为人类在该任务上的表现通常在85%的水平。
超过这一数字,就意味着达到了一个重要的里程碑,因为此前从未有任何AI系统实现过这一成就。这标志着ARC-AGI领域的一个全新突破。
ARC Prize Foundation的主席表示,看到这些分数时,他意识到需要稍微改变一下自己的世界观,修正对AI究竟能做哪些事情的直觉。
而且要知道,目前还仅是AI的早期阶段,所以我们就更需要ARC-AGI这样的持久性基准测试,来对进展进行评估和引导了。

OpenAI o3,还不是AGI

总之,这是AI能力的一次令人惊讶且意义重大的跃升,展现了GPT系列模型前所未有的新任务适应能力。
要知道,ARC-AGI-1从2020年GPT-3的0%提升到2024年GPT-4o的5%,历时4年。
尽管成本较高,但o3的这些成绩并不仅仅是通过在基准测试上应用暴力计算得来的。
可以说,o3的性能不是一次渐进式的改进,而是一次真正的突破,标志着AI能力相比此前的LLM局限性,实现了质的飞跃。
能够适应从未遇到过的任务,意味着o3在ARC-AGI领域的表现已接近人类水平。
当然,这种通用性伴随着高昂的成本,目前还不算经济:我们可以花大约5美元,让人类解决一个ARC-AGI任务,仅消耗几美分的能源。
而o3在低计算模式下每个任务需要17-20美元。但成本效益可能会在未来显著提升,所以,AI在较短的时间内,将代替人类的动作。
o3 相较于GPT系列的改进,证明了架构的重要性。
要知道,我们无法通过给GPT-4增加更多计算量,来获得这样的结果。





请到「今天看啥」查看全文