记者 罗亦丹
编辑 曲筱艺
实习生 彭紫桐
12月21日,OpenAI连续12个工作日的直播发布活动正式收官,与第一天发布正式版o1模型相对应的是,最后一天OpenAI首席执行官山姆·奥特曼推出了该公司的下一代大模型并将其命名为o3,o3在一系列测试中的表现超过了o1,并在一项关于通往AGI(通用人工智能)的测试中表现优异。
不过,同今年年中发布o1预览版时相同,山姆·奥特曼坦言o1仍然需要进行安全测试,并没有公开具体的对外界开放的日程表。取而代之的是o3-mini(即迷你版本)会在明年1月底发布。值得注意的是,o3-mini的训练者是北大计算机系毕业,后在斯坦福获得博士学位的任泓宇。
总体来看,本次OpenAI持续约两周的发布活动算得上“量大管饱”,包括正式版本o1、Sora的“千呼万唤始出来”,也包括下一代模型o3的推出,中间还夹杂了一系列针对开发者、具体产品以及算法技术上的更新升级。但发布内容虽多,却并未再现像上半年视频模型Sora和多模态模型GPT-4o推出时那样带给业界的震撼,尤其是不少用户在使用过正式发布的Sora后发现该产品仍然存在较多缺陷,并非明显优于国内视频模型。这或许说明OpenAI虽然仍是AI大模型领域的佼佼者,但已并非望尘莫及。
o3大模型现身Arc
AGI测试题得分超过人类阈值
从左至右分别为Arc Prize基金会主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席执行官山姆·奥特曼。
本次OpenAI的“收官”直播,山姆·奥特曼与OpenAI高级副总裁、研究主管Mark Chen担任主持人,另外还有两位解说嘉宾分两次上场。
在“上半场”,Mark首先介绍了o3大模型的能力:在一项由现实世界软件任务组成的基准测试中,o3得分71.7,超过了得分48.9的o1和得分41.3的o1 preview(预览版)。而在一项名为Elo的竞争性编程能力测评上,o3取得了2727分,o1评分1891,o1 preview评分1258,o3的性能已经达到了o1 preview的两倍多。而在数学基准测试中o3的得分为96.7,也超过了前两者的83.3分和56.7分,“这表示我们正在攀登实用性的前沿。”Mark说。
作为对比,Mark本人就是计算机专家,他还曾指导过类似的编程竞赛,但他本人在编程测评上的最好成绩约为2500分,这一点上他被o3击败了。不过他在数学竞赛上的最高分是满分,这一点上o3仍然无法达到人类顶尖水平。“这么说,我就安全了。”山姆·奥特曼对此打趣道。
事实上,在OpenAI的最后一场直播之前,有很多网友猜测其是否能够再次震撼业界,如推出一款通往AGI的跨时代产品。而第一位嘉宾——Arc Prize基金会主席Greg Camerad的出场证实了网友的猜测方向。
Arc Prize是一个非营利性组织,其推出了“通用人工智能抽象和推理语料库”(ARC-AGI)基准,来衡量AI在获取在未知任务上的效率,该组织为AGI所下的定义为:一个可以在其训练数据之外有效地获得新技能的系统。
Greg Camerad表示,该组织的测试题旨在验证大模型在通往AGI方向上的水平,目前o3取得了该组织经验证过的最高分:在低算力配置下,其准确率达到75.7%,高算力下的表现提升至87.5%,而人类平均水平的阈值为85%,这意味着o3在该项测评中的表现已经达到了人类水平,这是一个重要的里程碑,而在o3达到这一水平之前,该测试题已经5年未被攻克。
不过,ARC Prize组织方面也表示,这并不代表已经实现了AGI,因为o3在某些简单任务上仍有失误,该组织会继续举办大奖赛,直到出现一个取得85%成绩的高效开源解决方案。根据ARC Prize组织透露的数据,高算力下的o3模型执行每个任务的消耗高达1000美元
OpenAI研究员任泓宇(左)介绍o3-mini大模型。
虽然o3成为了OpenAI最先进的大模型,不过山姆·奥特曼也坦言,o3不会马上对外开放,理由是该大模型仍然需要进行安全测试。不过他表示将首先开放外部安全测试申请,同时明年1月底将率先开放o3-mini大模型。