主要观点总结
文章主要围绕OAI十二天直播收官之作进行描述,介绍了最新的模型o3的多个关键点,包括在不同数据集上的表现结果以及在定价、功能和申请使用等方面的信息。
关键观点总结
关键观点1: o3模型在多个数据集上的表现超过其他模型
在ARC-AGI、EpochAI的Frontier Math、SWE-Bench Verified、Codeforces、AIME 2024以及GPQA Diamond等多个数据集上,o3的表现均超过了其他模型,包括o1和GPT系列模型。
关键观点2: o3模型目前处于预览状态,不对所有用户开放
尽管o3的表现非常出色,但目前仅向通过其网站上的链接申请的安全人员开放内测。不过,o3 mini计划于1月底可访问,价格更便宜,且将支持o1的所有功能。
关键观点3: o3模型的推出时间以及命名原因
o3模型的推出时间相对较快,仅三个月后就推出了o1。关于命名原因,是因为之前的版本o2存在版权问题,因此直接命名为o3,属于被动跳级。
关键观点4: 文章对OAI十二天直播的总结和对更新的看法
文章提到了对OAI十二天直播的失望感,认为其中更新内容含有大量水分和营销手段。作者呼吁内容最重要,希望少点营销手段。
正文
可算迎来了OAI十二天直播收官之作,不是GPT4.5,也不是新Agent,DALLE4。第十二天没有多个更新。在谷歌抢先推出“o1极速版”的情况下,奥特曼带着o3来了。 先说结论,o3很强,肉眼可见的强,甚至要重新做数据集来测出它的上限 1️⃣ 在ARC-AGI上:o3在低计算量下的得分超过了o1的三倍,且超过了87%的得分 2️⃣ 在EpochAI的Frontier Math上:o3创下新纪录,解决了25.2%的问题,而其他任何模型的解决率都未超过2% 3️⃣ 在SWE-Bench Verified上:o3的表现比o1高出了22.8个百分点 4️⃣ 在Codeforces上:o3获得了2727分,超越了OpenAI首席科学家的2665分 5️⃣ 在AIME 2024上:o3得分为96.7%,仅错了一个问题 6️⃣ 在GPQA Diamond上:o3的得分为87.7%,得分远超人类专家 纯纯数值怪!那么厉害的模型是不是马上能用呢?至少200刀的Pro用户能内测? No,o3 模型处于“预览”状态,仅向通过其网站上的链接申请的安全人员开放。 好消息是 o3 mini计划1月底可访问。o3-mini 将支持 o1 支持的所有功能、函数调用、结构化输出,同时价格更便宜。而3个月前,o1才跟我们见面,所以o3的期货时间大概率不会很长,至少不是Sora级别的。而且为什么是o3而不是o2也是有说法的。是因为o2存在版权问题,属于是“被动跳级”了 。最后我们来盘点一下12天的所有更新:o1、GPT Pro、o1 pro、强化微调(RFT)、Sora、Canvas写作和开发工具、GPT与苹果智能系统集成、GPT高级语音模式增加视觉能力、Projects功能、GPT AI搜索、一系列API(o1、语音模型、偏好微调)、GPT热线电话1-800-ChatGPTGPT、MacOS桌面应用支持自动化和高级语音、新推理模型o3。以o系列作为开头和结尾,我多少还是失望,这十二天天天熬夜,水分颇大,从之前毫无预告更新,到现在都不是挤牙膏了,是画大饼式更新。还是那句话,内容最重要,少点营销手段吧。。。