昨天,我们还在为“OpenAI 的伤心一日”扼腕叹息,看着 Google 的 Gemini 2.0 Flash Thinking 突然屠榜,AI 世界的天平似乎在摇摆。
而就在大家议论纷纷、甚至对 OpenAI 抱有一丝担忧时:
Sam Altman 用一波“
ho ho ho
!
see you tomorrow
”的推文告诉我们——
别急,压轴大戏还没登场!
没错,o3 来了。
不是 GPT-4.5,也不是我们以为的 o2,而是一款足以被视作 GPT-5 的超级进化版!
OpenAI 用这张“王炸“重重落地,再次用实力宣告:王者之名,无人可撼!
你一定很好奇,为什么直接跳过了 o2,而是命名为 o3?
别着急
,文末会揭晓
。
o3:接近AGI的划时代突破
OpenAI 的 o3 模型,被誉为是 “超越 GPT-4 的进化之作”,甚至可以看作是通向 AGI(人工通用智能)的里程碑。
以下是它在多个关键测试中的表现,直接将行业标准推向新高度:
1. ARC-AGI测试:突破性的成就
o3 在 ARC-AGI Semi-Private Evaluation 中取得 87.5% 的成绩,远超 85% 的 AGI 临界标准。
相比之下,它的低计算版本也取得了 75.7% 的优异成绩,三倍于 o1 的表现。
意义:
ARC-AGI 测试以适应性和创新性为核心,旨在评估 AI 在全新领域的学习和推理能力。
o3 的突破标志着 AI 在理解新领域和解决复杂问题上的能力已进入全新领域。
2. 数学与科学推理:创造新纪录
EpochAI Frontier Math:
o3 解决了 25.2% 的问题,而此前的所有模型连 2% 都未能突破。
AIME 2024 数学竞赛:
o3 取得了惊人的 96.7% 成绩,仅错了一题,超越几乎所有人类参与者。
意义
:数学与科学推理一直是 AGI 的重要评估标准,而 o3 不仅突破了数学难题的天花板,还展现出非凡的领域通用性。
这种能力让它在科学研究和实际应用中展现出极高的潜力。
3. 编程与代码生成:前所未有的进步
Codeforces 编程大赛:o3 达到 2727 的分数,甚至超过了 OpenAI 的首席科学家的个人成绩(2665)。
SWE-Bench 验证:o3 在这一编码评估中超越 o1 22.8 个百分点,成为编程生成领域的绝对领跑者。
意义:
在编程领域,o3 不仅表现出更强的逻辑能力和执行效率,还进一步证明可以胜任更多复杂代码生成任务。
4. 其他关键任务:超越人类专家
GPQA Diamond:
o3 在这一高难度问答测试中获得了 87.7% 的成绩,远超人类专家水平。
低计算环境表现:
即便在资源有限的场景中,o3 的表现依然是 o1 的三倍,展现出卓越的适应性与效率。
意义:
o3 不仅在高计算场景中表现出色,其在低资源条件下的强大适应性,使其成为多样化应用场景中的理想选择。
从实验模型到划时代进化:为什么 o3 意义非凡?
o3 的发布不仅仅是一场性能的提升,更是 AI 向 AGI(人工通用智能) 迈进的全新台阶。
OpenAI 在发布中明确表示,这次的进化不是渐进式的改良,而是一场彻底的突破。
以下是 o3 的几个革命性特性:
1. 接近 AGI 的能力:全能型AI的觉醒
o3 已经超越了 99.9% 的人类表现,尤其是在数学、科学、编程等领域,展现出跨学科的全能型智能。
这种能力让我们看到,AI 不再是人类特定领域的辅助,而是真正具备通用知识和推理能力的智能体。
2. 可扩展性与安全性:让 AI 更好用、更可靠
为了满足不同场景的需求,OpenAI 同时推出了 o3-mini。
这是一款针对速度优化的小型模型,主要用于高效编程任务,并计划于 2025 年初上线,为开发者提供更多实用化选择。
此外,OpenAI 发布了一篇关于 “审慎对齐” 的研究论文,阐述如何利用 o3 的新能力进一步提高 AI 的安全性与可靠性。
论文地址:
openai.com/index/deliberative-alignment
3. AI 进化的加速期:不可思议的迭代速度
从 o1-pro 到 o3,OpenAI 展现了技术飞速迭代的能力。
仅仅在数月时间内,AI 的能力已经进入一个难以想象的高度,而人类对这些模型表现的理解正在逐步跟不上其进步速度。
一个展示 o3 强大能力的案例:自生成、自执行、自评估
北大校友任泓宇通过 Python 要求 o3 构建一个代码生成与执行器,不仅生成复杂代码,还能启动服务器并自动执行指令。
在更具挑战的 GPQA 数据集自评估任务中,o3 以 62% 的准确率快速完成从数据下载、解析到评分的全流程,充分展现了其强大的推理与执行能力。
这一案例表明,o3 已具备自生成、自执行、自评估的能力,为通用智能(AGI)的实现迈出重要一步。
这是否意味着 AGI 已经到来?
o3 的突破性表现,让一个备受期待的问题再次被推到台前:AGI(人工通用智能)是否已经实现?
从 ARC-AGI 的里程碑式突破,到多个领域全面超越人类表现,o3 无疑让我们看到了 AGI 的曙光。
然而,OpenAI 也坦言,o3 在一些基础任务上
依然
表现欠佳,显示出与人类智能的根本差异。
这也意味着,尽管 o3 是一个重要的里程碑,但 AGI 的全面实现还有一段路要走。
不过,这一切已无可否认地表明,我们正在进入一个快速迈向 AGI 的新时代。
而 o3,正是这个时代的开端。
从“伤心一日”到“历史时刻”:OpenAI 再次封神
昨天我们还在讨论 OpenAI 是否被 Google 的 Gemini 2.0 Flash Thinking 超越,甚至感叹 OpenAI 是否正在失去领先地位。
而今天 o3 的发布,无疑用数据和表现宣告:
AI世界的天花板依然由他们定义!
过去 12 天,OpenAI 接连放出“彩蛋”,一步步将期待推向高潮,而今天的 o3,则是最终的压轴大戏。
1
2 天铺垫:每一步,都为了最终的 o3 时刻
Day 1:o1 / ChatGPT Pro
满血版 o1 上线,推出每月 200 美金的
Pro 会员
,解锁更强大的
o1 Pro 模式
。
Day 2:强化微调
开发者狂喜,推出基于 o1 的强化微调能力,让应用更精准、更灵活。
Day 3:Sora
年初即备受瞩目的 Sora 模型,终于在这一天正式推出,扩展多场景应用能力。
Day 4:ChatGPT Canvas 进化
Canvas 功能迎来全方位升级,重塑 AI 的协作体验,让创意和生产力结合更紧密。
Day 5:ChatGPT 全面整合 Apple 生态
苹果用户狂喜,ChatGPT 正式登陆 macOS 和 iOS,提供无缝 AI 体验。
Day 6:实时视频对话功能上线
手机版 ChatGPT 支持 AI 实时视频对话,还可以共享屏幕!
Day 7:Projects
全新项目管理功能上线,ChatGPT 用户可以在不同对话间共享文件,提升工作效率。
Day 8:搜索功能升级
搜索能力进一步增强,整合地图和语音功能,让 ChatGPT 的日常实用性再上一个台阶。
Day 9:开发者的狂欢
API 全面更新,支持更强大的开发功能,包括函数调用和语音交互。
Day 10:让 ChatGPT 接听电话