专栏名称: AI小岛

AI小岛，高效不烦恼！这里是AI的宝藏岛，通过AI魔法让学习和工作事半功倍，开启新生活的无限可能。

压轴炸场！OpenAI用o3再次重新定义AI：王者之名，无人可撼！

AI小岛 · 公众号 · · 2024-12-21 11:50

正文

昨天，我们还在为“OpenAI 的伤心一日”扼腕叹息，看着 Google 的 Gemini 2.0 Flash Thinking 突然屠榜，AI 世界的天平似乎在摇摆。

而就在大家议论纷纷、甚至对 OpenAI 抱有一丝担忧时：

Sam Altman 用一波“ ho ho ho ！ see you tomorrow ”的推文告诉我们—— 别急，压轴大戏还没登场！

没错，o3 来了。

不是 GPT-4.5，也不是我们以为的 o2，而是一款足以被视作 GPT-5 的超级进化版！

OpenAI 用这张“王炸“重重落地，再次用实力宣告：王者之名，无人可撼！

你一定很好奇，为什么直接跳过了 o2，而是命名为 o3？别着急，文末会揭晓。

o3：接近AGI的划时代突破

OpenAI 的 o3 模型，被誉为是 “超越 GPT-4 的进化之作”，甚至可以看作是通向 AGI（人工通用智能）的里程碑。

以下是它在多个关键测试中的表现，直接将行业标准推向新高度：

1. ARC-AGI测试：突破性的成就

o3 在 ARC-AGI Semi-Private Evaluation 中取得 87.5% 的成绩，远超 85% 的 AGI 临界标准。

相比之下，它的低计算版本也取得了 75.7% 的优异成绩，三倍于 o1 的表现。

意义： ARC-AGI 测试以适应性和创新性为核心，旨在评估 AI 在全新领域的学习和推理能力。

o3 的突破标志着 AI 在理解新领域和解决复杂问题上的能力已进入全新领域。

2. 数学与科学推理：创造新纪录

EpochAI Frontier Math： o3 解决了 25.2% 的问题，而此前的所有模型连 2% 都未能突破。

AIME 2024 数学竞赛： o3 取得了惊人的 96.7% 成绩，仅错了一题，超越几乎所有人类参与者。

意义：数学与科学推理一直是 AGI 的重要评估标准，而 o3 不仅突破了数学难题的天花板，还展现出非凡的领域通用性。

这种能力让它在科学研究和实际应用中展现出极高的潜力。

3. 编程与代码生成：前所未有的进步

Codeforces 编程大赛：o3 达到 2727 的分数，甚至超过了 OpenAI 的首席科学家的个人成绩（2665）。

SWE-Bench 验证：o3 在这一编码评估中超越 o1 22.8 个百分点，成为编程生成领域的绝对领跑者。

意义：在编程领域，o3 不仅表现出更强的逻辑能力和执行效率，还进一步证明可以胜任更多复杂代码生成任务。

4. 其他关键任务：超越人类专家

GPQA Diamond： o3 在这一高难度问答测试中获得了 87.7% 的成绩，远超人类专家水平。

低计算环境表现：即便在资源有限的场景中，o3 的表现依然是 o1 的三倍，展现出卓越的适应性与效率。

意义： o3 不仅在高计算场景中表现出色，其在低资源条件下的强大适应性，使其成为多样化应用场景中的理想选择。

从实验模型到划时代进化：为什么 o3 意义非凡？

o3 的发布不仅仅是一场性能的提升，更是 AI 向 AGI（人工通用智能）迈进的全新台阶。

OpenAI 在发布中明确表示，这次的进化不是渐进式的改良，而是一场彻底的突破。

以下是 o3 的几个革命性特性：

1. 接近 AGI 的能力：全能型AI的觉醒

o3 已经超越了 99.9% 的人类表现，尤其是在数学、科学、编程等领域，展现出跨学科的全能型智能。

这种能力让我们看到，AI 不再是人类特定领域的辅助，而是真正具备通用知识和推理能力的智能体。

2. 可扩展性与安全性：让 AI 更好用、更可靠

为了满足不同场景的需求，OpenAI 同时推出了 o3-mini。

这是一款针对速度优化的小型模型，主要用于高效编程任务，并计划于 2025 年初上线，为开发者提供更多实用化选择。

此外，OpenAI 发布了一篇关于 “审慎对齐” 的研究论文，阐述如何利用 o3 的新能力进一步提高 AI 的安全性与可靠性。

论文地址： openai.com/index/deliberative-alignment

3. AI 进化的加速期：不可思议的迭代速度

从 o1-pro 到 o3，OpenAI 展现了技术飞速迭代的能力。

仅仅在数月时间内，AI 的能力已经进入一个难以想象的高度，而人类对这些模型表现的理解正在逐步跟不上其进步速度。

一个展示 o3 强大能力的案例：自生成、自执行、自评估

北大校友任泓宇通过 Python 要求 o3 构建一个代码生成与执行器，不仅生成复杂代码，还能启动服务器并自动执行指令。

在更具挑战的 GPQA 数据集自评估任务中，o3 以 62% 的准确率快速完成从数据下载、解析到评分的全流程，充分展现了其强大的推理与执行能力。

这一案例表明，o3 已具备自生成、自执行、自评估的能力，为通用智能（AGI）的实现迈出重要一步。

这是否意味着 AGI 已经到来？

o3 的突破性表现，让一个备受期待的问题再次被推到台前：AGI（人工通用智能）是否已经实现？

从 ARC-AGI 的里程碑式突破，到多个领域全面超越人类表现，o3 无疑让我们看到了 AGI 的曙光。

然而，OpenAI 也坦言，o3 在一些基础任务上依然表现欠佳，显示出与人类智能的根本差异。

这也意味着，尽管 o3 是一个重要的里程碑，但 AGI 的全面实现还有一段路要走。

不过，这一切已无可否认地表明，我们正在进入一个快速迈向 AGI 的新时代。

而 o3，正是这个时代的开端。

从“伤心一日”到“历史时刻”：OpenAI 再次封神

昨天我们还在讨论 OpenAI 是否被 Google 的 Gemini 2.0 Flash Thinking 超越，甚至感叹 OpenAI 是否正在失去领先地位。

而今天 o3 的发布，无疑用数据和表现宣告： AI世界的天花板依然由他们定义！

过去 12 天，OpenAI 接连放出“彩蛋”，一步步将期待推向高潮，而今天的 o3，则是最终的压轴大戏。

1 2 天铺垫：每一步，都为了最终的 o3 时刻

Day 1：o1 / ChatGPT Pro

满血版 o1 上线，推出每月 200 美金的 Pro 会员，解锁更强大的 o1 Pro 模式。

Day 2：强化微调

开发者狂喜，推出基于 o1 的强化微调能力，让应用更精准、更灵活。

Day 3：Sora

年初即备受瞩目的 Sora 模型，终于在这一天正式推出，扩展多场景应用能力。

Day 4：ChatGPT Canvas 进化

Canvas 功能迎来全方位升级，重塑 AI 的协作体验，让创意和生产力结合更紧密。

Day 5：ChatGPT 全面整合 Apple 生态

苹果用户狂喜，ChatGPT 正式登陆 macOS 和 iOS，提供无缝 AI 体验。

Day 6：实时视频对话功能上线

手机版 ChatGPT 支持 AI 实时视频对话，还可以共享屏幕！

Day 7：Projects

全新项目管理功能上线，ChatGPT 用户可以在不同对话间共享文件，提升工作效率。

Day 8：搜索功能升级

搜索能力进一步增强，整合地图和语音功能，让 ChatGPT 的日常实用性再上一个台阶。

Day 9：开发者的狂欢

API 全面更新，支持更强大的开发功能，包括函数调用和语音交互。

Day 10：让 ChatGPT 接听电话

压轴炸场！OpenAI用o3再次重新定义AI：王者之名，无人可撼！

正文

请到「今天看啥」查看全文