专栏名称: 混沌学园

咨询服务

【重磅直播】2025，将是AI行业真正的星辰大海？

混沌学园 · 公众号 · 学习 · 2024-12-27 21:04

主要观点总结

本文介绍了OpenAI在连续12天直播中展示的技术突破和产品创新，特别是最后的压轴大戏OpenAI o3的能力。文章提到了o3在多个基准测试中的表现，包括在软件工程考试、编码竞赛平台Codeforces、数学基准测试FrontierMath以及ARC-AGI中的表现。此外，本文还回顾了直播中的其他重要事件，如o1的强化微调、Sora的发布等。最后，文章提到了12月28日的活动，邀请到了田渊栋老师等AI行业的专家分享最新的进展和思考。

关键观点总结

关键观点1: OpenAI o3的能力展示

o3在多个基准测试中表现出强大的能力，包括在软件工程考试、Codeforces、FrontierMath以及ARC-AGI中的表现。它的成绩超过了大多数模型，展现了其在人工智能领域的领先地位。

关键观点2: OpenAI连续12天的直播回顾

文章回顾了OpenAI连续12天的直播中的其他重要事件，包括基于o1的强化微调、Sora的发布、ChatGPT的新功能发布等。

关键观点3: 12月28日的活动

文章提到了12月28日的活动，该活动邀请了AI行业的专家分享最新的进展和思考，包括田渊栋老师、脉脉创始人林凡、云迹科技创始人支涛、云九资本合伙人任鑫以及混沌合伙人张雷等。

正文

12月21日凌晨2点，OpenAI的12天直播，终于来到了最终章。奥特曼，也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。

OpenAI o3。

又一次超群，又一次把模型的能力，推到了新的高度。也向全世界证明了，OpenAI，依然在铁王座上牢不可摧。而OpenAI直播一完，X上基本就沸腾了。

o3的能力，对现在所有模型，几乎都直接是降维打击。

【12月28日 ，混沌邀请到了硅谷知名华人AI科学家田渊栋老师为我们带来AI方面的最新进展和思考， 更有脉脉创始人兼CEO林凡、云迹科技创始人支涛、云九资本合伙人任鑫、混沌合伙人张雷等AI行业从业者、专家们带来的精彩的圆桌探索流，不容错过！】

看下o3的能力吧。

一些粗的评测集简单过一下。

左边的是 软件工程考试（SWE-Bench Verified） ，这就像是一个考写程序的考试，比如你写一个软件要它快速、准确，还不能有 bug（小错误）。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。

o3 的成绩：71.7%，比o1还强了不少。

右边的那个基准比较猛，Codeforces，一个全球著名的编码竞赛平台。

o3的得分是2727，这个得分，相当于整个榜单的第175名，已经超越了99.99%的人类了。

o1的代码能力已经强到爆炸了，而o3，又向AGI的山顶，前进了一大步。

FrontierMath，Epoch AI 开发的一个数学基准测试，由60多位顶尖数学家的合作开发，旨在评估人工智能在高级数学推理方面的能力。

而且为了避免数据污染，所有的题目都是原创的且从来没有发布过的新题目。

之前GPT-4 和 Gemini 1.5 Pro这种模型去评估的时候，成功功率不足2%，与其他传统数学基准（如 GSM-8K 和 MATH）中超过90%的成功率形成鲜明对比。

而这一次，o3直接达到了25.2。

当各大其他模型都还在卷传统数学基准的时候，o3真的已经进入了另一个世界了。就像大家还在大斗师阶段互相卷，你是五星大斗师，我是八星大斗师。两者争论不休，正准备要比试比试，忽然就看到一个斗宗强者踏空而行。

然后，就是我觉得，整个基准里，最有趣的一个基准了： ARC-AGI。

先说说这是个啥玩意。

ARC-AGI于2019年首次提出，旨在通过一系列抽象和推理任务来测试AI系统的能力。

主要是因为传统的技能测量方法并不能有效代表智能，因为它们往往依赖于先前知识和经验，而真正的智能应体现在广泛的适应能力和通用性上。

所以，ARC-AGI诞生了，里面的这些任务要求AI识别模式并解决新问题，每个任务由输入输出示例组成。这些任务以网格形式呈现，每个方块可以是十种颜色中的一种，网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出，测试其推理和抽象能力。

可以简单的理解成，找规律。

大概就是这样的。

非常的难且抽象。

过去几代模型的评分在此：

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

但是今天，o3的分数，达到了恐怖的87.5%。

从0%到5%，整整花了5年的时间，而如今，从5%到87.5%，仅仅只花了半年。

而对应的，人类的阈值分数，是85%。

我们通往AGI的路上，已经没有任何阻碍了。

不过o3强归强，但是又是一个期货，OpenAI目前只对红队开放，如果是巨佬的话，可以去申请试试。

目前不知道o3什么时候放出，但是OpenAI又基于o3，训了3个小尺寸的o3模型。

目前o3-mimi，预估在1月底可以对外开放，但是感觉到时候，肯定又是pro会员专属的模型了。

我越来越期待，2025年AI行业的进化了。 推理模型、Agent、AI硬件、世界模型。 每一个都是比这个中间态的2024，都更让人兴奋的东西。

2025，必是AI行业，真正的星辰大海。

我们也在最后，回顾一下这12天的直播吧。

Day 1：满血o1上线，ChatGPT Pro会员上线，o1 pro推出。

Day 2：基于o1的强化微调。

Day 3：Sora正式发布。

Day 4：ChatGPT Canvas全员开放以及小功能更新。

Day 5：给苹果站台，宣传苹果全系接入GPT。

Day 6：4o的实时视频理解上线。

Day 7：ChatGPT发布新建文件夹“项目”功能。

Day 8：ChatGPT Search全量开放，搜索体验大幅优化。

Day 9：发布了o1的API、更新了实时语音的API、发布了偏好微调能力（PFT）。

Day 10：物理意义上的可以给ChatGPT打电话了。