OpenAI正式发布o3：通往AGI的路上，已经没有了任何阻碍

程序员小灰 · 公众号 · 程序员 · 2024-12-22 14:13

正文

时间过得很快，OpenAI为期12天的发布会终于落下帷幕。

在前面11天的发布会里，OpenAI宣布了许许多多的新功能、新产品。其中有些新产品很令人振奋，比如o1和o1 Pro模型，虽然很贵，但也真的是很强大。

然而，也有一些OpenAI的产品令人大失所望，比如今年年初就在大肆宣传的Sora，大家真正使用起来发现也就那么回事。

小灰自己这几天也在使用Sora，虽然没有网上说的那么不堪，但的确是偏科严重。Sora在人物动作细节方面的表现还可以，但是对提示词的理解有一定偏差，视频质感也差强人意。

就在大家略感失望的情绪下，2024年12月20日，OpenAI放出了最后的王炸： 新一代推理模型o3，即将问世！

为什么是o3？

可能有人会问：新一代模型为什么不叫o2，怎么直接就o3了呢？

其实原因很简单，英国有一家电信服务提供商的名字就叫O2，如果取这个名字可能造成版权或商标冲突，因此新模型直接跳到了o3版本。

刚刚发布的o1 Pro模型都已经这么强大了，未来的o3模型又会达到怎样的“变态”程度呢？

先来说一说编程领域。

OpenAI的大模型经过了两套测试，一套是软件工程师基准测试（左图），一套是编程竞赛平台测试（右图）。无论在哪一项测试中，o3模型的表现都比o1模型还要强得多。

尤其是codeforces编程竞赛的测试，含金量非常高，全球有16万程序员在这个平台参与竞争。

发布会上这个白衣服工程师小哥的 codeforces 成绩是2500多，能在OpenAI公司跟山姆奥特曼坐在一起直播发布会的人，技术有多牛可以想见，绝对是编程高手中的高手。

然而，o3模型在这个平台上的得分高达 2727，排名175，这个成绩绝对秒杀现实里的许多编程大神！

再来说一说数学领域。

在数学基准测试，以及博士级科学考试GPQA当中，o3也取得了不俗的成绩。其中数学基准测试，o3接近满分，基本上只是错了一道题。

而在 GPQA考试当中，大部分真正的数学博士也就能达到70多分的水平，而o3的成绩高达87.7分。

这还不算完，OpenAI还让o3模型经历了史上最难的，由前沿AI机构Epoch AI 开发的一套全新数学基准测试。这是由一套全新的、从未发表过的、绝对变态难度的问题所组成。

即使世界最顶尖的数学家，也要花费好几天时间才能解决里面的一道问题。目前所有的AI模型，在这个基准测试的准确率都不到2%。

但o3模型在测试中的正确率超过了25%！

我们什么时候能用上o3模型？

就像o1模型一样，o3模型也会推出多个版本，包括o3 mini 和o3，估计未来也很可能推出o3 Pro。

目前o3 mini和o3都还处于早期预览的状态，暂不对外开放。其中o3 mini预计在2025年初就能正式上线，而o3模型大概率会在2025年的下半年问世。

o3模型，真的很令人期待！

关于AI未来的一些思考

o3模型算不算是达到了通用人工智能（AGI）的程度呢？暂时还不算。

但未来的o4、o5、o6模型呢？以当下AI技术的进步速度，我们距离AGI的实现恐怕已经不远了。