时间过得很快,OpenAI为期12天的发布会终于落下帷幕。
在前面11天的发布会里,OpenAI宣布了许许多多的新功能、新产品。其中有些新产品很令人振奋,比如o1和o1 Pro模型,虽然很贵,但也真的是很强大。
然而,也有一些OpenAI的产品令人大失所望,比如今年年初就在大肆宣传的Sora,大家真正使用起来发现也就那么回事。
小灰自己这几天也在使用Sora,虽然没有网上说的那么不堪,但的确是偏科严重。Sora在人物动作细节方面的表现还可以,但是对提示词的理解有一定偏差,视频质感也差强人意。
就在大家略感失望的情绪下,2024年12月20日,OpenAI放出了最后的王炸:
新一代推理模型o3,即将问世!
为什么是o3?
可能有人会问:新一代模型为什么不叫o2,怎么直接就o3了呢?
其实原因很简单,英国有一家电信服务提供商的名字就叫O2,如果取这个名字可能造成版权或商标冲突,因此新模型直接跳到了o3版本。
刚刚发布的o1 Pro模型都已经这么强大了,未来的o3模型又会达到怎样的“变态”程度呢?
先来说一说编程领域。
OpenAI的大模型经过了两套测试,一套是软件工程师基准测试(左图),一套是编程竞赛平台测试(右图)。
无论在哪一项测试中,o3模型的表现都比o1模型还要强得多。
尤其是codeforces编程竞赛的测试,含金量非常高,全球有16万程序员在这个平台参与竞争。
发布会上这个白衣服
工程师
小哥的
codeforces
成绩是2500多,能在OpenAI公司跟山姆奥特曼坐在一起直播发布会的人,技术有多牛可以想见,绝对是编程高手中的高手。
然而,o3模型在这个平台上的得分高达
2727,排名175,这个成绩绝对秒杀现实里的许多编程大神!
在数学基准测试,以及博士级科学考试GPQA当中,o3也取得了不俗的成绩。其中数学基准测试,o3接近满分,基本上只是错了一道题。
而在
GPQA考试当中,大部分真正的数学博士也就能达到70多分的水平,而o3的成绩高达87.7分。
这还不算完,OpenAI还让o3模型经历了史上最难的,由前沿AI机构Epoch AI 开发的一套全新数学基准测试。这是由一套全新的、从未发表
过的、绝对变态难度的问题所组成。
即使世界最顶尖的数学家,也要花费好几天时间才能解决里面的一道问题。目前所有的AI模型,在这个基准测试的准确率都不到2%。
就像o1模型一样,o3模型也会推出多个版本,包括o3 mini 和o3,估计未来也很可能推出o3 Pro。
目前o3 mini和o3都还处于早期预览的状态,暂不对外开放。其中o3 mini预计在2025年初就能正式上线,而o3模型大概率会在2025年的下半年问世。
o3模型算不算是达到了通用人工智能(AGI)的程度呢?暂时还不算。
但未来的o4、o5、o6模型呢?以当下AI技术的进步速度,我们距离AGI的实现恐怕已经不远了。