专栏名称: 程序员小灰
一群喜爱编程技术和算法的小仓鼠。
目录
相关文章推荐
程序员小灰  ·  这个春节,小灰一天都没休息 ·  2 天前  
程序员的那些事  ·  趣图:初五迎财神,初六送穷鬼 ·  3 天前  
OSC开源社区  ·  萨姆·奥特曼:OpenAI在开源问题上一直处 ... ·  5 天前  
程序员小灰  ·  DeepSeek的处境极其危险 ·  5 天前  
51好读  ›  专栏  ›  程序员小灰

OpenAI正式发布o3:通往AGI的路上,已经没有了任何阻碍

程序员小灰  · 公众号  · 程序员  · 2024-12-22 14:13

正文

时间过得很快,OpenAI为期12天的发布会终于落下帷幕。


在前面11天的发布会里,OpenAI宣布了许许多多的新功能、新产品。其中有些新产品很令人振奋,比如o1和o1 Pro模型,虽然很贵,但也真的是很强大。


然而,也有一些OpenAI的产品令人大失所望,比如今年年初就在大肆宣传的Sora,大家真正使用起来发现也就那么回事。


小灰自己这几天也在使用Sora,虽然没有网上说的那么不堪,但的确是偏科严重。Sora在人物动作细节方面的表现还可以,但是对提示词的理解有一定偏差,视频质感也差强人意。


就在大家略感失望的情绪下,2024年12月20日,OpenAI放出了最后的王炸: 新一代推理模型o3,即将问世!




为什么是o3?


可能有人会问:新一代模型为什么不叫o2,怎么直接就o3了呢?


其实原因很简单,英国有一家电信服务提供商的名字就叫O2,如果取这个名字可能造成版权或商标冲突,因此新模型直接跳到了o3版本。



刚刚发布的o1 Pro模型都已经这么强大了,未来的o3模型又会达到怎样的“变态”程度呢?



先来说一说编程领域。


OpenAI的大模型经过了两套测试,一套是软件工程师基准测试(左图),一套是编程竞赛平台测试(右图)。 无论在哪一项测试中,o3模型的表现都比o1模型还要强得多。



尤其是codeforces编程竞赛的测试,含金量非常高,全球有16万程序员在这个平台参与竞争。

发布会上这个白衣服 工程师 小哥的 codeforces 成绩是2500多,能在OpenAI公司跟山姆奥特曼坐在一起直播发布会的人,技术有多牛可以想见,绝对是编程高手中的高手。

然而,o3模型在这个平台上的得分高达 2727,排名175,这个成绩绝对秒杀现实里的许多编程大神!



再来说一说数学领域。

在数学基准测试,以及博士级科学考试GPQA当中,o3也取得了不俗的成绩。其中数学基准测试,o3接近满分,基本上只是错了一道题。


而在 GPQA考试当中,大部分真正的数学博士也就能达到70多分的水平,而o3的成绩高达87.7分。

这还不算完,OpenAI还让o3模型经历了史上最难的,由前沿AI机构Epoch AI 开发的一套全新数学基准测试。这是由一套全新的、从未发表 过的、绝对变态难度的问题所组成。


即使世界最顶尖的数学家,也要花费好几天时间才能解决里面的一道问题。目前所有的AI模型,在这个基准测试的准确率都不到2%。

但o3模型在测试中的正确率超过了25%!


我们什么时候能用上o3模型?

就像o1模型一样,o3模型也会推出多个版本,包括o3 mini 和o3,估计未来也很可能推出o3 Pro。

目前o3 mini和o3都还处于早期预览的状态,暂不对外开放。其中o3 mini预计在2025年初就能正式上线,而o3模型大概率会在2025年的下半年问世。

o3模型,真的很令人期待!


关于AI未来的一些思考

o3模型算不算是达到了通用人工智能(AGI)的程度呢?暂时还不算。

但未来的o4、o5、o6模型呢?以当下AI技术的进步速度,我们距离AGI的实现恐怕已经不远了。






请到「今天看啥」查看全文