专栏名称: 果壳
果壳网(Guokr.com)是开放、多元的泛科技兴趣社区。
51好读  ›  专栏  ›  果壳

OpenAI蹿稀式更新,200刀一个月的完整版o1你心动了吗

果壳  · 公众号  · 科学  · 2024-12-06 08:00

正文

提前过年了。


OpenAI昨天在X上发推文,说从12月5日开始,要进行为期十二天的发布会,美国西部时间每天上午十点,每天挤一点点牙膏。


这个配置非常像美国流行的圣诞倒数日历,每天开一个小奖,有一个小惊喜,直到节日来临。


“12天,12场直播,一堆新玩意儿,有大有小”|还说不是圣诞礼盒!


OpenAI CEO萨姆·奥尔特曼(Sam Altman)前几天也在《纽约时报》DealBook峰会上给活动预热。“我们准备了很多新的、很棒的东西,”奥尔特曼说,“在接下来的12个工作日里,我们每天都会发布一个新功能,或者进行一次演示。”


据媒体透露的信息,这12天的发表内容包括之前大火的文本转视频AI Sora的升级版,和ChatGPT的agent版(也就是能处理特定任务的“披皮”ChatGPT),和推理模型o1的完全体。


在此之前,OpenAI好像很久都没有大动作了,距离Sora的第一次亮相已经过去了294天,距离ChatGPT语音版发布已经过去了205天,o1前瞻版的发布也已经是九月的事了。


第一天的内容有这些


今天凌晨,我们围观了12天发布会的第一炮。这个发布会很短,不到二十分钟就结束了。


发布会气氛很轻松随意,像家庭聚会,参与者除了奥尔特曼本人,还包括科学家 Hyung Won Chung(左二),他是o1模型的核心作者,在MIT取得了能源方向的博士学位,目前是OpenAI的研究科学家。右二和右一分别是Max Schwarzer和o1最引人注目的改进“思维链”的提出者Jason Wei。



这场发布会上主要更新的内容有两个:放出o1完全体,推出每月200美元的ChatGPT Pro。ChatGPT Pro可以无限制访问o1完全体。


o1完全体


OpenAI在9月发布了o1前瞻版跟之前的大模型不一样的是,o1牺牲了速度,展示了思维链,能做更复杂的深度思考。在过去的三个月里,我们一直没有见到o1的完整形态,前瞻版也只能供付费用户使用。现在完全版终于来了。


Max Schwarzer表示,比起前瞻版,o1完整版速度更快,正确率更高,更加智能,不会对每个问题都想老半天。


他说:“我们对这个模型进行了一系列非常详细的人工评估,我们发现,它犯重大错误的次数比o1预览版减少了约34%,同时充分思考的速度却提高了约 50%。


在发布会上他们现场演示了三个例子。


Schwarzer是历史爱好者,他问了o1和o1前瞻版同一个问题,让它们列出公元二世纪的罗马皇帝,讲一下他们的在位年代和功绩。这个问题不难,但是GPT-4o经常给出错误答案。


左侧是o1,右侧是o1前瞻版|OpenAI


在现场的演示中,两个模型都给出了正确答案,但是o1只用了14秒就给出了答案,o1前瞻版用了33秒。


“同样的问题我离线测试了几次,发现o1平均比o1预览版快60%。”Schwarzer说。


第二个例子是Hyung Won Chung演示的多模态功能。


作为热力学博士,Hyung Won Chung手绘了一张在太空里建数据中心的示意图,在这个设计里,数据中心靠巨大的太阳能板获取能量,然后靠散热板冷却GPU。



Hyung Won Chung给o1出的题是,这个数据中心功率是一千兆瓦,要让数据中心正常运转,冷却板的最小面积是多少?


o1发现这个问题里没有说明冷却的温度是多少,它按照常识把温度设定为室温,然后迅速算出了冷却板的面积是242万平方米。


第三个例子是Jason Wei演示的,他让o1找到符合描述的蛋白质。之前的o1前瞻版没法回答这个问题。


Wei给了o1六个标准,每一个标准都需要调用特定领域的化学知识,可能有很多蛋白质符合这些,所以o1需要评估所有候选项,然后对照六个标准一条一条进行检验。



最终o1在53秒后给出了正确答案,还展示了思维过程。


这三个例子分别展示了o1速度上的提升、强大的多模态功能,和深度思考能力的提高。


实测解几何题能力大大提高


我们第一时间用o1完全版做了测试。


先问了一个初中物理题,以下三组中,哪个提起重物所需的力最小?



o1几乎秒给答案,还把思考路径写了出来,详细到能做习题辅导。



第二个是逻辑推理题,需要按照规律填出缺失的数字,令人联想到一些考公题。



这道题o1想了1分41秒,也给出了正确答案,思考过程如下:



在直播的最后,奥尔特曼说,ChatGPT Pro后续还会推出更多功能,比如网页浏览,文件上传,函数调用等,明天的直播内容主要是面对开发者的一些更新。


作者:翻翻、Steed

封面图来源:OpenAI


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]