专栏名称: 第一财经YiMagazine
这里是《第一财经周刊》读者俱乐部,我们为你发掘精彩的商业价值,也邀请你一起探寻明亮的商业世界。
目录
相关文章推荐
第一财经YiMagazine  ·  荣耀股东数增至17个;小米成全球第二大智能手 ... ·  4 天前  
经济观察报  ·  拉锯十年,高傲的苹果补税130亿欧元 ·  5 天前  
51好读  ›  专栏  ›  第一财经YiMagazine

OpenAI发布新模型o1,是新范式的开始吗?

第一财经YiMagazine  · 公众号  · 财经  · 2024-09-20 08:55

正文

撰文:吴一凡

表格整理:吴一凡|制图:程星

编辑:王杰夫

Key Points


o1模型在数学和编程方面的推理能力显著提升,但在其他任务上几乎没有进步;


强化学习与思维链是o1推理能力提升的主要动力,代价是模型「思考」时间更长,算力消耗更大;


o1-preview的使用价格是GPT-4o的3到4倍;


o1模型意味着Scaling Law或许可以继续生效,从训练阶段转向推理阶段;


OpenAI在提升模型能力与产品化的速度上都在放缓。


9月13日,OpenAI发布了两款大语言模型o1-preview和o1-mini,也就是此前备受关注的「草莓」模型。

OpenAI科学家Hyung Won Chung用「单词Strawberry里有几个字母r?」这个问题来展示o1模型的推理能力。

OpenAI放弃了此前GPT系列的命名方法,对此它给出了这样的解释,「对于复杂的推理任务来说,这是一个重大的进步,代表了AI能力的一个新的水平。因此,我们将计数器重置为1,并将这个模型系列命名为OpenAI o1。」

o1模型不仅偏科,反应还慢,而且更贵了

o1模型是一个系列,此次发布的o1-preview是一个预览版,目前还没有浏览网页、上传文件或图片等功能。o1-mini模型更小、更便宜,适合需要大量推理但不需要广泛世界知识的应用场景。

和之前的大语言模型相比,o1模型的推理能力有了显著提升,主要体现在数据分析、数学和编程方面。OpenAI称,这是它目前为止推理能力最好的模型,下一个模型将在物理、化学和生物学方面达到与博士生接近的水平。但是,o1模型并没有全方位碾轧其他的大语言模型,它只是理科很强,在文本生成这类文科向的任务上,GPT-4o仍保持优势。

而且,更好的推理能力是有代价的。o1主要采用了一种名为「思维链」(Chain of Thought,CoT)的方案,即把一个复杂的问题拆解为若干子问题,以此来提升推理能力。但更长的推理环节让o1模型的响应速度更慢,一个稍微复杂点的问题就需要花费10多秒来处理。对于那些已经习惯了模型及时响应的用户来说,o1的使用体验并不友好。

同时,由于推理阶段的算力需求的增加,o1更贵了。目前,o1-preview和o1-mini每周的消息限额分别为30条和50条,且API仅开放给第五级用户,也就是已经消费了1000美元及以上且付费超过1个月的开发者。o1-preview的定价明显更高,每百万输入token 15美元,每百万输出token 60美元,分别是GPT-4o的3倍和4倍。

看起来,o1模型并不是一款面向大部分普通用户的模型,而是面向部分特定科研用户的特化模型,它在速度、成本和应用范围上都有明显局限性。

推理能力提升的关键是让模型像人一样慢慢思考

该系列模型之所以拥有更强大的推理能力,是因为OpenAI采用了强化学习算法来训练模型。这和传统的大语言模型预训练方法有本质上的不同:二者属于不同的机器学习范式(具体包括监督学习、半监督学习、无监督学习、自监督学习和强化学习)。

之前的大语言模型预训练采用的是自监督学习范式。自监督学习通常涉及设计一种预测任务,利用数据本身的结构信息训练模型。强化学习涉及一个智能体在环境中采取行动,并根据行动的结果(奖励)更新策略。简单来讲,前者强调利用数据,模型能力受限于数据的获取和处理;后者则是探索,模型可以选出更高质量的任务实现路径。

具体而言,OpenAI是利用强化学习教AI使用「思维链」CoT来处理问题。CoT是大模型推理阶段的一个关键概念。对于一些复杂问题(比如数学问题),大模型的准确率很低,如果在模型给出最终回答之前,把中间逐步的推理步骤显式输出,可以增强其推理能力。常见的做法是在基座模型的基础上做CoT的增强,比如使用包含CoT的提示词,相当于给了大模型具体的解题思路。

而OpenAI的做法是将CoT内置到了基座模型中,让o1模型拥有更接近人类的思考过程,而不仅仅是存储和检索信息。然后o1模型会在明确的奖励制度下,不断试错并自我纠正,最终生成更准确、更高质量的结果。

在OpenAI官网的模型演示案例中,有一个「显示思维链」的下拉显示按钮,点开便可以看到模型能够向自己提问,例如:选项A,这是个很好的解释吗?嗯。选项B,这与主句的意思相符吗?……选项D似乎是最好的。不过要说明的是,这只是模型生成的思维链摘要,OpenAI在权衡过后选择了隐藏原始的思维链。

范式变革,推理阶段也可以有Scaling Law

从模型的表现能力上看,o1模型在特定任务上取得了新的突破,但还没有全面实现智能程度的飞跃。其更大的意义在于,它代表了大模型领域一个新范式的开始。

首先,这是强化学习在大语言模型领域的成功应用。英伟达具身人工智能团队的负责人Jim Fan表示,「以前没有人能够在LLM领域复制AlphaGo(强化学习的经典案例,AI打败了人类顶尖围棋手)的成功,在LLM领域,更多的计算量可以将能力范围提升到超越人类水平。现在,我们已经翻开了新的一页。」

o1模型性能随着计算量提升而提升。
其次,它提供了一个新的提高模型性能的方法,重新定义了Scaling Law。OpenAI在研究中发现,o1模型的性能与训练时的计算量以及测试时的计算量呈显著正相关。OpenAI的研究员Jason Wei表示,「以前我们一直在训练层面scale(指缩放模型的规模,即调整模型参数数量、数据量和计算复杂度等指标),而思路链的形式可以实现在推理层面自发scale。」Jim Fan持类似看法,他认为,基于原始的Scaling Law,大家的注意力一直在训练阶段,但推理阶段也可以有Scaling Law,并且是真正战胜模型性能边际效益递减(通过堆训练数据量和参数量带来的性能提升会逐渐放缓)的因素。

OpenAI还能拿出什么东西吗?

GPT-4以前,OpenAI每年都会发布新一代模型。从GPT-4开始,新模型的发布开始跟不上市场的预期。o1模型之后,OpenAI的未来和AGI的时间表更加不明朗起来。

单就这次发布的新模型而言,虽然它在数学和编程领域具有出色的推理能力,但很难泛化到更广泛的自然语言任务上。以往,强化学习仅在游戏、围棋领域展现出了超越人类的表现,因为这类场景具有高度的确定性,开发者可以设计出清晰的奖励机制,数学、编程也是同理。语言则不同,它没有明确的「目标」,没有人可以说清楚如何给大语言模型提供最合适的反馈,它的奖励到底应该是什么。

而且,所谓的o1模型会「思考」并非是AI学会了人类的演绎和归纳推理,它不是基于对世界的深刻理解或逻辑推理。如果遇到与训练数据分布显著不同的新情况,它们可能就无法给出准确的答案。有多位网友反馈,在经典的「9.11和9.8谁更大」的问题上,o1模型也翻车了。

OpenAI多位核心成员的出走也传递着负面的信号,目前创始团队成员仅剩2人。近日,原GPT-4o和GPT-5的负责人Alexis Conneau也在社交平台X上宣布了离职。他是在OpenAI内部最早提出「Her」构想的高管,但是相关产品一直跳票。

值得一提的是,OpenAI在今年年初用Sora模型的演示视频震惊了所有人,但至今也没有向用户推出切实可用的产品。要知道截至目前,市面上至少有5款以上可用的视频模型。看起来OpenAI产品化的速度也放缓了。

1500亿的估值让OpenAI停不下来

就在o1模型公布的同时,有报道称OpenAI正在寻求新一轮融资。据悉本轮的融资金额约为65亿美元到70亿美元,最终估值有可能达到1500亿美元。新一轮融资将由Thrive Capital领投,苹果、英伟达和微软也计划参与。Thrive Capital这家美国VC已是微软之后最「忠实」的OpenAI支持者,去年以来已参与了两轮出资。

OpenAI公开的累计融资金额已接近150亿美元,但这家公司对资金的渴望依旧强烈。它还计划以循环贷款的方式从银行筹集50亿美元的资金。

据The Information报道,去年OpenAI的年化收入为16亿美元,到今年年中,这一数字增长到34亿美元,预计未来12个月会达到40亿美元。然而虽然收入不断攀升,但支出却与之同步增长,这家公司每年亏损数十亿美元。训练模型对于数据、算力的消耗几乎是个无底洞,最近半年来,已经有多家公司选择退出了基础模型的竞争。不过,OpenAI是没有退出权的。

-END-

大模型进入瓶颈期如何突破?王小川、闫俊杰和韩歆毅是这样想的

荣耀推出手机智能体,可以学习用户行为并调用第三方应用|应用与模型

SpaceX将执行首次商业太空行走;Mobileye终止激光雷达开发|大公司动态


识别下图二维码,

即可购买《第一财经》杂志2024年9月刊