专栏名称: 第一财经YiMagazine

这里是《第一财经周刊》读者俱乐部，我们为你发掘精彩的商业价值，也邀请你一起探寻明亮的商业世界。

OpenAI发布新模型o1，是新范式的开始吗？

第一财经YiMagazine · 公众号 · 财经 · 2024-09-20 08:55

正文

撰文：吴一凡

表格整理：吴一凡｜制图：程星

编辑：王杰夫

Key Points

o1模型在数学和编程方面的推理能力显著提升，但在其他任务上几乎没有进步；

强化学习与思维链是o1推理能力提升的主要动力，代价是模型「思考」时间更长，算力消耗更大；

o1-preview的使用价格是GPT-4o的3到4倍；

o1模型意味着Scaling Law或许可以继续生效，从训练阶段转向推理阶段；

OpenAI在提升模型能力与产品化的速度上都在放缓。

9月13日，OpenAI发布了两款大语言模型o1-preview和o1-mini，也就是此前备受关注的「草莓」模型。

OpenAI科学家Hyung Won Chung用「单词Strawberry里有几个字母r？」这个问题来展示o1模型的推理能力。

OpenAI放弃了此前GPT系列的命名方法，对此它给出了这样的解释，「对于复杂的推理任务来说，这是一个重大的进步，代表了AI能力的一个新的水平。因此，我们将计数器重置为1，并将这个模型系列命名为OpenAI o1。」

o1模型不仅偏科，反应还慢，而且更贵了

o1模型是一个系列，此次发布的o1-preview是一个预览版，目前还没有浏览网页、上传文件或图片等功能。o1-mini模型更小、更便宜，适合需要大量推理但不需要广泛世界知识的应用场景。

和之前的大语言模型相比，o1模型的推理能力有了显著提升，主要体现在数据分析、数学和编程方面。OpenAI称，这是它目前为止推理能力最好的模型，下一个模型将在物理、化学和生物学方面达到与博士生接近的水平。但是，o1模型并没有全方位碾轧其他的大语言模型，它只是理科很强，在文本生成这类文科向的任务上，GPT-4o仍保持优势。

而且，更好的推理能力是有代价的。o1主要采用了一种名为「思维链」（Chain of Thought，CoT）的方案，即把一个复杂的问题拆解为若干子问题，以此来提升推理能力。但更长的推理环节让o1模型的响应速度更慢，一个稍微复杂点的问题就需要花费10多秒来处理。对于那些已经习惯了模型及时响应的用户来说，o1的使用体验并不友好。

同时，由于推理阶段的算力需求的增加，o1更贵了。目前，o1-preview和o1-mini每周的消息限额分别为30条和50条，且API仅开放给第五级用户，也就是已经消费了1000美元及以上且付费超过1个月的开发者。o1-preview的定价明显更高，每百万输入token 15美元，每百万输出token 60美元，分别是GPT-4o的3倍和4倍。

看起来，o1模型并不是一款面向大部分普通用户的模型，而是面向部分特定科研用户的特化模型，它在速度、成本和应用范围上都有明显局限性。

推理能力提升的关键是让模型像人一样慢慢思考

该系列模型之所以拥有更强大的推理能力，是因为OpenAI采用了强化学习算法来训练模型。这和传统的大语言模型预训练方法有本质上的不同：二者属于不同的机器学习范式（具体包括监督学习、半监督学习、无监督学习、自监督学习和强化学习）。

之前的大语言模型预训练采用的是自监督学习范式。自监督学习通常涉及设计一种预测任务，利用数据本身的结构信息训练模型。强化学习涉及一个智能体在环境中采取行动，并根据行动的结果（奖励）更新策略。简单来讲，前者强调利用数据，模型能力受限于数据的获取和处理；后者则是探索，模型可以选出更高质量的任务实现路径。

具体而言，OpenAI是利用强化学习教AI使用「思维链」CoT来处理问题。CoT是大模型推理阶段的一个关键概念。对于一些复杂问题（比如数学问题），大模型的准确率很低，如果在模型给出最终回答之前，把中间逐步的推理步骤显式输出，可以增强其推理能力。常见的做法是在基座模型的基础上做CoT的增强，比如使用包含CoT的提示词，相当于给了大模型具体的解题思路。

而OpenAI的做法是将CoT内置到了基座模型中，让o1模型拥有更接近人类的思考过程，而不仅仅是存储和检索信息。然后o1模型会在明确的奖励制度下，不断试错并自我纠正，最终生成更准确、更高质量的结果。

在OpenAI官网的模型演示案例中，有一个「显示思维链」的下拉显示按钮，点开便可以看到模型能够向自己提问，例如：选项A，这是个很好的解释吗？嗯。选项B，这与主句的意思相符吗？……选项D似乎是最好的。不过要说明的是，这只是模型生成的思维链摘要，OpenAI在权衡过后选择了隐藏原始的思维链。

范式变革，推理阶段也可以有Scaling Law

从模型的表现能力上看，o1模型在特定任务上取得了新的突破，但还没有全面实现智能程度的飞跃。其更大的意义在于，它代表了大模型领域一个新范式的开始。

首先，这是强化学习在大语言模型领域的成功应用。英伟达具身人工智能团队的负责人Jim Fan表示，「以前没有人能够在LLM领域复制AlphaGo（强化学习的经典案例，AI打败了人类顶尖围棋手）的成功，在LLM领域，更多的计算量可以将能力范围提升到超越人类水平。现在，我们已经翻开了新的一页。」

o1模型性能随着计算量提升而提升。

其次，它提供了一个新的提高模型性能的方法，重新定义了Scaling Law。OpenAI在研究中发现，o1模型的性能与训练时的计算量以及测试时的计算量呈显著正相关。OpenAI的研究员Jason Wei表示，「以前我们一直在训练层面scale（指缩放模型的规模，即调整模型参数数量、数据量和计算复杂度等指标），而思路链的形式可以实现在推理层面自发scale。」Jim Fan持类似看法，他认为，基于原始的Scaling Law，大家的注意力一直在训练阶段，但推理阶段也可以有Scaling Law，并且是真正战胜模型性能边际效益递减（通过堆训练数据量和参数量带来的性能提升会逐渐放缓）的因素。

OpenAI还能拿出什么东西吗？

GPT-4以前，OpenAI每年都会发布新一代模型。从GPT-4开始，新模型的发布开始跟不上市场的预期。o1模型之后，OpenAI的未来和AGI的时间表更加不明朗起来。

单就这次发布的新模型而言，虽然它在数学和编程领域具有出色的推理能力，但很难泛化到更广泛的自然语言任务上。以往，强化学习仅在游戏、围棋领域展现出了超越人类的表现，因为这类场景具有高度的确定性，开发者可以设计出清晰的奖励机制，数学、编程也是同理。语言则不同，它没有明确的「目标」，没有人可以说清楚如何给大语言模型提供最合适的反馈，它的奖励到底应该是什么。

而且，所谓的o1模型会「思考」并非是AI学会了人类的演绎和归纳推理，它不是基于对世界的深刻理解或逻辑推理。如果遇到与训练数据分布显著不同的新情况，它们可能就无法给出准确的答案。有多位网友反馈，在经典的「9.11和9.8谁更大」的问题上，o1模型也翻车了。

OpenAI多位核心成员的出走也传递着负面的信号，目前创始团队成员仅剩2人。近日，原GPT-4o和GPT-5的负责人Alexis Conneau也在社交平台X上宣布了离职。他是在OpenAI内部最早提出「Her」构想的高管，但是相关产品一直跳票。

值得一提的是，OpenAI在今年年初用Sora模型的演示视频震惊了所有人，但至今也没有向用户推出切实可用的产品。要知道截至目前，市面上至少有5款以上可用的视频模型。看起来OpenAI产品化的速度也放缓了。

1500亿的估值让OpenAI停不下来

就在o1模型公布的同时，有报道称OpenAI正在寻求新一轮融资。据悉本轮的融资金额约为65亿美元到70亿美元，最终估值有可能达到1500亿美元。新一轮融资将由Thrive Capital领投，苹果、英伟达和微软也计划参与。Thrive Capital这家美国VC已是微软之后最「忠实」的OpenAI支持者，去年以来已参与了两轮出资。

OpenAI公开的累计融资金额已接近150亿美元，但这家公司对资金的渴望依旧强烈。它还计划以循环贷款的方式从银行筹集50亿美元的资金。

据The Information报道，去年OpenAI的年化收入为16亿美元，到今年年中，这一数字增长到34亿美元，预计未来12个月会达到40亿美元。然而虽然收入不断攀升，但支出却与之同步增长，这家公司每年亏损数十亿美元。训练模型对于数据、算力的消耗几乎是个无底洞，最近半年来，已经有多家公司选择退出了基础模型的竞争。不过，OpenAI是没有退出权的。

-END-

大模型进入瓶颈期如何突破？王小川、闫俊杰和韩歆毅是这样想的

荣耀推出手机智能体，可以学习用户行为并调用第三方应用｜应用与模型

SpaceX将执行首次商业太空行走；Mobileye终止激光雷达开发｜大公司动态

识别下图二维码，

即可购买《第一财经》杂志2024年9月刊