专栏名称: 知乎日报

提供最好的资讯评论，兼顾专业与趣味。

OpenAI 发布 o1 系列新模型，文科生转型理科生了？

知乎日报 · 公众号 · 问答 · 2024-09-13 21:00

正文

点击上方卡片关注👆

北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。如何看待 OpenAI 新发布的 o1 系列模型？这将带来哪些变革？一起来看看答主们的回答吧。

如何看待 OpenAI 发布 o1 系列模型？将带来哪些变革？

| 答主：卜寒兮

看官方文章，有两个数据让我觉得挺夸张的。

一个是国际数学奥林匹克（修正一下不是 IMO，是 IMO 资格赛），GPT-4o 只解决了 13% 的问题，而 o1 推理模型则取得 83% 的成绩。

另一个是在安全性测试（「越狱」测试）中，GPT-4o 得分是 22/100，而 o1-preview（o1 预览版）的得分是 84。

这两个数据说明 o1 模型能力不是提升，而是跃升。

先捋一下。

OpenAI o1 系列模型

1、OpenAI 推出了 o1 系列模型，用它自己的话说，「对于处理复杂推理任务来说，它取得了重大的进展，代表了人工智能的新水平。鉴于此，将模型计数重置为 1，并将此系列命名为 OpenAI o1」。

2、目前开放给用户的是此系列的预览版 o1-preview 和迷你版 o1-mini。

o1-preview 预览版还没有达到满血 o1 的性能，但是会持续更新和改进；
o1-mini 更快、更便宜（o1-mini 比 o1-preview 便宜 80%），在代码方面特别有效，特别适合开发人员使用。

怎么用？

付费用户：

ChatGPT Plus 和 Team 用户今天开始可以访问 o1-preview 和 o1-mini
初期每周使用限制是 o1-preview 30 条消息，o1-mini 50 条消息

开发者：

API 使用等级 5 的开发者今天可以开始使用这两种模型进行原型开发
目前 API 速率限制为每分钟 20 次请求(RPM)
API 当前不包括函数调用、流式传输、系统消息支持等功能

免费用户：

未来计划为所有免费用户开放 o1-mini（emmm，in the coming weeks......）

o1 系列模型的特点是什么？

o1 模型会在做出回答之前花更多时间进行思考，擅长解决科学、编码、数学和类似领域的复杂问题。

但是在其他方面，o1 未必有很大的提升，甚至还不如之前的模型。

做一个类比就是之前的 ChatGPT 模型依赖于系统 1 思维——快速、自动、直观化，但容易出错；

现在 o1 则金华威系统 2 思维——慢速、深思熟虑、更加有意识，且更可靠。

o1 模型能力如何？

从下面这张图来看，o1 的提升确实挺夸张的。在数学、代码能力上，跟 gpt-4o 相比，有巨大的能力跃升；在回答科学问题（博士级别）方面，甚至超过了人类专家。

o1 跟之前模型最大的不同就是「思考」。

o1 系列大语言模型通过强化学习进行训练，以执行复杂的推理任务。o1 在回答前会先进行思考——它可以在响应用户之前生成一条长的思维链。
o1-preview 是该模型的早期版本，而 o1-mini 是该模型的高效版本，特别是在代码方面效果很好。通过训练，这些模型学会了优化它们的思维过程，尝试不同的策略，并识别自己的错误。

在 OpenAI 放出的一个演示中，有一个编程任务是要求模型使用 Pygame 制作一个简单的 2D 游戏。玩家控制一个考拉图标，躲避随机出现的草莓，并试图找到松鼠。

把具体要求和说明告诉模型，在回答之前，模型首先花了 21 秒的时间进行思考，这个过程它完成理解用户需求、设计解决方案、组织代码等一系列任务（展示出来的是思考过程的总结，而真正的思考内容被隐藏起来了，并不会展示给用户），然后才给出最终的回答。

也就是说，o1 每次回答问题之前，都要进行长链的思考过程，思考中进行不断地检查和自省。这跟之前看到的思维链（chain of thought）还不太一样，o1 不在需要特别庞大的模型来记忆事实和知识（预训练），而是用了更多的计算在推理阶段，用 Jim Fan 的话说是「从知识中分离出来推理」，用推理阶段的计算替代和弥补预训练模型可能存在的不足。所以从这个角度 o1 具有自我改进的能力。

从下面这两张图也能看出，强化学习算法能够通过模型的思维链，在训练过程中教会模型如何有效思考，随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能持续提高。

这个能力现在来看在解决复杂的问题时，非常有优势，可能可以这样理解，对于这些复杂的问题，模型本身依靠预训练不足以具备解决能力，但是在推理阶段，依靠思维链讲过程和任务分解，通过对更简单的子问题的思考和不断自省，最终让模型能够在更困难的科学问题上取得更好的表现。

但是这个能力是否一直是好的，比如对于相对简单的问题，我觉得还要看更多的实际效果。

但是不管怎么说，o1 证明了通过把问题扩展到推理阶段，模型打破了过去 scaling law 所导致的局限和停滞，从而获得性能的提升。

| 答主：PENG Bo

大家都知道长期 CoT 可以提升性能，而且很快我们会看到其它家的例子，这是最后的 low-hanging fruit，因为只需合成大量训练数据，包括动态去合成有针对性的训练数据。

其实为什么 OAI 现在公布，很可能就是因为，大家很快就会陆陆续续公布。现在的所谓 AI 非常无脑，无论谁做出来，其它人很快就都做出来，大家就等着有人公布而已。

如果用 RWKV 这样的 RNN 模型，无论做多久的 CoT，消耗的显存，和生成每个字的速度，都是恒定的，因此尤其适合做长期 CoT。相当于在 state 的潜空间做长期的行走。

数学和代码，尤其适合通过这种方法提升。而且还可以配合 MCTS。而且模型可以调用外部工具验证，可以自己纠错（这个看上去还没开放，估计因为 OAI 认为目前对于公众开放这种就显得过于强）。

我一直认为，这个方法一直做下去，足够做到「伪 AGI」，替代 99+% 的人类工作。因为人类在 99+% 的时候没有智能。

然后，水涨船高，大家会习以为常，这会 commoditize。

剩下的才是真正有趣的问题，例如真正的创意，真正的洞察力，超越时代的想法，在没有路的地方走出路来，也包括真正的感悟和体验，因为这些事情的验证标准是不明确的。

人类是怎么想到这些事情的，是目前的大模型无法理解的。就像，拉马努金说他是梦到的。

当然，这些也有办法解决，只不过，如果知道的人不说，不知道的人（或模型）就不可能想出来。

例如，写作是最简单的，又是最难的。

这就像什么呢？就像一直有很多人爱吹 OAI，就像高赞回答爱吹。因为，太多的事物，在不懂的人看来是神奇的（因为他们不可能想出来），在懂的人看来是 trivial 的（因为不用想就知道）。

令人遗憾的现实是：不懂的人，做再多 CoT，也是不可能懂的。所以 CoT 不是万灵药。

OpenAI 发布 o1 模型具备类似人类的推理能力，大模型已经达到人类博士水平了吗？

| 答主：平凡

OpenAI o1 的技术报告是这么写的，o1 在物理学、生物学和化学的准确度超过了 PhD 级别。

这的确很厉害，因为 PhD level 的知识水平，通常需要一个人花 10 几年才能达到。

但你问我大模型已经达到人类博士水平了吗？

我不觉得，因为几乎不会有人类博士水平的人，依旧会做错下面的问题。

9.11 和 9.8 哪个大？

从 OpenAI 发布的纪录片里，最新的模型可以帮助基因学家标注基因片段，在这方面它要比任何一个基因学家都牛。

因为人类的基因成千上万个，人类不可能都记得住。

而 o1 可以。

那是不是说明 o1 达到了基因学博士的水平？

我觉得不能。

因为这次的模型更新主要提升的是 reasoning，也就是推理和思考能力。

其实换句话说，这个能力更像是一种规划以及自我矫正的能力。

但能不能达到博士水平，思考能力是一回事，基础知识的掌握程度也是很重要的一环。

就比如说一个人，思考能力很强，但本专业的基础知识都不牢靠，那这个人的上限会很低，因为基础知识是一个人的基石。

思考能力这个时候只是锦上添花，而不是雪中送碳。

因为从 Jim Fan 的这个图就能看得出来，Pre-training 减少投入，更多的投入到 Inference 也就是推理就是重点，因为 Pre-training 的瓶颈貌似在用完了人类产生的文字信息后，没有多少提升的空间了。

同样引用 Jim Fan 的观点

OpenAI must have figured out the inference scaling law a long time ago, which academia is just recently discovering. Two papers came out on Arxiv a week apart last month:
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling. Brown et al. finds that DeepSeek-Coder increases from 15.9% with one sample to 56% with 250 samples on SWE-Bench, beating Sonnet-3.5.
- Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. Snell et al. finds that PaLM 2-S beats a 14x larger model on MATH with test-time search.

OpenAI 肯定很早之前就已经弄清楚了推理缩放定律，而学术界最近才发现这一定律。上个月，Arxiv 上相隔一周发表了两篇论文：

- 大型语言猴子：通过重复采样扩展推理计算。布朗等人。发现 DeepSeek-Coder 在 SWE-Bench 上从 1 个样本的 15.9% 提高到 250 个样本的 56%，击败了 Sonnet-3.5。

- 优化 LLM 测试时间计算比缩放模型参数更有效。斯内尔等人。发现 PaLM 2-S 通过测试时搜索在数学上击败了 14 倍大的模型。

简单来说，OpenAI 领先众人的是推理方面的 scaling law 的发现以及部署，而这部分提前量表现出来的最强项就是在数学编程物理题方面的性能。

而这一点儿很难证明它有 PhD 水平。

知乎热门文章

永生是否是一种酷刑？

刻在人类基因中的禁令有哪些？

经常刷短视频，大脑真的会变笨吗？

本文内容来自「知乎」

点击上方卡片关注

转载请联系原作者

👇点击【阅读原文】，看更多精彩回答