一个是国际数学奥林匹克(修正一下不是 IMO,是 IMO 资格赛),GPT-4o 只解决了 13% 的问题,而 o1 推理模型则取得 83% 的成绩。另一个是在安全性测试(「越狱」测试)中,GPT-4o 得分是 22/100,而 o1-preview(o1 预览版)的得分是 84。这两个数据说明 o1 模型能力不是提升,而是跃升。OpenAI o1 系列模型
1、OpenAI 推出了 o1 系列模型,用它自己的话说,「对于处理复杂推理任务来说,它取得了重大的进展,代表了人工智能的新水平。鉴于此,将模型计数重置为 1,并将此系列命名为 OpenAI o1」。2、目前开放给用户的是此系列的预览版 o1-preview 和迷你版 o1-mini。- o1-preview 预览版还没有达到满血 o1 的性能,但是会持续更新和改进;
- o1-mini 更快、更便宜(o1-mini 比 o1-preview 便宜 80%),在代码方面特别有效,特别适合开发人员使用。
- ChatGPT Plus 和 Team 用户今天开始可以访问 o1-preview 和 o1-mini
- 初期每周使用限制是 o1-preview 30 条消息,o1-mini 50 条消息
- API 使用等级 5 的开发者今天可以开始使用这两种模型进行原型开发
- 目前 API 速率限制为每分钟 20 次请求(RPM)
- API 当前不包括函数调用、流式传输、系统消息支持等功能
- 未来计划为所有免费用户开放 o1-mini(emmm,in the coming weeks......)
o1 系列模型的特点是什么?
o1 模型会在做出回答之前花更多时间进行思考,擅长解决科学、编码、数学和类似领域的复杂问题。但是在其他方面,o1 未必有很大的提升,甚至还不如之前的模型。做一个类比就是之前的 ChatGPT 模型依赖于系统 1 思维——快速、自动、直观化,但容易出错;现在 o1 则金华威系统 2 思维——慢速、深思熟虑、更加有意识,且更可靠。o1 模型能力如何?
从下面这张图来看,o1 的提升确实挺夸张的。在数学、代码能力上,跟 gpt-4o 相比,有巨大的能力跃升;在回答科学问题(博士级别)方面,甚至超过了人类专家。o1 系列大语言模型通过强化学习进行训练,以执行复杂的推理任务。o1 在回答前会先进行思考——它可以在响应用户之前生成一条长的思维链。
o1-preview 是该模型的早期版本,而 o1-mini 是该模型的高效版本,特别是在代码方面效果很好。通过训练,这些模型学会了优化它们的思维过程,尝试不同的策略,并识别自己的错误。在 OpenAI 放出的一个演示中,有一个编程任务是要求模型使用 Pygame 制作一个简单的 2D 游戏。玩家控制一个考拉图标,躲避随机出现的草莓,并试图找到松鼠。
把具体要求和说明告诉模型,在回答之前,模型首先花了 21 秒的时间进行思考,这个过程它完成理解用户需求、设计解决方案、组织代码等一系列任务(展示出来的是思考过程的总结,而真正的思考内容被隐藏起来了,并不会展示给用户),然后才给出最终的回答。也就是说,o1 每次回答问题之前,都要进行长链的思考过程,思考中进行不断地检查和自省。这跟之前看到的思维链(chain of thought)还不太一样,o1 不在需要特别庞大的模型来记忆事实和知识(预训练),而是用了更多的计算在推理阶段,用 Jim Fan 的话说是「从知识中分离出来推理」,用推理阶段的计算替代和弥补预训练模型可能存在的不足。所以从这个角度 o1 具有自我改进的能力。从下面这两张图也能看出,强化学习算法能够通过模型的思维链,在训练过程中教会模型如何有效思考,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高。这个能力现在来看在解决复杂的问题时,非常有优势,可能可以这样理解,对于这些复杂的问题,模型本身依靠预训练不足以具备解决能力,但是在推理阶段,依靠思维链讲过程和任务分解,通过对更简单的子问题的思考和不断自省,最终让模型能够在更困难的科学问题上取得更好的表现。但是这个能力是否一直是好的,比如对于相对简单的问题,我觉得还要看更多的实际效果。但是不管怎么说,o1 证明了通过把问题扩展到推理阶段,模型打破了过去 scaling law 所导致的局限和停滞,从而获得性能的提升。大家都知道长期 CoT 可以提升性能,而且很快我们会看到其它家的例子,这是最后的 low-hanging fruit,因为只需合成大量训练数据,包括动态去合成有针对性的训练数据。其实为什么 OAI 现在公布,很可能就是因为,大家很快就会陆陆续续公布。现在的所谓 AI 非常无脑,无论谁做出来,其它人很快就都做出来,大家就等着有人公布而已。如果用 RWKV 这样的 RNN 模型,无论做多久的 CoT,消耗的显存,和生成每个字的速度,都是恒定的,因此尤其适合做长期 CoT。相当于在 state 的潜空间做长期的行走。数学和代码,尤其适合通过这种方法提升。而且还可以配合 MCTS。而且模型可以调用外部工具验证,可以自己纠错(这个看上去还没开放,估计因为 OAI 认为目前对于公众开放这种就显得过于强)。我一直认为,这个方法一直做下去,足够做到「伪 AGI」,替代 99+% 的人类工作。因为人类在 99+% 的时候没有智能。然后,水涨船高,大家会习以为常,这会 commoditize。剩下的才是真正有趣的问题,例如真正的创意,真正的洞察力,超越时代的想法,在没有路的地方走出路来,也包括真正的感悟和体验,因为这些事情的验证标准是不明确的。人类是怎么想到这些事情的,是目前的大模型无法理解的。就像,拉马努金说他是梦到的。当然,这些也有办法解决,只不过,如果知道的人不说,不知道的人(或模型)就不可能想出来。这就像什么呢?就像一直有很多人爱吹 OAI,就像高赞回答爱吹。因为,太多的事物,在不懂的人看来是神奇的(因为他们不可能想出来),在懂的人看来是 trivial 的(因为不用想就知道)。令人遗憾的现实是:不懂的人,做再多 CoT,也是不可能懂的。所以 CoT 不是万灵药。