专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
绝对现场  ·  名医到院区 | ... ·  19 小时前  
共同体Community  ·  深圳市第三儿童医院,开业时间定了! ·  昨天  
共同体Community  ·  深圳市第三儿童医院,开业时间定了! ·  昨天  
闽南日报  ·  延时门诊!漳州市医院最新通知 ·  2 天前  
51好读  ›  专栏  ›  AI科技大本营

提示工程迎来末日!OpenAI 深夜突发 o1 模型,自带思维链,可以推理和自我反思

AI科技大本营  · 公众号  ·  · 2024-09-13 12:20

正文

提示工程现在不仅无法提高推理性能,还有可能妨碍模型工作。

作者 | 王启隆

出品丨AI 科技大本营(ID:rgznai100)

北京时间 9 月 13 日凌晨 1 点左右,OpenAI 毫无预兆地揭露了神秘的“草莓”模型的真相,发布 OpenAI o1 模型的预览版。在这周的早些时候,外媒 The Information 曾爆料 OpenAI 会在“两周内”公布新模型,没想到他们“两天内”就火急火燎地发了出来,倒也没说错。

o1 模型主打的是像人类一样的 推理能力 尤其是它在数学和编程方面展现出来的强大实力,使其在国际数学奥林匹克竞赛(IMO)资格考试中解决了高达 83% 的问题,相比之下,GPT-4o 仅能解决 13% 的问题。 此外,o1 在 Codeforces 编程竞赛中的表现也同样出色,超越了 89% 的参赛者。

下面这个短视频,很好地演示了 o1 模型和当前的 GPT-4o 使用时的差异:

o1 会在模型内部执行一个类似于“思考”的过程,并告诉用户自己到底思考了多久。而 4o 模型就是“别管答案对不对,你就说我快不快吧”。

OpenAI 采用了大规模的强化学习算法来训练 o1 模型,使得它能够更好地模拟人类的思考过程,包括对问题进行深入推理、尝试多种解决策略以及纠正自身的错误。这一特点在复杂的推理任务中尤为突出,极大地提升了模型的解决问题的能力。根据官方数据, o 1 在物理、生物和化学等多个科学领域(STEM)的测试中,其表现甚至超越了人类专家的水平。

现在,购买了 ChatGPT Plus 和 Team 付费服务的会员用户,可以通过模型选择器手动启用 o1-preview 或 o1-mini 版本。o1-preview 每周限使用 30 条消息,而 o1-mini 版本则允许每周发送 50 条消息。

前段时间发布的 GPT-4o mini 以及去年叱咤一时的 GPT-4 基础模型,都被塞到了“更多模型”的二级菜单里。

对于想要通过 API 使用 o1 模型的开发者来说,必须达到 Tier 5 级别,即在过去 30 天内累计消费超过 1000 美元,并且至少有一个 30 天的 成功付款记录。此外,API 的调用频率也被限制在了每分钟 20 次。

就价格而言,o1 模型与 GPT-4 的价格相当,但相比 GPT-4o 则要高出 3 到 4 倍。具体而言,o1-preview 的输入和输出成本分别为 15 美元和 60 美元每百万 token,而 o1-mini 的价格则为 3 美元和 12 美元每百万 token。作为对比,GPT-4o 的价格为输入 5 美元、输出 15 美元每百万 token,而 GPT-4 则是统一价 30 美元和 60 美元每百万 token。

值得注意的是,o1 模型除了在推理层面做了不少创新,在收费方面也创新性地引入了一个概念—— 推理 Token ……

推理 Token 是模型在理解提示并考虑多种回应方案时所使用的。在生成推理 Token 之后,模型会产生最终的可见输出 Token 作为回答,而推理 Token 则不会保留在上下文中。

尽管推理 Token 在 API 接口中不可见,但它们依然占据模型的上下文窗口,并按照输出 Token 的费率收费。这意味着用户的实际开销可能会更高,因为每一步的输入和输出 Token 都会被计费,而推理过程中的额外 Token 同样计入成本之中。

此外,尽管 o1 在推理能力上有着显著的优势,但 它目前还不支持联网、文件上传或绘图 等功能,是个实验性质的模型,很多问题都回答不了。因此,在实际应用中可能还需要与 GPT-4o 结合使用,以弥补这些功能上的不足。

今天的推特上,各路专家学者和科技爱好者熙熙攘攘,对 o1 模型各有解读,真伪难辨。既然 AI 模型都会“推理”和“思考 了,那我们是不是已经实现了狭义上的 AGI 了?

OpenAI 首席执行官 Sam Altman 自己回答了这个问题: NO

OpenAI 在油管官方频道也放出了一段 o1 模型的幕后开发人员采访视频,解答了关于“推理”的问题。数十位科学家齐聚一堂,其中有人提出了第一道问题:“ 到底什么是推理?

https://www.youtube.com/watch?v=3k89FMJhZ00

一名戴着眼镜的小哥抛砖引玉,给提问者作出了一个解释:“有些时候,我们问出一些简单的问题后可以立即得到答案,比如「意大利的首都在哪里?」,你可以不假思索地回答是「罗马」。

但面临那些比较复杂的问题,比如「写一份商业计划书」或者「写一部小说」,就需要深思熟虑,而且 思考的时间越多,得到的结果也会更好。 所以,推理是一种将思考时间转化为更好结果的能力,无论面对何种任务都是如此。

但 o1 模型当前使用中最直观的一个感受是:模型思考的时间越久,输出的答案也就越长。比方说,今天有网友上来就向 o1 提出了前段时间爆火的陷阱问题 —— 9.11 和 9.8 哪个大?

在上面这个案例里,o1 只思考了几秒就不假思索地回答:9.11 大!

如果 o1 多思考个几秒,比如上图思考了 16 秒,那它虽然还是无法答对,但至少能拿个过程分。答案确实更长了,但不一定是对的。

为什么会这样?今天,OpenAI 联合创始人 Greg Brockman 第一时间发文给出了一份解答。经过他的揭秘,我们会发现 o1 所谓的“思考”背后,其实还是“ 思维链 ”(Chain of Thought,CoT)的应用,类似于 AutoGPT 的“ 多步执行 ”方案,只是 o1 帮你省去了复制粘贴 Prompt 的功夫。

Greg:
OpenAI o1 是我们使用 强化学习 训练的第一个模型,在回答问题之前会认真思考。我们为这一团队感到非常自豪!
这代表了一种充满机遇的新范式。 这一点从定量(例如推理指标已经得到了显著的提升)和定性(例如思维链使模型可以通过简单的英语让你“读懂模型的思想”)上都能看出来。
一种看待这个问题的方式是, 我们的模型进行的是系统一级的思考,而思维链解锁了系统二级的思考。 人们早就发现,提示模型“一步步思考”可以提升性能。但是通过试错方式端到端地训练模型这样做,要可靠得多——正如我们在围棋或 DotA 等游戏中看到的那样——能够产生极其令人印象深刻的结果……

在确定了“思维链”和强化学习是最大功臣之后,当年发表思维链论文的作者 Jason Wei 终于也从幕后出来,发表了自己这段时间在 OpenAI o1 模型上的工作内容,进一步解析了思维链背后的奥秘。

Jason Wei:
非常兴奋, 终于能分享我在 OpenAI 一直在做的工作啦!
o1 是一个在给出最终答案前会进行思考的模型。 用我自己的话来说,以下是 AI 领域最大的更新:
1. 不要仅仅通过提示词来进行思维链,而是要通过强化学习训练模型来实现更好的思维链。
2. 在深度学习的历史长河中,我们一直试图扩展训练计算能力,但思维链是一种可以在推理时也能扩展的自适应计算形式。
3. o1 模型在 AIME 和 GPQA 上的结果非常出色,但这不一定能转化为用户可以直接感受到的东西。 即使作为一个从事科学工作的人,要找到 GPT-4o 失败而 o1 表现良好的提示词切片也不是件容易的事,更别说我还得给出答案呢。 但当你真的找到这样的提示词时,o1 简直就像变魔术一样神奇。 我们都需要找到更具挑战性的提示词。
4. AI 模型使用人类语言进行思维链 —— 这在很多方面都棒极了。 该模型做了很多类似人类的事情,比如将棘手的步骤分解成更简单的步骤,识别和纠正错误,以及尝试不同的方法。 这彻底重新定义了游戏规则。
此外, o1-mini 是我在过去一年里看到的最令人惊讶的研究结果。 显然,我不能透露其中的秘密,但是 —— 一个小型模型竟然在 AIME 数学竞赛中获得超过 60% 的成绩,这简直好到让人难以置信!
此外,英伟达 研究科学家 Jim Fan 发推表示, OpenAI 肯定早就搞清楚了推理“Scaling Law”,但一直藏着掖着不说 ,而学术界直到最近才发现这一点,体现在上个月发表的几篇论文。

Jim Fan:
正如 Richard S. Sutton 在《苦涩的教训》(AI 领域的一篇经典文章)中所说, 只有两种技术可以无限扩展计算能力: 学习和搜索。 现在是时候将重点转移到后者了。
1. 推理核心的精简
不需要一个庞大的模型来进行推理。 大量参数都用于记忆事实,以便在琐事问答等基准测试中表现出色。 我们可以将推理与知识分开,即 构建一个小型的“ 推理核心 ,它知道如何调用浏览器和代码验证器等工具。 这样,预训练计算量可能会显著减少。
2. 计算重心的转移
大量计算 从预训练/后训练阶段转移到了服务推理阶段 大语言模型实际上是基于文本的模拟器。 通过在这个模拟器中展开众多可能的策略和场景,模型最终会收敛到优秀的解决方案。 这个过程类似于 AlphaGo 中广为人知的蒙特卡洛树搜索(MCTS)。
3. OpenAI 的先见之明
OpenAI 显然早就发现了 推理“Scaling Law” ,而学术界最近才开始触及。 上个月,Arxiv 上相继发表了两篇相关论文:
- Brown 等人发现 DeepSeek-Coder(国产的开源代码模型 )在 SWE-Bench 上的表现从单次采样的 15.9% 飙升到 250 次采样的 56%,超越了 Sonnet-3.5。
论文链接:https://arxiv.org/abs/2407.21787
- Snell 等人发现,PaLM 2-S 在 MATH 测试中通过测试时搜索击败了一个参数量大 14 倍的模型。
论文链接:hhttps://arxiv.org/abs/2408.03314
4. 产品化的挑战
将 o1 模型推向市场比在学术基准测试上取得好成绩要困难得多。 对于现实世界中的推理问题,我们面临诸多挑战:
- 如何决定停止搜索的最佳时机?
- 奖励函数应该如何设计?
- 成功的标准是什么?
- 应该何时在循环中调用代码解释器等工具?
- 如何权衡这些 CPU 密集型进程的计算成本?
遗憾的是,他们的研究报告并未深入探讨这些问题。
o1 的强项是推理,因此它在数学和代码方面的能力肯定不容小觑。






请到「今天看啥」查看全文