专栏名称: Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

OpenAI o1 团队在线答疑：o1的o指OpenAI，强化后的推理有泛化能力，未来模型思考时间可控！

Founder Park · 公众号 · AI 科技自媒体 · 2024-09-14 22:00

主要观点总结

本文介绍了OpenAI发布的最强推理模型o1的相关信息。该模型具备思考能力，但在API价格上比4o贵了几倍。文章还提到了该模型的使用限制、价格、微调、输入上下文等问题，并讨论了其面临的最大瓶颈是研究和工程人才的短缺。此外，文章还提及了OpenAI的其他相关信息，如用户留存率、创业故事等。

关键观点总结

关键观点1: OpenAI发布最强推理模型o1

o1模型具备思考能力，是OpenAI的最新产品，可以处理更复杂的任务，如哲学问题的思考过程、推理计算等。

关键观点2: o1模型的使用限制和价格

目前o1模型的使用限制较低，但OpenAI正在逐步扩大访问权限。关于价格，虽然目前尚未确定，但预计未来某些版本的token价格会更低。

关键观点3: o1模型的瓶颈和挑战

目前面临的最大瓶颈是研究和工程人才的短缺。虽然OpenAI o1很擅长编程，但它还不能自己做研究。

关键观点4: 其他相关信息

文章还提到了OpenAI的其他相关信息，如用户留存率、创业故事等。此外，还介绍了模型的微调、输入上下文等特性。

正文

这可能是最有参与感的一次产品问答了。

对于 OpenAI o1 的所有疑问和好奇，由推特的所有网友来提问，OpenAI 的全体技术人员来回答。数了下，一共有 12 位员工出现，这其中有 各个方向的研究员和研究科学家，以及产品经理、产品主管 。

至于提问，从 模型命名、模型的大小和模态 ，到 提示词、思维链、上下文长度，以及价格 ，可以说，大家关注的问题，基本都在里面了。

参与问答的 OpenAI 人员：

Ahmed El-Kishky：OpenAI 研究员

Łukasz Kondraciuk：草莓训练设施负责人，华沙大学计算机科学，ACM ICPC 2022 银牌

Shengjia Zhao：OpenAI 研究科学家，斯坦福大学博士

Romain Huet：GPT-4o、o1 开发者体验主管，曾任 Stripe、Twitter 产品主管

Hongyu Ren：OpenAI 研究科学家，斯坦福大学博士，曾就职 Apple、Google、Nvidia

Wenda Zhou：OpenAI 研究员

Max Schwarzer：OpenAI 研究员，曾就职 Apple、DeepMind

Nikunj Handa：OpenAI 产品经理

Hyung Won Chung：OpenAI 研究科学家，MIT 博士

Noam Brown：OpenAI 研究员，专攻推理方向

Jerry Tworek：OpenAI 研究员

Jason Wei：OpenAI 研究科学家

点击关注，每天更新深度 AI 行业洞察

01 o 代表 OpenAI，o1 是多模态

网友：除了已经发布的评估结果，在你们测试中，o1 最让人印象深刻的是什么？

H yung Won C hung ：模型在处理哲学问题时的思考过程非常有趣，比如「什么是生命？」还有我展示的韩语密文例子，也非常惊艳，因为我们并没有直接教它这种技能，它是通过泛化得出的。

Noam Brown ：我告诉它「你是 OpenAI 的新模型」，然后让它解释自己的特点。在 CoT 过程中，它开始自问一些难题，试图评估自己的能力。虽然它表现得不太好，但它尝试的过程让我印象深刻。

Jerry Tworek： 对我们 OpenAI 的工作确实很有帮助，这当然是最重要的。

Lorenz Kuhn（研究员） ：从质量上看，看到模型尝试用不同方法解决一个很棘手的问题，然后反复检查，最后得到正确答案，真的挺酷的。

网友：你认为新的推理计算方式能否在未来几代中带来像 GPT-2 到 GPT-4 那样的能力飞跃？

Wenda Zhou ：我们还处于这个新范式的早期阶段。

网友：你们是怎么给 o1、o1-preview 和 o1-mini（或者 o1-mini-preview）起名的？

Romain Huet： 因为这代表了 AI 能力的新阶段，所以我们决定从头开始，把这一系列称为 OpenAI o1。preview 是预览版，mini 是因为它体积更小！

网友：o 代表猎户座还是 OpenAI？

Romain Huet ： OpenAI!

网友：o1 是多模态吗？想知道这是在构建多模态的基础设施，还是仅仅是文本问题？

Wenda Zhou： OpenAI o1 是多模态的，还在 MMMU 上实现了 SOTA！

网友：o1 是哪种 AI？是猫 AI 还是狗 AI？

Łukasz Kondraciuk ：有人问 o1 时，o1 回答说：「我没有感情，也没有具体的形态，所以既不是猫也不是狗。不过如果打个比方，我是天生友好、乐于助人、反应灵敏的。」——这些通常是狗的特质。

网友：o1-preview 和 o1-mini，我很惊讶第二个模型不叫 o1-mini-preview，是不是因为 mini 不是预览模型，它会持续用一段时间？而 o1-preview 只是 o1 模型的预览，所以是临时的？

Shengjia Zhao ：没错！o1-preview 是即将发布的 o1 模型的预览，而 o1-mini 不是未来模型的预览版。o1-mini 可能会在不久的将来更新，但不一定。

网友：为什么虽然 o1-mini 是「mini」，但在某些任务上表现比 o1-preview 还好？

Hongyu Ren： OpenAI o1-mini 针对 STEM 应用的各个训练和数据阶段进行了优化。

网友： o1 mini 能比 o1 Preview 生成更多的思维链吗？

Shengjia Zhao： 是的。

网友：为什么答案生成速度比思考阶段快那么多？o1 是单模态还是多模态的？

o1-mini 和 o1-preview（还有 o1）与 gpt-4o 相比，参数是更大还是更小？

Hyung Won Chung ：答案部分通常（但不一定总是）比思考阶段短。我们暂时不公开参数数量。思考阶段是对整个思维过程的总结，所以看起来慢一点。

o1 目前只支持单模态的文本。

02 相比 4o 提示词风格有变化

网友：o1 和之前的模型在提示词上有什么大不同？

Hyung Won Chung： 虽然没有很明确的技术原因说明为什么 OpenAI o1 需要更多提示，但我们发现它能从一些提示中受益，比如展示边缘情况或潜在推理风格。这个模型在获取这些提示线索方面表现不错，因为它擅长推理！

网友：什么时候给 o1 用 few-shot 提示词比较合适？

Hyung Won Chung ：展示边缘情况和潜在推理风格会对模型有帮助。 OpenAI o1 擅长从给出的示例中推理出线索。

网友：o1 有什么新的提示词技巧吗？

Hyung Won Chung ：虽然没有技术原因说明为什么 OpenAI o1 需要更多提示，但根据我们的经验，它能从展示边缘情况和潜在推理风格的提示中受益。模型在从这些提示中获取线索方面表现不错。

网友：o1 的输入 token 是怎么计算的？

Nikunj Handa ： o1 的 token 计算方式跟 4o 是一样的，两者使用相同的分词器： https://github.com/openai/tiktoken/

网友：模型大小会不会限制推理能力的上限？

Jerry Tworek ：目前还没发现模型大小对扩展有任何限制，到现在为止，我们只是把它推到了某个程度。

网友：你们打算在推理过程中进行函数调用吗？比如谷歌搜索、查询数据库、创建记忆。

Ahmed El-Kishky： 目前还没有具体的时间表可以分享，但我们计划在推理时启用模型，支持函数调用和使用各种工具，比如代码执行和浏览功能。

网友： 关于新 o1 模型，它们真的可以长时间生成内容吗？比如说，如果应用的上下文适合（少于 128k tokens），它能一次性重构整个 NextJS React 应用吗？还是还需要分块处理？

Max Schwarzer：

o1 肯定能完成比之前模型更复杂、更开放的任务，所以你不需要像 4o 那样分太多块。随着模型不断提升，任务切块的需求会越来越少。

网友：能解释一下文档里这句话吗？

「限制检索增强生成（RAG）中的附加上下文：提供附加上下文或文档时，最好只包含最相关的信息，避免模型响应过于复杂。」

我想了解该怎么平衡 RAG 和上下文。以前我是把所有东西都丢进去，现在不这么做了吗？

Nikunj Handa ：我们早期测试发现，把太多不相关的内容塞进上下文会导致性能下降，推理时的 token 使用率也更高。未来我们可能会改进这个问题，但目前建议尽量用少且相关的内容。

03 未来会延长思考时间，甚至可以暂停

网友：能解释一下吗，o1 是在后台运行思维链，然后给我们答案，还是一个专门用于推理的模型，只是输出时隐藏了中间过程的 token，只显示最终答案？

Noam Brown ：我不会把 o1 称「系统」。它是个模型，但和之前的模型不同，它会在给出最终答案前生成一条很长的思维链。

网友：

在 o1 模型的设计中，你有没有发现什么反向扩展（inverse scaling）的例子？分享一下应该会很有趣。
「不要只通过提示做 CoT，训练模型用强化学习来更好地处理 CoT」。希望能在你的基准测试中看到一些对比结果。

Jason Wei：

我还没遇到特别明显的反向扩展例子（也就是模型表现变差的情况），但我相信有人会找到一些！你可以在我们的博客里看到，在某些提示下，比如「个人写作」，OpenAI o1-preview 并不比 GPT-4o 表现好，甚至稍微差一点。https://openai.com/index/learning-to-reason-with-llms/…
我不确定如何进行最公平的对比，但我可以肯定地说，无论你怎么提示 GPT-4o，它大概率也拿不到 IOI 金牌！

网友：CoT 的过程被隐去了，如何保证最后生成的答案摘要是忠于推理过程的呢？你能提供一下你们是怎么写摘要器提示词的吗？

Noam Brown： 虽然我们希望摘要模型尽可能忠实原文，但不能保证它完全准确。我强烈建议不要假设它对 CoT 忠实，也不要假设 CoT 对模型的推理完全忠实！

网友追问：有意思，在 ChatGPT 中，思考步骤是个摘要吗？

另一位网友 ：对，模型会生成 CoT 的总结——「在考虑了用户体验、竞争优势以及思维链监控的可能性后，我们决定不向用户展示原始思维链……在 o1 系列中，我们展示的是模型生成的思维链摘要。」

网友：未来 API 能不能让用户控制「思考时间」或推理时的计算量？

Noam Brown： 我们希望将来能让用户对模型的思考时间有更多控制。

网友：有没有办法强制延长思考时间？

Max Schwarzer ：现在还没有这个选项，但我们希望将来能提供更多控制思考时间的功能！

网友：未来有没有可能在 o1 的 CoT 推理过程中暂停，添加更多上下文后再继续推理？

Nikunj Handa： 目前还不行。不过这是个好主意，我们会在未来的模型中探索这个可能性！

04 代码解释器在开发中了

网友：你们是否计划在下一次迭代中专注于 LLM 的非语言思维？语言的逻辑顺畅对人类来说更好理解，但生成语法正确的句子会浪费大量计算，FLOP 训练应该更关注信息生成。

Jerry Tworek： 这是个有意思的研究方向。我们在尝试很多改进模型的方法，不过很难说哪种会是未来的最佳方案。

网友：下一步有什么计划？比如预览持续时间、基准测试中 o1 的可用性，还有缺少的功能/工具？

图像识别功能什么时候发布？API 什么时候会支持提示缓存？

Ahmed EI-Kishky： 虽然预览持续时间还没确定，但我们计划逐步推出其他功能，包括代码解释器和浏览等工具功能。

网友：流式传输功能会通过 API 支持吗？会像 ChatGPT 应用中那样展示推理进度吗？我们以后可以围绕这个功能做界面吗？

Nikunj Handa： 我们肯定会添加对流式传输的支持，并且正在考虑添加推理进度的功能。感谢你的反馈！

网友：我们可以在 API 请求中设置一个参数，限制推理过程中消耗的 token 数量吗？

Nikunj Handa： 这是个不错的功能！目前的模型还不支持，但我们会考虑在未来模型中添加这个选项。

网友： 你们是怎么用 o1 来研究代码的？HTML Snake 确实很酷，但我更想知道它在研究方面的应用。

Lukasz Kondraciuk： OpenAI 代码库里已经有好几个 PR 是 o1 独立完成的！

Wenda Zhou ： 我们有位研究员还开发了一个 Github 机器人，能自动 ping 对应的代码负责人来审核。

05 token 会降价，目前很缺人

网友：为什么现在的使用限制这么低？o1-preview 每周只有 30 次？以后会变成每日限制吗？

Romain Huet： 我们知道一开始的限制比较低，但很高兴看到大家都开始体验 o1。我们会努力逐步提高使用限制。

OpenAI o1 团队在线答疑：o1的o指OpenAI，强化后的推理有泛化能力，未来模型思考时间可控！

主要观点总结

关键观点总结

关键观点1: OpenAI发布最强推理模型o1

关键观点2: o1模型的使用限制和价格

关键观点3: o1模型的瓶颈和挑战

关键观点4: 其他相关信息

正文

01

o 代表 OpenAI，o1 是多模态

网友：除了已经发布的评估结果，在你们测试中，o1 最让人印象深刻的是什么？

02

相比 4o 提示词风格有变化

网友：o1 和之前的模型在提示词上有什么大不同？

03

未来会延长思考时间，甚至可以暂停

网友：能解释一下吗，o1 是在后台运行思维链，然后给我们答案，还是一个专门用于推理的模型，只是输出时隐藏了中间过程的 token，只显示最终答案？

04

代码解释器在开发中了

05

token 会降价，目前很缺人

请到「今天看啥」查看全文