点击关注,每天更新深度 AI 行业洞察
01
o 代表 OpenAI,o1 是多模态
网友:除了已经发布的评估结果,在你们测试中,o1 最让人印象深刻的是什么?
H
yung Won C
hung
:
模型在处理哲学问题时的思考过程非常有趣,比如「什么是生命?」还有我展示的韩语密文例子,也非常惊艳,因为我们并没有直接教它这种技能,它是通过泛化得出的。
Noam Brown
:
我告诉它「你是 OpenAI 的新模型」,然后让它解释自己的特点。在 CoT 过程中,它开始自问一些难题,试图评估自己的能力。虽然它表现得不太好,但它尝试的过程让我印象深刻。
Jerry Tworek:
对我们 OpenAI 的工作确实很有帮助,这当然是最重要的。
Lorenz Kuhn(研究员)
:从质量上看,看到模型尝试用不同方法解决一个很棘手的问题,然后反复检查,最后得到正确答案,真的挺酷的。
网友:你认为新的推理计算方式能否在未来几代中带来像 GPT-2 到 GPT-4 那样的能力飞跃?
Wenda Zhou
:
我们还处于这个新范式的早期阶段。
网友:你们是怎么给 o1、o1-preview 和 o1-mini(或者 o1-mini-preview)起名的?
Romain Huet:
因为这代表了 AI 能力的新阶段,所以我们决定从头开始,把这一系列称为 OpenAI o1。preview 是预览版,mini 是因为它体积更小!
网友:o 代表猎户座还是 OpenAI?
Romain Huet
:
OpenAI!
网友:o1 是多模态吗?想知道这是在构建多模态的基础设施,还是仅仅是文本问题?
Wenda Zhou:
OpenAI o1 是多模态的,还在 MMMU 上实现了 SOTA!
网友:o1 是哪种 AI?是猫 AI 还是狗 AI?
Łukasz Kondraciuk
:有人问 o1 时,o1 回答说:「我没有感情,也没有具体的形态,所以既不是猫也不是狗。不过如果打个比方,我是天生友好、乐于助人、反应灵敏的。」——这些通常是狗的特质。
网友:o1-preview 和 o1-mini,我很惊讶第二个模型不叫 o1-mini-preview,是不是因为 mini 不是预览模型,它会持续用一段时间?而 o1-preview 只是 o1 模型的预览,所以是临时的?
Shengjia Zhao
:
没错!o1-preview 是即将发布的 o1 模型的预览,而 o1-mini 不是未来模型的预览版。o1-mini 可能会在不久的将来更新,但不一定。
网友:为什么虽然 o1-mini 是「mini」,但在某些任务上表现比 o1-preview 还好?
Hongyu Ren:
OpenAI o1-mini 针对 STEM 应用的各个训练和数据阶段进行了优化。
网友:
o1 mini 能比 o1 Preview 生成更多的思维链吗?
Shengjia Zhao:
是的。
网友:为什么答案生成速度比思考阶段快那么多?o1 是单模态还是多模态的?
o1-mini 和 o1-preview(还有 o1)与 gpt-4o 相比,参数是更大还是更小?
Hyung Won Chung
:答案部分通常(但不一定总是)比思考阶段短。我们暂时不公开参数数量。思考阶段是对整个思维过程的总结,所以看起来慢一点。
o1 目前只支持单模态的文本。
02
相比 4o 提示词风格有变化
网友:o1 和之前的模型在提示词上有什么大不同?
Hyung Won Chung:
虽然没有很明确的技术原因说明为什么 OpenAI o1 需要更多提示,但我们发现它能从一些提示中受益,比如展示边缘情况或潜在推理风格。
这个模型在获取这些提示线索方面表现不错,因为它擅长推理!
网友:什么时候给 o1 用 few-shot 提示词比较合适?
Hyung Won Chung
:
展示边缘情况和潜在推理风格会对模型有帮助。
OpenAI o1 擅长从给出的示例中推理出线索。
网友:o1 有什么新的提示词技巧吗?
Hyung Won Chung
:
虽然没有技术原因说明为什么 OpenAI o1 需要更多提示,但根据我们的经验,它能从展示边缘情况和潜在推理风格的提示中受益。
模型在从这些提示中获取线索方面表现不错。
网友:o1 的输入 token 是怎么计算的?
Nikunj Handa
:
o1 的 token 计算方式跟 4o 是一样的,两者使用相同的分词器:
https://github.com/openai/tiktoken/
网友:模型大小会不会限制推理能力的上限?
Jerry Tworek
:
目前还没发现模型大小对扩展有任何限制,到现在为止,我们只是把它推到了某个程度。
网友:你们打算在推理过程中进行函数调用吗?比如谷歌搜索、查询数据库、创建记忆。
Ahmed El-Kishky:
目前还没有具体的时间表可以分享,但我们计划在推理时启用模型,支持函数调用和使用各种工具,比如代码执行和浏览功能。
网友:
关于新 o1 模型,它们真的可以长时间生成内容吗?比如说,如果应用的上下文适合(少于 128k tokens),它能一次性重构整个 NextJS React 应用吗?还是还需要分块处理?
Max Schwarzer:
o1 肯定能完成比之前模型更复杂、更开放的任务,所以你不需要像 4o 那样分太多块。随着模型不断提升,任务切块的需求会越来越少。
网友:能解释一下文档里这句话吗?
「限制检索增强生成(RAG)中的附加上下文:提供附加上下文或文档时,最好只包含最相关的信息,避免模型响应过于复杂。」
我想了解该怎么平衡 RAG 和上下文。以前我是把所有东西都丢进去,现在不这么做了吗?
Nikunj Handa
:
我们早期测试发现,把太多不相关的内容塞进上下文会导致性能下降,推理时的 token 使用率也更高。
未来我们可能会改进这个问题,但目前建议尽量用少且相关的内容。
03
未来会延长思考时间,甚至可以暂停
网友:能解释一下吗,o1 是在后台运行思维链,然后给我们答案,还是一个专门用于推理的模型,只是输出时隐藏了中间过程的 token,只显示最终答案?
Noam Brown
:
我不会把 o1 称「系统」。
它是个模型,但和之前的模型不同,它会在给出最终答案前生成一条很长的思维链。
网友:
-
在 o1 模型的设计中,你有没有发现什么反向扩展(inverse scaling)的例子?分享一下应该会很有趣。
-
「不要只通过提示做 CoT,训练模型用强化学习来更好地处理 CoT」。希望能在你的基准测试中看到一些对比结果。
Jason Wei:
-
我还没遇到特别明显的反向扩展例子(也就是模型表现变差的情况),但我相信有人会找到一些!你可以在我们的博客里看到,在某些提示下,比如「个人写作」,OpenAI o1-preview 并不比 GPT-4o 表现好,甚至稍微差一点。https://openai.com/index/learning-to-reason-with-llms/…
-
我不确定如何进行最公平的对比,但我可以肯定地说,无论你怎么提示 GPT-4o,它大概率也拿不到 IOI 金牌!
网友:CoT 的过程被隐去了,如何保证最后生成的答案摘要是忠于推理过程的呢?你能提供一下你们是怎么写摘要器提示词的吗?
Noam Brown:
虽然我们希望摘要模型尽可能忠实原文,但不能保证它完全准确。
我强烈建议不要假设它对 CoT 忠实,也不要假设 CoT 对模型的推理完全忠实!
网友追问:有意思,在 ChatGPT 中,思考步骤是个摘要吗?
另一位网友
:
对,模型会生成 CoT 的总结——「在考虑了用户体验、竞争优势以及思维链监控的可能性后,我们决定不向用户展示原始思维链……在 o1 系列中,我们展示的是模型生成的思维链摘要。
」
网友:未来 API 能不能让用户控制「思考时间」或推理时的计算量?
Noam Brown:
我们希望将来能让用户对模型的思考时间有更多控制。
网友:有没有办法强制延长思考时间?
Max Schwarzer
:
现在还没有这个选项,但我们希望将来能提供更多控制思考时间的功能!
网友:未来有没有可能在 o1 的 CoT 推理过程中暂停,添加更多上下文后再继续推理?
Nikunj Handa:
目前还不行。
不过这是个好主意,我们会在未来的模型中探索这个可能性!
04
代码解释器在开发中了
网友:你们是否计划在下一次迭代中专注于 LLM 的非语言思维?语言的逻辑顺畅对人类来说更好理解,但生成语法正确的句子会浪费大量计算,FLOP 训练应该更关注信息生成。
Jerry Tworek:
这是个有意思的研究方向。
我们在尝试很多改进模型的方法,不过很难说哪种会是未来的最佳方案。
网友:下一步有什么计划?比如预览持续时间、基准测试中 o1 的可用性,还有缺少的功能/工具?
图像识别功能什么时候发布?API 什么时候会支持提示缓存?
Ahmed EI-Kishky:
虽然预览持续时间还没确定,但我们计划逐步推出其他功能,包括代码解释器和浏览等工具功能。
网友:流式传输功能会通过 API 支持吗?会像 ChatGPT 应用中那样展示推理进度吗?我们以后可以围绕这个功能做界面吗?
Nikunj Handa:
我们肯定会添加对流式传输的支持,并且正在考虑添加推理进度的功能。
感谢你的反馈!
网友:我们可以在 API 请求中设置一个参数,限制推理过程中消耗的 token 数量吗?
Nikunj Handa:
这是个不错的功能!
目前的模型还不支持,但我们会考虑在未来模型中添加这个选项。
网友:
你们是怎么用 o1 来研究代码的?HTML Snake 确实很酷,但我更想知道它在研究方面的应用。
Lukasz Kondraciuk:
OpenAI 代码库里已经有好几个 PR 是 o1 独立完成的!
Wenda Zhou
:
我们有位研究员还开发了一个 Github 机器人,能自动 ping 对应的代码负责人来审核。
05
token 会降价,目前很缺人
网友:为什么现在的使用限制这么低?o1-preview 每周只有 30 次?以后会变成每日限制吗?
Romain Huet:
我们知道一开始的限制比较低,但很高兴看到大家都开始体验 o1。
我们会努力逐步提高使用限制。