前几天传的沸沸扬扬的 strawberry 草莓模型终于来了,OpenAI叫他o1。
OpenAI o1
可以通过复杂的任务进行推理,并解决比以前的科学、编码和数学模型更难的问题。
它是如何运作的
通过训练模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
型更新在物理、化学和生物学方面具有挑战性的基准任务上的表现与博士生类似。
作为早期模型,它尚不具备 ChatGPT 的许多有用功能,例如浏览网页以获取信息以及上传文件和图像。
对于许多常见情况,GPT-4o 在短期内将更加强大。
在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而推理模型的得分为 83%。
他们的编码能力在竞赛中得到评估,并在 Codeforces 竞赛中达到了第 89 个百分点。
它是给谁用的
如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。
医疗保健研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。
OpenAI o1-mini
还发布了OpenAI o1-mini ,这是一种更快、更便宜的推理模型,在编码方面特别有效。
作为较小的模型,o1-mini 比 o1-preview 便宜 80%
如何使用OpenAI o1
从今天开始
,ChatGPT Plus 和 Team
用户将能够访问 ChatGPT 中的 o1 模型。 o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。
符合API 使用第 5 层资格的
开发人员
今天可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。
接下来是什么
除了模型更新之外,希望添加浏览、文件和图像上传等功能。
除了新的 OpenAI o1 系列之外,还计划继续开发和发布 GPT 系列中的模型(还有活)。
Jim Fan 的评价
1.
你并不需要一个巨大的模型来进行推理。大量的模型参数用于存储和记忆事实,从而在类似 Trivia QA 这样的基准测试中表现出色。
2.
大量的计算资源正在从前/后训练转移到推理服务。大语言模型本质上是基于文本的模拟器。通过在模拟器中模拟多种策略和场景,模型最终将收敛到有效的解决方案。
3.
OpenAI 很可能早已发现推理扩展的规律,而学术界最近才开始深入研究。上个月有两篇论文相隔一周在 Arxiv 上发表:
•