在开源竞争对手 DeepSeek R1 迅速崛起的背景下,OpenAI 发布了新的专有 AI 模型,但这能否抵挡住后者的攻势?
在社交媒体上经历几天的传言和期待后,OpenAI 今天推出了 o3-mini,这是其新一代"推理器"系列的第二款模型。这类 AI 模型会花更多时间进行"思考",在输出答案前分析自身的处理过程并反思其"思维链"。
这款模型在数学、科学、工程等众多领域的难题上,表现可达到博士生乃至学位持有者的水平。
o3-mini 现已在 ChatGPT (包括免费版) 和 OpenAI 的 API 上线,
比此前的高端模型 o1 及其精简版 o1-mini 更便宜、更快、性能更强。
虽然人们不可避免地会将其与 DeepSeek R1 相比较,认为这次发布是一种回应,但值得注意的是,o3 和 o3-mini 的发布时间早在 2024 年 12 月就已宣布,远早于 DeepSeek R1 在 2025 年 1 月的发布。OpenAI CEO Sam Altman 此前也在 X 上表示,根据开发者和研究人员的反馈,该模型将同时在 ChatGPT 和 OpenAI API 上推出。
与 DeepSeek R1 不同,o3-mini 不会开源 — 这意味着其代码无法下载用于离线使用,也无法进行同等程度的定制
,这可能会限制其在某些应用场景中的吸引力。
OpenAI 没有透露去年 12 月与 o3-mini 同时宣布的(预计更大规模的)o3 模型的进一步细节。当时 OpenAI 表示,在第三方可以测试该模型之前将会有"数周的延迟"。
与 o1 类似,o3-mini 在数学、编程和科学领域的推理能力上进行了优化。
在使用中等推理强度时,其性能与 o1 相当,但具有以下优势:
-
速度比 o1-mini 快 24%
(根据第三方评估机构 Artificial Analysis 的测试,o1-mini 处理 100 个代币需要 12.8 秒,o3-mini 则缩短到 10.32 秒)
-
准确率提升
,56% 的外部测试者更青睐 o3-mini 的回答
- 在复杂现实问题上的重大
错误减少 39%
- 在编程和 STEM 任务中表现更优,尤其是在高强度推理时
- 提供低、中、高三种推理强度,让用户和开发者能够在准确性和速度之间取得平衡
根据 OpenAI 发布的系统说明,
o3-mini 在某些基准测试中甚至超越了 o1。
在单次交互中,o3-mini 可处理的上下文窗口为 20 万个token,单次输出上限为 10 万个token 。这与完整版 o1 相同,
超过了 DeepSeek R1 约 12.8-13 万个代币的处理能力。
但远低于 Google Gemini 2.0 Flash Thinking 最高 100 万token的处理能力。
虽然 o3-mini 专注于推理能力,但
目前还不具备视觉处理功能。
需要处理图片和文件的用户暂时需要继续使用 o1。
o3-mini 的发布
标志着 OpenAI 首次向免费用户开放推理模型。
此前的 o1 系列模型仅面向 ChatGPT Plus、Pro 等付费用户,以及通过 OpenAI 付费 API 使用。
就像 OpenAI 在 2022 年 11 月通过推出 ChatGPT 开创了 LLM 聊天机器人时代一样,它在 2024 年 9 月
推出 o1 时,实际上开创了一个全新的推理模型品类,采用了新的训练机制和架构。
但 OpenAI 延续近期做法,违背其名称和创立初衷,没有开源 o1,而是保持其专有性。
过去两周,中国 AI 创业公司 DeepSeek 推出的 R1 模型抢走了 o1 的风头。R1 是一个高效的开源推理模型,全球任何人都可以免费获取、重新训练和定制,还可以在 DeepSeek 的网站和手机应用上免费使用。据报道,R1 的训练成本仅为 o1 等顶级模型的一小部分。
DeepSeek R1 采用宽松的 MIT 许可协议,提供免费的应用和网站服务,并开放代码供人修改,这导致其在消费者和企业市场迅速走红。就连 OpenAI 的投资方 Microsoft 和 Anthropic 的支持者 Amazon 也急于将其变体引入自家云市场。AI 搜索公司 Perplexity 也迅速为用户添加了 R1 的变体版本。
DeepSeek 在美国 App Store 超越 ChatGPT iOS 应用登顶榜首,
值得注意的是,它在应用和网页端都实现了模型与网络搜索的连接,这一点 OpenAI 的 o1 还未实现。
这引发了部分科技行业人士和网民的担忧,认为中国正在赶上或已超越美国的 AI 创新能力,甚至是整体技术水平。
不过,包括 Marc Andreessen 以及吴恩达在内的许多 AI 研究人员、科学家和顶级风投都对 DeepSeek 的崛起表示欢迎,尤其是其开源策略。他们认为这将推动整个 AI 行业发展,在降低成本的同时提升所有人可获得的智能水平。
o3 正在向全球 ChatGPT Free、Plus、Team 和 Pro 用户开放,企业版和教育版将于下周上线。
免费用户首次可以通过聊天栏的"Reason"按钮或重新生成回答来体验 o3-mini。
Plus 和 Team 用户的每日消息限制提升 3 倍,从 50 条增至 150 条。
Pro 用户可以无限制使用 o3-mini 和新推出的更强版本 o3-mini-high。
此外,o3-mini 已支持 ChatGPT 内搜索功能,能提供带相关网页链接的回答。这项功能仍在完善中。
开发者可以通过聊天完成 API、助手 API 和批处理 API 使用 o3-mini。该模型支持函数调用、结构化输出和开发者消息,便于集成到实际应用中。
o3-mini 最大的优势之一是成本效益:比 o1-mini 便宜 63%,比完整版 o1 便宜 93%,每百万token的输入/输出价格为 1.10/4.40 美元 (含 50% 缓存折扣)。
然而,这与 DeepSeek API 提供的 R1 每百万token 0.14/0.55 美元的价格相比仍然偏高。
开发者可以根据应用需求调整推理强度 (低、中、高),在延迟和准确性之间找到平衡。
在安全方面,OpenAI 在 o3-mini 中采用了"深思熟虑的对齐"技术。这使模型能够理解安全准则背后的意图和需要防范的风险,并自主制定防范措施。OpenAI 表示,这让模型在讨论敏感话题时能够减少过度审查,同时保持安全性。
OpenAI 称该模型在应对安全和越狱挑战方面超越了 GPT-4o,并在发布前进行了广泛的外部安全测试。
据 Wired 报道,DeepSeek 在安全研究人员测试的 50 次越狱尝试中全部失守,这可能让 OpenAI o3-mini 在安全性要求较高的场景中占据优势。
在面对 DeepSeek R1 等前所未有的竞争压力下,o3-mini 的推出体现了 OpenAI 让高级推理 AI 更易获取、更具性价比的努力。Google 最近也加入战局,推出了免费版 Gemini 2 Flash Thinking,其输入上下文量高达 100 万token。
OpenAI 希望通过专注于 STEM 推理能力和可负担性,扩大 AI 在消费者和开发者应用中的覆盖范围。
但随着公司的野心越来越大 — 最近宣布了一个由软银支持的 5000 亿美元数据中心项目 Stargate — 问题在于:这一战略能否产生足够好的回报,证明 Microsoft 等投资者投入的数十亿美元物有所值?
随着开源模型在性能上迎头赶上并在成本上完胜 OpenAI,其优越的安全性、强大的功能、易用的 API 和友好的界面是否足以留住那些重视这些特性甚于成本效率的客户 — 尤其是企业客户?我们将持续关注事态发展。
© AI范儿
要进“
交流群
”,请关注公众号获取进群方式
投稿、需求合作或报道请添加公众号获取联系方式