专栏名称: AI范儿

AI领域四大媒体之一。智能未来，始于Prompt！

应战 DeepSeek！OpenAI 推出 o3 mini，但价格仍贵 10 倍！

AI范儿 · 公众号 · · 2025-02-01 06:47

正文

在开源竞争对手 DeepSeek R1 迅速崛起的背景下，OpenAI 发布了新的专有 AI 模型，但这能否抵挡住后者的攻势？

在社交媒体上经历几天的传言和期待后，OpenAI 今天推出了 o3-mini，这是其新一代"推理器"系列的第二款模型。这类 AI 模型会花更多时间进行"思考"，在输出答案前分析自身的处理过程并反思其"思维链"。

这款模型在数学、科学、工程等众多领域的难题上，表现可达到博士生乃至学位持有者的水平。

o3-mini 现已在 ChatGPT (包括免费版) 和 OpenAI 的 API 上线， 比此前的高端模型 o1 及其精简版 o1-mini 更便宜、更快、性能更强。

虽然人们不可避免地会将其与 DeepSeek R1 相比较，认为这次发布是一种回应，但值得注意的是，o3 和 o3-mini 的发布时间早在 2024 年 12 月就已宣布，远早于 DeepSeek R1 在 2025 年 1 月的发布。OpenAI CEO Sam Altman 此前也在 X 上表示，根据开发者和研究人员的反馈，该模型将同时在 ChatGPT 和 OpenAI API 上推出。

与 DeepSeek R1 不同，o3-mini 不会开源 — 这意味着其代码无法下载用于离线使用，也无法进行同等程度的定制 ，这可能会限制其在某些应用场景中的吸引力。

OpenAI 没有透露去年 12 月与 o3-mini 同时宣布的（预计更大规模的）o3 模型的进一步细节。当时 OpenAI 表示，在第三方可以测试该模型之前将会有"数周的延迟"。

【性能和特点】

与 o1 类似，o3-mini 在数学、编程和科学领域的推理能力上进行了优化。

在使用中等推理强度时，其性能与 o1 相当，但具有以下优势：

- 速度比 o1-mini 快 24% (根据第三方评估机构 Artificial Analysis 的测试，o1-mini 处理 100 个代币需要 12.8 秒，o3-mini 则缩短到 10.32 秒)

- 准确率提升 ，56% 的外部测试者更青睐 o3-mini 的回答

- 在复杂现实问题上的重大 错误减少 39%

- 在编程和 STEM 任务中表现更优，尤其是在高强度推理时

- 提供低、中、高三种推理强度，让用户和开发者能够在准确性和速度之间取得平衡

根据 OpenAI 发布的系统说明， o3-mini 在某些基准测试中甚至超越了 o1。

在单次交互中，o3-mini 可处理的上下文窗口为 20 万个token，单次输出上限为 10 万个token 。这与完整版 o1 相同， 超过了 DeepSeek R1 约 12.8-13 万个代币的处理能力。 但远低于 Google Gemini 2.0 Flash Thinking 最高 100 万token的处理能力。

虽然 o3-mini 专注于推理能力，但 目前还不具备视觉处理功能。 需要处理图片和文件的用户暂时需要继续使用 o1。

【竞争加剧】

o3-mini 的发布 标志着 OpenAI 首次向免费用户开放推理模型。 此前的 o1 系列模型仅面向 ChatGPT Plus、Pro 等付费用户，以及通过 OpenAI 付费 API 使用。

就像 OpenAI 在 2022 年 11 月通过推出 ChatGPT 开创了 LLM 聊天机器人时代一样，它在 2024 年 9 月 推出 o1 时，实际上开创了一个全新的推理模型品类，采用了新的训练机制和架构。

但 OpenAI 延续近期做法，违背其名称和创立初衷，没有开源 o1，而是保持其专有性。

过去两周，中国 AI 创业公司 DeepSeek 推出的 R1 模型抢走了 o1 的风头。R1 是一个高效的开源推理模型，全球任何人都可以免费获取、重新训练和定制，还可以在 DeepSeek 的网站和手机应用上免费使用。据报道，R1 的训练成本仅为 o1 等顶级模型的一小部分。

DeepSeek R1 采用宽松的 MIT 许可协议，提供免费的应用和网站服务，并开放代码供人修改，这导致其在消费者和企业市场迅速走红。就连 OpenAI 的投资方 Microsoft 和 Anthropic 的支持者 Amazon 也急于将其变体引入自家云市场。AI 搜索公司 Perplexity 也迅速为用户添加了 R1 的变体版本。

DeepSeek 在美国 App Store 超越 ChatGPT iOS 应用登顶榜首， 值得注意的是，它在应用和网页端都实现了模型与网络搜索的连接，这一点 OpenAI 的 o1 还未实现。 这引发了部分科技行业人士和网民的担忧，认为中国正在赶上或已超越美国的 AI 创新能力，甚至是整体技术水平。

不过，包括 Marc Andreessen 以及吴恩达在内的许多 AI 研究人员、科学家和顶级风投都对 DeepSeek 的崛起表示欢迎，尤其是其开源策略。他们认为这将推动整个 AI 行业发展，在降低成本的同时提升所有人可获得的智能水平。

【功能可用性】

o3 正在向全球 ChatGPT Free、Plus、Team 和 Pro 用户开放，企业版和教育版将于下周上线。

免费用户首次可以通过聊天栏的"Reason"按钮或重新生成回答来体验 o3-mini。

Plus 和 Team 用户的每日消息限制提升 3 倍，从 50 条增至 150 条。

Pro 用户可以无限制使用 o3-mini 和新推出的更强版本 o3-mini-high。

此外，o3-mini 已支持 ChatGPT 内搜索功能，能提供带相关网页链接的回答。这项功能仍在完善中。

【API 集成和定价】

开发者可以通过聊天完成 API、助手 API 和批处理 API 使用 o3-mini。该模型支持函数调用、结构化输出和开发者消息，便于集成到实际应用中。

o3-mini 最大的优势之一是成本效益：比 o1-mini 便宜 63%，比完整版 o1 便宜 93%，每百万token的输入/输出价格为 1.10/4.40 美元 (含 50% 缓存折扣)。

然而，这与 DeepSeek API 提供的 R1 每百万token 0.14/0.55 美元的价格相比仍然偏高。

开发者可以根据应用需求调整推理强度 (低、中、高)，在延迟和准确性之间找到平衡。

在安全方面，OpenAI 在 o3-mini 中采用了"深思熟虑的对齐"技术。这使模型能够理解安全准则背后的意图和需要防范的风险，并自主制定防范措施。OpenAI 表示，这让模型在讨论敏感话题时能够减少过度审查，同时保持安全性。

OpenAI 称该模型在应对安全和越狱挑战方面超越了 GPT-4o，并在发布前进行了广泛的外部安全测试。

据 Wired 报道，DeepSeek 在安全研究人员测试的 50 次越狱尝试中全部失守，这可能让 OpenAI o3-mini 在安全性要求较高的场景中占据优势。

【未来展望】

在面对 DeepSeek R1 等前所未有的竞争压力下，o3-mini 的推出体现了 OpenAI 让高级推理 AI 更易获取、更具性价比的努力。Google 最近也加入战局，推出了免费版 Gemini 2 Flash Thinking，其输入上下文量高达 100 万token。

OpenAI 希望通过专注于 STEM 推理能力和可负担性，扩大 AI 在消费者和开发者应用中的覆盖范围。

但随着公司的野心越来越大 — 最近宣布了一个由软银支持的 5000 亿美元数据中心项目 Stargate — 问题在于：这一战略能否产生足够好的回报，证明 Microsoft 等投资者投入的数十亿美元物有所值？

随着开源模型在性能上迎头赶上并在成本上完胜 OpenAI，其优越的安全性、强大的功能、易用的 API 和友好的界面是否足以留住那些重视这些特性甚于成本效率的客户 — 尤其是企业客户？我们将持续关注事态发展。

要进“ 交流群 ”，请关注公众号获取进群方式

投稿、需求合作或报道请添加公众号获取联系方式

往期推荐

Anthropic创始人：DeepSeek只是以低成本生产出了美国7-10月前模型水平的产品，并不是独特突破！

应战 DeepSeek！OpenAI 推出 o3 mini，但价格仍贵 10 倍！

正文

请到「今天看啥」查看全文