专栏名称: 爱范儿
关注这个时代最好的产品。
目录
相关文章推荐
新浪科技  ·  【#小米SU7Ultra实车到店##小米SU ... ·  14 小时前  
新浪科技  ·  【分析称#DeepSeek或带来中美科技资产 ... ·  昨天  
新浪科技  ·  【AI界“拼多多”DeepSeek国内外刷屏 ... ·  4 天前  
51好读  ›  专栏  ›  爱范儿

OpenAI 深夜反击 DeepSeek!紧急上线 o3-mini 免费用,体验后发现差距在这

爱范儿  · 公众号  · 科技媒体  · 2025-02-01 12:00

正文

春节假期,来自东方神秘力量的 DeepSeek 撕裂了硅谷的舆论场。
一面是 OpenAI、Anthropic 等厂商的游说打压,一面却又见证了其盟友口嫌体直的态度,短短一夜之间,微软、英伟达、亚马逊等美国云计算平台纷纷向 DeepSeek R1 伸出橄榄枝。
面对 DeepSeek 声势的持续攀升,最有力的反制手段终究还是要靠实力说话。
今天凌晨,OpenAI 正式上线了 OpenAI o3-mini 系列模型。
作为 o1-mini 模型的继任者,o3-mini 是目前推理系列中最新且最具性价比的模型。OpenAI 研究科学家 Noam Brown 在 X 平台发文称:
「我们十分高兴地推出了o3-mini,包括向免费用户开放。在多项评估中,它的性能表现优于o1。我们正在彻底改变成本与智能之间的关系。模型智能将持续提升,而获得相同智能水平的成本则会不断降低。」
o3-mini 系列模型具体亮点如下:

o3-mini 主打快速推理,o3-mini(high)擅长编码和逻辑

支持联网搜索,暂不支持多模态功能

训练数据经过严格筛选,安全合规表现有所增强
付费用户方面,ChatGPT Plus、Team 和 Pro 用户现已可以使用 o3-mini,企业版将在一周后开放访问。
OpenAI 将 Plus 和 Team 用户的每日消息限制从 o1-mini 的 50 条提升至 150 条。Pro 用户可享受 o3-mini 以及 o3-mini-high 的无限次访问,满足更高强度或更专业的推理需求。
同时这也是 OpenAI 首次向免费用户开放推理模型的使用权限,在 ChatGPT 消息输入框下方选择「Reason」按钮即可使用。
值得一提的是,OpenAI o3-mini 集成了搜索功能,能够实时获取最新答案并附带相关网页链接,方便用户进行深度调研。
不过,目前这还是一项原型功能,官方表示未来将持续完善和扩展到更多推理模型。
o3-mini 是 OpenAI 首个支持函数调用、结构化输出和开发者消息等高级功能的小型推理模型,支持开箱即用。
与 o1-mini 和 o1-preview 一样,o3-mini 支持流式传输。
开发者还可以根据具体需求在低、中、高三种推理强度中进行选择,在复杂任务处理和响应速度之间取舍。
测试显示,o3-mini 的平均响应时间为 7.7 秒,较 o1-mini 的 10.16 秒快了24%。同时,在专家评测中,有 56% 的评测者更倾向于选择 o3-mini 的回答,在处理复杂实际问题时的重大错误率也降低了 39%。
o3-mini 的系统卡提到,在为期一周的评估中,七位人类生物学专家与 o3-mini(预训练版本)就复杂的生物学问题展开了多轮对话。
专家一致认为,即便在无法接入互联网的情况下,o3-mini 的问答能力依然强大,不仅能够加速信息检索过程,还能提供互联网上难以找到的信息。
并且,专家们还发现该模型在文献综述与问题解答方面表现出色,能够快速且全面地梳理文献资料。不过也需要注意的是,模型偶尔会出现幻觉,导致细节信息有所偏差。
在核心能力评测中,o3-mini 交出了一份亮眼的成绩单。在高等推理模式下,其在 2024 年 AIME 数学竞赛中达到 87.3% 的准确率。
博士级别的科学问答任务 GPQA Diamond 得分高达 77.2%。
在竞技编程平台 Codeforces 上,o3-mini(high) 更是斩获 2130 的 ELO 评分。
在软件工程领域,o3-mini 同样表现不俗。
在 SWE-bench 验证测试中,高等推理模式下的准确率达到 49.3%;使用内部工具框架时,这一数字更是攀升至 61%。即便是使用开源的 Agentless 框架,o3-mini 仍然保持了 39% 的通过率。
在人类偏好评估(Human preference evaluation)中,o3-mini (medium) 在多个任务场景下胜率均显著高于 o1-mini,无论是在 STEM 任务、非 STEM 任务,还是用户处于时间受限的情况下。
o1-mini 则更加平均,但在胜率和错误率方面不如 o3-mini (medium) 突出。
o3-mini 模型采用思维链推理(Chain-of-Thought Reasoning)训练方法,能够让模型在回应用户之前先对安全规范进行推理,因此在安全性和防越狱测试中的表现都有显著提升。
系统卡显示,o3-mini 风险控制能力表现优异。
模型在说服、CBRN(化学、生物、放射性、核)和模型自主性方面呈现中等风险,而在网络安全方面则保持低风险,比如无法有效执行高难度黑客攻击任务,对真实世界的网络威胁能力有限。
此外,o3-mini 在识别和拒绝危险请求时与 GPT-4o 旗鼓相当,同时大幅降低了对无害请求的误判,有效解决了过度谨慎的问题。
在幻觉控制方面,基于 PersonQA 数据集的测试显示,其错误信息生成率已降至 14.8% 的可控水平。
跨语言处理能力是衡量大模型实用性的重要指标之一。
o3-mini 多语言处理能力测试横跨 14 种主流语言,包括阿拉伯语、中文、法语、德语、日语和西班牙语等,较 o1-mini 有明显提升。
o3-mini 的成本显著低于 o1(约便宜 13.6 倍),缓存输入(Cached Input)的成本是标准输入费用的一半。
论文作者栏也出现了熟悉的名字——Hongyu Ren(任泓宇)。
任泓宇本科毕业于北大,对 o1 有过基础性贡献,也是 GPT-4o 的核心开发者,曾在苹果、微软和英伟达有过丰富的研究实习经历。
光说不练假把戏,我们第一时间上手实测了刚刚上线的 o3-mini 和 o3-mini(high) 两个版本。
首先测试 o3-mini 新增的搜索功能,让它查询 OpenAI 最新的融资消息,时效性不错,而且还能准确追溯到《华尔街日报》的原始报道。
接着,我们抛出一道脑筋急转弯「1=5,2=15,3=215,4=2145,那么5=?」这道题有两种解法:从脑筋急转弯的角度看,既然1=5,那么5=1;从数学逻辑推理来看,答案应为 21485。显然,o3-mini 也没答对。
为了进一步考验性能更强的 o3-mini(high),我们抛出了一道统计题
「100 个人回答五道试题,有 81 人答对第一题,91 人答对第二题,85 人答对第三题,79 人答对第四题,74 人答对第五题,答对三道题或三道题以上的人算及格, 那么,在这 100 人中,至少有( )人及格。」
o3-mini 系列的「思考」过程都能显现,但与 DeepSeek R1 「碎碎念」式的思考不同, o3-mini(high)的思考过程反而更加简洁明了。
X 网友问了一道关于凸函数的梯度流路径长度问题,o3-mini(high)成功经受了考验。
当被要求创作一个龟兔赛跑的故事,且需要遵循「前词尾字母等于后词首字母」的规则,并将篇幅控制在 100 词以内时,o3-mini(high)也交出了一份及格答卷。
从故事逻辑来看,尽管部分句子表达略显生硬,但故事仍然清晰传达了龟兔赛跑的核心寓意。
当然,也有网友抱着试试看的心态,请 o3-mini 挑战数学界的终极难题——黎曼猜想。





请到「今天看啥」查看全文