专栏名称: 科技每日推送
有态度的科技生活媒体,网聚240万+数码达人,专注手机技巧攻略,新品评测试用和互联网爆料,并提供新机报价,手机保修状态、维修回收估价、山寨机鉴别和维修店位置等丰富的查询功能!
目录
相关文章推荐
新浪科技  ·  【#DeepSeek删除年薪154万校招岗位 ... ·  10 小时前  
新浪科技  ·  【#雷军称SU7Ultra车标是金的#】去年 ... ·  11 小时前  
新浪科技  ·  【#日经225指数跌超1000点#】#日股汽 ... ·  2 天前  
新浪科技  ·  #2025春节档票房破60亿#新浪科技讯 ... ·  4 天前  
51好读  ›  专栏  ›  科技每日推送

OpenAI被逼急了,深夜发布o3-mini!实测对比DeepSeek

科技每日推送  · 公众号  · 科技媒体  · 2025-02-01 09:31

正文

作者 | 汤安迪

编辑 | 骆展鹏


DeepSeek风头正劲。

一方面是OpenAI、Anthropic等AI大厂不断地游说和打击。

另一方面是微软、英伟达、亚马逊,差不多同时宣布,支持了 DeepSeek 部署。

但最有力的反击,还是看实力。

2月1日凌晨,OpenAI上线了o3-mini 系列模型,目前推理系列中,最新最具性价比的模型。


而这恰好就是DeepSeek R1所擅长的。

或许这里也该感谢下,过年在湛江踢球中的DeepSeek老板梁文锋。

o3-mini的价格直线下降:

输入1.10美元/百万token、输出4.40美元/百万token

这价格比o1-mini便宜了63%,比满血版o1便宜93%。

当然价格方面,DeepSeek R1依旧是AI界的拼多多,遥遥领先,便宜又大份。o3-mini一对比,依然贵出天际。


OpenAI的老板山姆奥特曼表示,免费用户都能用,点击“Reason”即可体验。这是ChatGPT首次向免费用户开放推理模型。


o3-mini模型训练,是奥特曼亲自下场带队的,项目主管分别是Carpus Chang和Kristen Ying。


OpenAI的研究科学家Noam Brown表示:

我们OpenAI很自豪地发布了 o3-mini,包括免费版。

在许多评估中,它的表现都优于 o1。我们正在改变整个智能成本曲线。模型智能将继续上升,而相同智能的成本将继续下降。

o3-mini 作为一款经济、高效的专业模型,加强了在数学、科学和编程等专业领域的优势。

当使用中等智能模式时,o3-mini 在这些领域的表现可以和 o1 相媲美,而且响应速度更快。


当处理复杂的实际问题时,o3-mini 的错误率也大大降低,比 o1-mini 减少了39%的严重错误。

在软件开发能力测试中表现出色,是目前所有已发布模型中最强的。


现在,X上的用户忙着 拿OpenAI的 o3-mini 实测 对比 DeepSeek R1。

首先是画图。

prompt:“编写一个 Python 脚本,每 5 秒钟一个不同颜色的新弹跳球出现在一个方块内,确保正确处理碰撞检测。使方块缓慢旋转。用 Python 实现它。确保球停留在方块内”

结果是o3-mini结果穿模了,DeepSeek R1的结果完美,得到wtf的成就。


“已确认 openai 使用 deepseek 实现 o3-mini-high”。似乎OpenAI也努力学习了下DeepSeek。


结果是各有所长。


大家似乎更喜欢DeepSeek在回答问题前,先给出思路。


“DeepSeek看起来更像有自我意识的动漫人物。” 

DeepSeek展示了它从一个步骤,到下一个步骤所使用的思考过程。


而o3-mini-high,使用“行业黑话”,例如“我正在考虑......”,“我正在磨练......”,“我正在规划……”。


这背后,可能就是开源 与 封闭的区别。

另外,业界似乎更喜欢用DeepSeek R1 + Claude Sonnet的组合,准确率、完成度,价格平衡做得更好。


TIGER实验室Wenhu Chen表示:
o3-mini 确实很出色。看来 DeepSeek已经激励了OpenAI。让OpenAI充分发挥了自身的优势。

竞争就是这样的!美国企业应该勇敢迎接中国企业的挑战,而不是鼓吹出口管制。

真正胜利的将是开源。开源项目,才可能获取全球广泛的开发者支持。


开源协作方式,战胜了原来这种闭源的传统方式。在开源与合作的浪潮中,任何一家公司都不可能永远独占鳌头。


END•
如需转载原创文章,请联系微信:KJMRTS88
欢迎点击





请到「今天看啥」查看全文