专栏名称: 猿大侠
猿大侠,既然选择了,就一定成为大侠! 小程序、小游戏、Google、苹果、职场、前沿技术分享,一起成长。
目录
相关文章推荐
成飞资料库  ·  做项目如何避免情绪焦虑和自我内耗 ·  10 小时前  
鸡西新闻网  ·  2月23日 | ... ·  12 小时前  
鸡西新闻网  ·  2月23日 | ... ·  12 小时前  
出彩写作  ·  一个笔杆子的习惯里,藏着他的进步空间 ·  3 天前  
出彩写作  ·  写材料狠人的干货笔记 ·  3 天前  
51好读  ›  专栏  ›  猿大侠

o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭

猿大侠  · 公众号  ·  · 2025-02-04 12:24

正文

转自:新智元

编辑:KingHZ 桃子

【导读】 一场改写AI历史的震撼对决正在上演!就在昨天,当DeepSeek R1还在用「降维打击」重构AI格局时,OpenAI王者回归之作o3-mini已悄然降临,用实力证明——王者,从未离场!

在科技界,一天的时间足以改写历史。
DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。
o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。
甚至,在「物理模拟」高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。
能够清晰地看出,o3-mini具备更强的物理推理能力,DeepSeek表现出明显的「反重力」现象。

prompt:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
在另一个演示中,更加复杂,不仅要考虑小球与墙壁的碰撞,还要考虑不同小球之间的相互碰撞。

prompt:Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls
从单球反弹到多球碰撞,从简单物理到复杂系统,OpenAI的仿佛在诉说着「王者,从未离场」。
教授Derya Unutmaz对o3 mini表现的进步非常激动:
o3-mini只需一次提示就能准确生成符合物理定律的代码!与此同时,DeepSeek-R1对此却显得很吃力。

这场AI竞赛正在全速加速,后来居上者,拭目以待。目前,OpenAI明显处于领先地位!」
此外,在「人类最后一场考试」的纯文本测试集上,新模型03-mini(medium/high)在准确率上超越了DeepSeek-R1。
奥特曼甚至自信的表示:「不久,人类就需要另一场考试了……」
然而,这只是OpenAI新模型的冰山一角。
奥特曼剧透o3-mini接下来还有更大的惊喜!
o3-mini还有好东西,很快就会给你,我想我们把最好的留到了最后!

编码吊打o1,最好的编程模型


在代码补全基准Codeforces排名中,相对o1系列模型,o3-mini进步明显。

而独立于LLM提供商的性能基准和定价排行,Artificial Analysis表示:「o3-mini是从o1-mini向前迈出的一大步。」
同时,公布了o3 mini的初步结果,完整的基准测试结果稍后推出:
  • 人工分析质量指数为89,与DeepSeek R1匹配,略低于o1
  • 更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价,低于许多 DeepSeek R1 API(高于DeepSeek的甲方R1 API定价)
  • 快速-与o1-mini的速度相似,为170个token/秒,尽管这意味着2000个代币的「思考」时间仍然需要 ~12 秒


其中人工分析质量指数(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。
相关排名如下:
AI初创企业CEO,Bindu Reddy,整体上o3击败了R1,特别是在编码方面,让人大吃一惊。

她认为综合考虑性能、速度和价格,o3-mini high是目前最好的大语言模型(LLM):

  • 在编程上,o3-mini high大幅度领先o1、Sonnet以及其他模型
  • o3-mini high比Sonnet便宜2倍,比o1便宜15倍
  • o3-mini high比R1快约5倍
  • 在所有类别中,o3-mini high仅次于01,是第2名最佳模型

具体结果如下:
对此,OpenAI研究员Clive Chan表示:「我每天都在cursor中使用o3-mini,它绝对是最好的编程模型。我基本上完全信任它的Python代码(不再有误解/偷懒的问题),而且即使我当前的项目涉及3种我不熟悉的编程语言,o3-mini也帮了大忙!」

全网实测


那么,o3-mini真实实力究竟如何?
如下来自全网实测的最全演示,即可揭晓谜底。

o3-mini彻底掌握了arXiv


OpenAI研究科学家Sebastien Bubeck表示,o3-mini是一个了不起的模型。

在理解和解析arXiv论文方面,o3-mini达到了全球独一无二的水平,成为真正的科研伙伴!

下面是一个看似简单但会让所有其他模型都感到困惑的问题,而o3-mini却能给出极其有用的答案。
它完全说到了点子上:与自收缩曲线的联系、依赖于维度的界限,甚至还引用了相关论文。
下面这个例子是Sebastien在不同主题的另一个查询。
有趣的是,o3-mini-high给出的参考文献「Bubeck and Ganguly」并不完全正确,但确实非常相关。
总的来说,它给出的参考文献都是「模糊准确的」,可能会混淆作者/期刊/标题,但令人惊讶的是这些引用仍然很有用。
他又表示,这些都是相当冷僻的问题,能够回答这两个问题的论文少于100篇(实际上更接近约10篇)。
能有一个模型可以回答只有O(10)数量级的人类知道答案的问题,这确实令人惊叹。
此外,Sebastien又演示了一个用o3-mini构建「我的世界」的演示。

AI物理新巅峰,轻松击败R1


Hyperbolic联创Yuchen Jin测试后惊叹道,o3-mini可能是目前最强的物理推理LLM!
o3-mini竟然成功生成了四维超立方体(Tesseract)内反弹小球的Python代码,展现出惊人的物理推理和数学建模能力。

Prompt: Write a Python script of a ball bouncing inside a tesseract
再来看R1的表现,显然不如o3-mini。‍
再来看o3-mini-high,demo中竟然翻车不如o3-mini?
Yuchen Jin多次尝试后发现,o3-mini-high在这个任务上表现糟糕,甚至比一次性生成的o3-mini版本还差!
其中一个版本居然只生成了小球,没有四维空间结构……
另一个很好展现o3-mini理解物理世界的demo。
「被o3-mini震撼到了(不仅仅是因为它的编程能力),更因为它那闪电般的速度。
它仅用19秒就一次性生成了这四个演示。我从未见过类似的东西。一个新的AI时代已经到来」。
沃顿商学院教授Ethan Mollick让o3-mini-high首次挑战生成动态海洋风暴Shader,没想到竟然成功了!

18秒,克隆一个应用

另一位OpenAI研究员Aidan Clark表示:「o3-mini在智能和速度的组合方面令人难以置信,我不知道该说什么,你只能自己去试试看了。」

在下面demo中,Clark要求o3-mini用单个Python文件写一个Twitter克隆应用。
整个过程只用了8秒。

一句话,生成游戏


更令人惊叹的是,开发者Alex Finn仅用1个提示,o3-mini便能生成完整的太空游戏。
用一句话制作的「贪吃蛇」游戏。

prompt:create a snake game, where snakes compete with each other
另一个动漫小人射击游戏。
还有网友通过o3-mini-high制作的太阳系3D模拟。
网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

prompt:build me a massive amazing epic a floating city

OpenAI王者重归







请到「今天看啥」查看全文