专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

爱可可-爱生活 · 【[1k星]typescript-types ... · 昨天

机器之心 · CVPR ... · 2 天前

爱可可-爱生活 · 【FLORA：一场彻底改变工作流的革命！核心 ... · 2 天前

爱可可-爱生活 · 通过因果视角揭示和增强思维链推理 ... · 2 天前

黄建同学 · 先Mark，一直想搞个这样的Code ... · 3 天前

51好读 › 专栏 › 新智元

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

新智元 · 公众号 · AI · 2025-03-01 14:20

正文

新智元报道

编辑：编辑部 JHZ

【新智元导读】 GPT-4.5上线一天，已经引起了集体群嘲：这个模型彻头彻尾失败了，OpenAI已经陷入严重困境，失去护城河！有人算出，GPT-4.5比DeepSeek V3贵了500倍，性能却更差。有的权威AI预测者看完GPT-4.5，气得直接把AGI预测时间推后了……当然了，OpenAI并不这么认为。

自从OpenAI发布GPT-4.5之后，Ilya这张图又开始火了。

GPT-4.5令人失望的表现，再次印证了Ilya这句话的含金量：预训练已经达到极限，推理Scaling才是未来有希望的范式。

GPT-4.5在基准测试上并没有提升，推理没有增强，只是变成了一个更易于合作、更有创造性、幻觉更少的模型。

GPT-4.5的「失败」更加证明，Ilya是对的。

现在，各方评测都已经出炉，结果显示，OpenAI实在是太打脸了。

从ARC-AGC的评估上来看，GPT-4.5几乎跟GPT-4o处于同一水平，智能上似乎没有任何提升。

纽约大学教授马库斯直接发长文痛批：GPT-4.5就是个空心汉堡。

一位AI初创CEO更是直言：在自己心目中最实用评估基准Aider Polyglot上， OpenAI 的「镇国之宝」GPT-4.5 ，比DeepSeek - V3贵了500倍，但表现反而更差。

如果这个结果准确，那OpenAI将陷入严重困境，甚至是彻底失去护城河！

与此同时，国内这边DeepSeek连续6天给人们带来了开源暴击，R1模型直接减价75%。

总之，在DeepSeek、xAI Grok 3、Anthropic首个混合模型Cluade 3.7 Sonnet等的前后夹击之下，OpenAI这位昔日明星，如今显然已风光不再。

「GPT-4.5真这么差？我不会看错了吧」

正如上文所提，刚刚那位AI初创CEO在看到下面这张图表后，感觉实在难以置信，因为GPT-4.5 Preview的表现，直接全班垫底。

为此，他还求证了表格制作者，对方表示自己仔细检查了性能数据，进行了多次运行，能保证每个结果都是对的。

GPT-4.5比GPT-4基础模型多出了10倍的预训练计算量，但却什么都不擅长，这合理吗？

有人猜测说，GPT-4.5可能并没有经过太多的监督微调，因为OpenAI本来是打算将其作为未来模型（如GPT-5）的基础模型或教师模型，用于进一步通过强化学习进行微调的。

可能是这个原因，导致它在代码的指令遵循上不算特别强。

或者，问题可能出在了数据混合上，因为OpenAI这次采用了一种全新的训练机制，所以可能有某种「成长痛」。

不过令人心凉的是：OpenAI内部许多能做到这件事的人，如今已经走了。

有人直接开麦表示：「如果DeepSeek能有OpenAI的资金量，那我们就完蛋了」。

还有人调侃道，这可能就是所谓的「用智商换情商」吧。

不管怎么说，在大家眼中，OpenAI的先发优势已经不复存在了。

左右滑动查看

马库斯：OpenAI彻底失去护城河

马库斯转发了这个结果惊人的研究后表示，不管OpenAI在两年前有什么优势，如今他们已经彻底失去了护城河。

虽然他们现在仍拥有响亮的名字、大量数据和众多用户，但相对竞争对手并未拥有任何决定性的优势。

Scaling并没有让他们走到AGI的终点。GPT-4.5非常昂贵，GPT-5也失败了。

所有人都开始疑问：OpenAI能拿出的，就只有这么多了？

现在，DeepSeek已经引发了一场价格战，削减了大模型的潜在利润。而且，目前还没有任何杀手级应用出现。

在每一次模型的响应中，OpenAI都在亏损。公司的烧钱速度如此之快，但资金链却有限，连微软也不再完全支持他们了。

如果不能快速转型为非营利组织，一大笔投资就会变成债务。

而且，Ilya、Murati、Schulman……许多顶尖人物已经离开。

如果孙正义改变主意，OpenAI就会立刻面临严重的现金问题（马斯克有一句话说对了，星际之门的很大一部分资金，他们并没有拿到手）。

总之，在推出ChatGPT上，奥特曼确实是那个正确的CEO，但他并没有足够的技术远见，带领OpenAI迈向下一个阶段。

在这篇《GPT-4.5是个空心汉堡》中，马库斯也再次强调：Scaling已经撞墙了。

在GPT-4.5发布前，他就预测将是一场空欢喜，而LLM的纯粹Scaling（无论是增加数据量还是计算）已经撞墙。

在某些方面，GPT-4.5还不如Claude上一个版本的模型。

甚至第一次出现了这种情况：颇受尊敬的AI预测师感到极度失望，以至于推迟了自己对于AGI何时到来的预测时间。

而奥特曼在产品发布上的异常冷静，就更耐人寻味了。

他没有像往常那样大肆宣传AGI，而是承认了大规模模型的成本，却对AGI完全避而不提。

总之，马库斯表示，自己在2024年的预测依然强劲——

耗费五千亿美元后，依然没人找到可行的商业模式，除了英伟达和一些咨询公司之外，没人获得了可观的利益。

没有GPT-5，没有护城河。

「Scaling是一个假设，我们投入了相当于阿波罗计划两倍的资金，但至今并未取得太多实质性成果。」

GPT-4.5：不求最好，但求最贵

总之，从输入价格来看，GPT-4.5可谓是贵到离谱：

o1的5倍
GPT-4o的30倍
o3-mini的68倍
DeepSeek-R1的137倍
DeepSeek-V3的278倍

但正如前文所说，作为「最贵」模型的GPT-4.5，在表现上却不是「最好」的。

跑分一个第1都没有

由知名华裔亿万富翁Alexandr Wang创办的Scale AI，定期会更新一套基于私有数据集的LLM排行榜SEAL，目前首页上共有15个。

然而，在这波最新的排名中，GPT-4.5 Preview竟然没有一项取得第一！

全场最佳成绩，是智能工具使用（Chat）项目的亚军——略强于Claude 3.7 Sonnet，但次于上一代GPT-4o。

接下来，GPT-4.5在EnginmaEval，Agentic Tool Use（Enterprise）两个项目上，取得第3。

其中，前者需要创造性地解决问题和综合不同领域信息的能力；后者评估模型工具使用的熟练程度，特点是需要将多个工具组合在一起。

分别输给了自家的o1/o1-preview和竞争对手最新的Claude 3.7 Sonnet（Thingking）。

在MultiChallenge中，排名第4，输给了o1、Claude 3.5 Sonnet和3.7 Sonnet。

榜单MultiChallenge用于评估LLM与人类用户进行多轮对话的能力，考察LLM的指令保留、用户信息推理记忆、可靠版本编辑和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

在「人类最后一次考试」中，排在第5。

这次，它不仅输给了Anthropic的Claude，就连Gemini也骑在了它的头上。甚至，还是Flash版本。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【[1k星]typescript-types-only-wasm-20250228134545

昨天

机器之心 · CVPR 2025有作者用AI生成审稿意见，被发现了，论文也被拒了

2 天前

爱可可-爱生活 · 【FLORA：一场彻底改变工作流的革命！核心价值：将原本需要3小-20250227120842

2 天前

爱可可-爱生活 · 通过因果视角揭示和增强思维链推理查看图片 //@爱可可-爱生-20250227071253

2 天前

黄建同学 · 先Mark，一直想搞个这样的Code Review工具↓Grok-20250226222732

3 天前

新街派生活报 · 还有1天，哈尔滨这个地方就要被挤爆了！快告诉爸妈！

8 年前

王冠雄频道 · 危机与机遇同在，徐少春“泼冷水”只为更好的化蝶

7 年前

潘幸知 · 出轨一年的老公，值不值得原谅

7 年前

医信金融 · 同样是首富，为什么马云比王健林混得更风生水起？

7 年前

丁祖昱评楼市 · 周六大家说 | 今年买什么都不如买地产股！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!