【新智元导读】
GPT-4.5上线一天,已经引起了集体群嘲:这个模型彻头彻尾失败了,OpenAI已经陷入严重困境,失去护城河!有人算出,GPT-4.5比DeepSeek V3贵了500倍,性能却更差。有的权威AI预测者看完GPT-4.5,气得直接把AGI预测时间推后了……当然了,OpenAI并不这么认为。
自从OpenAI发布GPT-4.5之后,Ilya这张图又开始火了。
GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。
GPT-4.5在基准测试上并没有提升,推理没有增强,只是变成了一个更易于合作、更有创造性、幻觉更少的模型。
GPT-4.5的「失败」更加证明,Ilya是对的。
现在,各方评测都已经出炉,结果显示,OpenAI实在是太打脸了。
从ARC-AGC的评估上来看,GPT-4.5几乎跟GPT-4o处于同一水平,智能上似乎没有任何提升。
纽约大学教授马库斯直接发长文痛批:GPT-4.5就是个空心汉堡。
一位AI初创CEO更是直言:在自己心目中最实用评估基准Aider Polyglot上,
OpenAI
的「镇国之宝」GPT-4.5
,
比DeepSeek
-
V3贵了500倍,但
表现反而更差。
如果这个结果准确,那OpenAI将陷入严重困境,甚至是
彻底失去护城河!
与此同时,国内这边DeepSeek连续6天给人们带来了开源暴击,R1模型直接减价75%。
总之,在DeepSeek、xAI Grok 3、Anthropic首个混合模型Cluade 3.7 Sonnet等的前后夹击之下,OpenAI这位昔日明星,如今显然已风光不再。
正如上文所提,刚刚那位AI初创CEO在看到下面这张图表后,感觉实在难以置信,因为GPT-4.5 Preview的表现,直接全班垫底。
为此,他还求证了表格制作者,对方表示自己仔细检查了性能数据,进行了多次运行,能保证每个结果都是对的。
GPT-4.5比GPT-4基础模型多出了10倍的预训练计算量,但却什么都不擅长,这合理吗?
有人猜测说,GPT-4.5可能并没有经过太多的监督微调,因为OpenAI本来是打算将其作为未来模型(如GPT-5)的基础模型或教师模型,用于进一步通过强化学习进行微调的。
可能是这个原因,导致它在代码的指令遵循上不算特别强。
或者,问题可能出在了数据混合上,因为OpenAI这次采用了一种全新的训练机制,所以可能有某种「成长痛」。
不过令人心凉的是:OpenAI内部许多能做到这件事的人,如今已经走了。
有人直接开麦表示:「如果DeepSeek能有OpenAI的资金量,那我们就完蛋了」。
还有人调侃道,这可能就是所谓的「用智商换情商」吧。
不管怎么说,在大家眼中,OpenAI的先发优势已经不复存在了。
马库斯转发了这个结果惊人的研究后表示,不管OpenAI在两年前有什么优势,如今他们已经彻底失去了护城河。
虽然他们现在仍拥有响亮的名字、大量数据和众多用户,但相对竞争对手并未拥有任何决定性的优势。
Scaling并没有让他们走到AGI的终点。GPT-4.5非常昂贵,GPT-5也失败了。
所有人都开始疑问:OpenAI能拿出的,就只有这么多了?
现在,DeepSeek已经引发了一场价格战,削减了大模型的潜在利润。而且,目前还没有任何杀手级应用出现。
在每一次模型的响应中,OpenAI都在亏损。公司的烧钱速度如此之快,但资金链却有限,连微软也不再完全支持他们了。
如果不能快速转型为非营利组织,一大笔投资就会变成债务。
而且,Ilya、Murati、Schulman……许多顶尖人物已经离开。
如果孙正义改变主意,OpenAI就会立刻面临严重的现金问题(马斯克有一句话说对了,星际之门的很大一部分资金,他们并没有拿到手)。
总之,在推出ChatGPT上,奥特曼确实是那个正确的CEO,但他并没有足够的技术远见,带领OpenAI迈向下一个阶段。
在这篇《GPT-4.5是个空心汉堡》中,马库斯也再次强调:Scaling已经撞墙了。
在GPT-4.5发布前,他就预测将是一场空欢喜,而LLM的纯粹Scaling(无论是增加数据量还是计算)已经撞墙。
在某些方面,GPT-4.5还不如Claude上一个版本的模型。
甚至第一次出现了这种情况:颇受尊敬的AI预测师感到极度失望,以至于推迟了自己对于AGI何时到来的预测时间。
而奥特曼在产品发布上的异常冷静,就更耐人寻味了。
他没有像往常那样大肆宣传AGI,而是承认了大规模模型的成本,却对AGI完全避而不提。
总之,马库斯表示,自己在2024年的预测依然强劲——
耗费五千亿美元后,依然没人找到可行的商业模式,除了英伟达和一些咨询公司之外,没人获得了可观的利益。
没有GPT-5,没有护城河。
「Scaling是一个假设,我们投入了相当于阿波罗计划两倍的资金,但至今并未取得太多实质性成果。」
总之,从输入价格来看,GPT-4.5可谓是贵到离谱:
-
o1的5倍
-
GPT-4o的30倍
-
o3-mini的68倍
-
DeepSeek-R1的137倍
-
但正如前文所说,作为「最贵」模型的GPT-4.5,在表现上却不是「最好」的。
跑分一个第1都没有
由知名华裔亿万富翁Alexandr Wang创办的Scale AI,定期会更新一套基于私有数据集的LLM排行榜SEAL,目前首页上共有15个。
然而,在这波最新的排名中,GPT-4.5 Preview竟然没有一项取得第一!
全场最佳成绩,是智能工具使用(Chat)项目的亚军——略强于Claude 3.7 Sonnet,但次于上一代GPT-4o。
接下来,GPT-4.5在EnginmaEval,Agentic Tool Use(Enterprise)两个项目上,取得第3。
其中,前者需要创造性地解决问题和综合不同领域信息的能力;后者评估模型工具使用的熟练程度,特点是需要将多个工具组合在一起。
分别输给了自家的o1/o1-preview和竞争对手最新的Claude 3.7 Sonnet(Thingking)。
在MultiChallenge中,排名第4,输给了o1、Claude 3.5 Sonnet和3.7 Sonnet。
榜单MultiChallenge用于评估LLM与人类用户进行多轮对话的能力,考察LLM的指令保留、用户信息推理记忆、可靠版本编辑和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。
在「人类最后一次考试」中,排在第5。
这次,它不仅输给了Anthropic的Claude,就连Gemini也骑在了它的头上。甚至,还是Flash版本。