专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

目录

相关文章推荐

黄建同学 · OWL - Manus AI ... · 22 小时前

AI前线 · 团队“DeepSeek”化！字节 Seed ... · 昨天

机器之心 · 从「大模型」到「具身智能」，安克深耕前沿技术 ... · 昨天

黄建同学 · 昨天最火🔥的是Manus被扒了↓网友Jian ... · 昨天

爱可可-爱生活 · 图神经网络的统计物理学分析查看图片 ... · 2 天前

51好读 › 专栏 › 机器学习研究组订阅

GPT-4.5智商测试94，登上LLM竞技场榜首！网友质疑黑幕，实测结果惊人

机器学习研究组订阅 · 公众号 · AI · 2025-03-04 19:51

正文

GPT-4.5，口碑又意外反转了？

经过3千多轮比较， GPT-4 . 5 在全部类别拿下第一，位居LLM竞技场首位！

「不看智商看情商」的GPT-4.5，不是推理模型，此前的基准测试中基本都是全班垫底，惨不忍睹。

结果一转眼，它就在大模型竞技场上登顶了？？

刚刚，LLM Arena排行榜官宣：GPT-4.5 在所有类别中都位居榜首，在风格控制、多轮对话方面独占鳌头，拿到了1411的总分。

在多轮对话、困难提示、编码、数学、创意写作、指令遵循、长查询等领域都是第一！

这个结果，也太让人意外了吧……

马斯克立马跳出来表示：GPT-4.5只是短暂的第一，并不会维持太久。

果然，马斯克话音刚落不久，大模型竞技场的TOP 1就成了Grok-3，总分1412，跟GPT-4.5的比分紧咬，差距极小。

但无论如何，曾经登顶TOP 1的GPT-4.5，给人们留下了一串串的疑问：它不光情商高，让人如沐春风，而且绝顶聪明，睥睨群雄，天下第一，吊打o1、Grok-3、Clauede等前辈？？？

主打一个「高情商」的GPT-4.5，纯靠情商就能拿下编程、数学等领域第一吗？

现在，已经直接有网友开始质疑：大模型竞技场是不是有什么问题了。

甚至还有人猜测：LLM是不是已经学会操纵LMArena了？

GPT-4.5智商结果公布：得分94排名第五

就在同时，GPT-4.5的智商测试结果也公布了。

可以看到，GPT-4.5的线下测试智商为97，线上门萨测试智商为94。

总之，无论是线上还是线下智商测试，GPT-4.5的得分都没有OpenAI的o1 Pro、o3 mini和o1-preview高。

这个结果，总算是合理了些。

而在众多大模型中，线下智商测试得分最高的是OpenAI o1 pro，线上门萨智商测试得分最高的是OpenAI o1。

但要和人类比的话，GPT-4o可以说已经和人类的智商齐平。

人类的平均智商，大概在90到110。爱因斯坦的智商约为160，而陶哲轩被认为世界上智商最高的人，得分在225到230之间。

人类的智商被LLM超越，应该也就是近在咫尺的事了。

然而也有很多人质疑了：给LLM测智商，到底意义几何呢？

原因在于，智商是一个和人类心智独特性相关的度量，不可能与LLM相关。

网友实测惊喜：它很理解用户意图！

最近，奥特曼就晒出了自己和GPT-4.5对话的记录。

他提问道：「奇点临近，未知在哪一侧」，你如何看待？

GPT-4.5意味深长地答道：我们已经超越了奇点的事件视界，但只是刚刚越过。

我们已踏入奇点的引力范围，但要理解它的后果，依然为时尚早。

左右滑动查看

显然，奥特曼对于GPT-4.5的表现非常满意。

而就在这些天的实测中，许多网友也发现，GPT-4.5拥有一种超凡的自我意识，在理解用户意图上令人惊喜。

比如下面这个例子中，用户就开了一个关于国际象棋的粗俗玩笑，GPT-4.5没有任何困难地就接住了这个梗，并且给出了适宜的回答。

这位AI大V表示，自己对此印象太深刻了！因为GPT-4.5在完全没有经过任何思考token的情况下，就抓住了这个微妙之处。

他感慨道：预训练并没有过时，只是在某些领域收益递减了，但在其他领域却得到了惊人的提升！

相比之下，对于这句让LLM很难理解的人类粗俗玩笑，Claude Sonnet很显然并没有理解。

同样，Grok 3也没有get到这句话的意思。

对此，不服气的马斯克还出现在了评论区，贴上了Grok 3的回复，力证它并没有落后。

GPT-4.5并非文武双全

仔细看竞技场排名，目前在「语言」（language）选项上，UB排名第一的是Grok-3-Preview-02-24，得分1412，共3364次投票。

GPT-4.5-Preview的UB排名第二，得分1411，只在「风格控制」（StyleCtrl）上排名第一，共3224次投票。

· UB排名： 模型的排名上限，由统计上优于目标模型的数量加一确定。当模型A的95%置信区间下限分数高于模型B的上限分数时，认为模型A在统计上优于模型B。

· 风格控制排名： 考虑了响应长度和Markdown使用等影响因素的模型排名，从而将模型性能与潜在的混淆因素分离。

「综合」（Overall）选项上，Grok-3和GPT-4.5排名并列第一，后者在部分项目上有微弱优势。

在编程（coding）和数学（math）上，GPT-4.5的确和Grok-3并列第一。

按不同语言分类，Grok-3和GPT-4.5在英文、中文、德文等语言上并列第一。

此外DeepSeek-R1在中文上也是第一。

WebDev Arena是实时进行的AI编程竞赛，各个模型在「网页开发」挑战中直接对决，GPT-4.5压根没参赛！

而且OpenAI的模型表现并非佳，最好的o3-mini-high与Early-grok-3并列第4，落后与Claude 3.7 Sonnet、Claude 3.5 Sonnet以及DeepSeek-R1。

GPT-4.5新王登基？测试让人大跌眼镜

对于GPT-4.5，某研究者也发表了一篇博客，来对它详细进行了剖析。

GPT-4.5在社区中引发了褒贬不一的反应。

尽管前期进行了大肆炒作，该模型却未能完全达到人们的高期望。

一些测试结果让人大跌眼镜。

Karpathy的测试表明，在五分之四的情况下，用户更倾向于GPT-4o的回答。

尽管GPT-4.5被宣传为更具创意和情商，但在实际的用户体验中，这些优势并没有充分体现出来。

甚至有用户反馈，在创意写作方面，GPT-4.5的表现不如之前的模型。

请到「今天看啥」查看全文

推荐文章

黄建同学 · OWL - Manus AI 的开源替代品，已经快 8K+ 颗星-20250311183434

22 小时前

AI前线 · 团队“DeepSeek”化！字节 Seed Edge启动不足两月，冲刺AGI再发新作，训练成本再节省40%

昨天

机器之心 · 从「大模型」到「具身智能」，安克深耕前沿技术的另一面藏在这里

昨天

黄建同学 · 昨天最火🔥的是Manus被扒了↓网友Jian：所以……我只是简-20250311072255

昨天

爱可可-爱生活 · 图神经网络的统计物理学分析查看图片 //@爱可可-爱生活:本-20250310074323

2 天前

齐鲁晚报 · 真是拼了！2017年到来之前，他们在济南做了这样一件事儿，完胜所有歪果仁...

8 年前

机器人网 · 用完可以吃的无人机，简直是吃货爱好者的最爱

8 年前

滑州百事通 · 女童遭母亲情夫暴打昏迷545天，令人民揪心！生母终于受审

7 年前

爱范儿 · 太无趣了，这个小众系统挂掉之后，我们就只能用 iOS 和 Android 了吗？

7 年前

超级数学建模 · 求解一元高次方程的世纪撕逼大战：一言不合就下战书，决斗！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!