专栏名称: Howie和小能熊

小能熊是终生学习的小能熊，是自我管理的小能熊。小能熊专注于分享自我学习方法，分享时间管理、知识管理等自我管理方面的经验和思考。一句话，小能熊，来自学习者，服务学习者。热爱学习、希望提升自我的你，希望小能熊能成为你的好朋友。

gpt-4.5 深度分析+实例测评：一次性讲清楚openai 的最后一代“文科模型”

Howie和小能熊 · 公众号 · · 2025-02-28 17:01

正文

先来看一个 gpt-4.5 实例：

给我一个真正深刻、新颖、超出常规分布，但出奇简单的人类洞见——这个洞见应该极少有人意识到，甚至根本没人意识到。

它不能是泛泛而谈的、模糊的、浮夸的，也不能是陈词滥调或商业包装的废话。

gpt-4.5 说：人类的语言，从来不是为了“精确”

再来看 gpt-4.5 续写诗歌：

看完具体的例子，下面我们细细道来，一起走进 gpt-4.5 的世界。

what

今天凌晨4点半，openai用14分钟的极简直播，发布了有 史以来最大最贵 的最新前沿 gpt 模型：gpt-4.5。

目前，仅限 200 美金的 pro 用户“研究预览”。一周后，plus 用户就可以用上（太费 GPU，openai 正在连夜采购安装）。几个月后，免费用户应该也可以体验到。

gpt-4.5 是什么

openai官方描述：我们 最大最好 的模型……通过对 无监督学习 的扩展，gpt-4.5的对话 更自然 …… 知识库 更大，跟随 用户意图 的能力更强，“ 情商 ”更高（注意，openai 首次用这个词汇来描述大模型）…… 幻觉更少……

当时，目前的自媒体评价普遍是看空看衰不看好，甚至有“骂大街”的（垃圾什么的）。理由似乎很充分：不但不强，而且很弱，很贵，很慢，还得花 200 美金才能体验到，openai 真垃圾 ……

情绪带来流量，但 “流量们”（我们普通读者/用户） 真正需要的是客观、深入、理性的观察使用和分析，再配合具体的测试案例。

我们来逐项分析。

强项“不强”：温暖、微妙、情商

从benchmark（“考试成绩”）上看，gpt-4.5 毫无疑问是“不强”的：作为一个满血模型，参数可能几十万亿之多，各项指标却连自家的 o3-mini这样的蒸馏版模型都打不过。

只有语言项目（MMMLU和MMMU，多语种和多模态语言理解）上有不到 5% 的小幅度提升（普通人在 体感上感受不到 的那种）。

花了几十亿训练出的最强模型，就这？

openai 自己也心虚，一再提醒大家别管 benchmark 了。他们说，gpt-4.5 对世界的理解更深刻 ，在哪些哪些小地方有提升：

温暖（warm、intuitive） ：与你的对话更自然，更温暖，更符合直觉，跟人类的协作会更融洽协调；
微妙（subtle、implicit） ：对人类意图的理解更好，能解读出微妙的意图线索，以及人类语言中隐含的期待；
情商（EQ、nuance） ：对话更微妙，情商更高，展现出更强的审美直觉和创造力……

一句话总结：

gpt-4.5 更 善解人意 ，更理解 言外之意 ，更擅长捕捉 微妙的情感变化 ，情商更高，审美和创造力也更高。

很不幸的是，这些特点是很难量化，都是性质维度的细微变化。如果一个人 算法短视频 刷多了，读书少了，注意力涣散，洞察力下滑， 大脑分辨率 降低，可能就难以看出来这种细微变化。

在gpt-4.5发布前，读了上百份 deep research 报告后，我明显注意到： deep research 报告的语言不一样，比之前o1的语言有细节上但能感受得出的提升 。而 deep research 用的是满血版 o3，基本上可以确定，这个 o3 就是以 gpt-4.5 为基座模型通过强化学习后训练而得到的。

这种差别，你说难发现的话，确实难发现。但是，你说能具体感受到，也是能感受到的。我举一个例子：

类似于你有一个特别聪明的朋友。

三个月没见，他果然比上次见面更聪明了。

就是那种感觉：人还是那个人，但真的是更聪明的版本。🤣

弱项“真弱”：弱、慢、贵

gpt-4.5被骂，原因不外乎：弱、慢、贵。

“弱”的是benchmark，是STEM理科任务，不重复了。

“慢”是必然的。2年前的gpt-4有1.8万亿参数，gpt-4.5的参数量高了一个数量级，很可能来到 18 万亿参数这个档次 。每生成一个 token，都要 18 万亿参数激活一次，当然慢。

“贵”能有多贵？

有它衬托， “200 美金包月的 pro 简直就是白送” 那么贵。

Gpt-4.5 的 input 价格是 75 美金/百万 token，是gpt-4o 的 30 倍 ；output价格是 150 美金/百万 token，是 gpt-4o 的 15 倍 。

网友对比了deepseek-v3 的价格：gpt-4.5 的 input 是deepseek 的 278倍 ，输出价格是 deepseek 的 137 倍 。

how

gpt-4.5尴尬了：强项上，用户感受不到；弱项上，用户感受强烈。它不被骂谁被骂？（加上最近openai疯狂定向降智，口碑已降至谷底）

那么， 是不是说gpt-4.5真的一无是处 ？

或许是视角问题。理性分析号召全局视角，从llm整体格局来判断gpt-4.5的意义。

最后一代文科模型

一句话总结：

gpt-4.5 是最后一代文科模型。

gpt-4.5 不是推理模型，你不能用它跟openai-o1、deepseek-R1比较，不能因为它在数学、编程、STEM等理科任务不如理科模型来否定它存在的意义。

人类之间的文理科相互贬低，没必要且没意义。迁移到 LLM 上，也是如此。

如 openai 在博客文章里所说，LLM 有两大范式：预训练范式和推理范式。

预训练范式 的代表是 gpt系列模型，本质是 文科生