专栏名称: Howie和小能熊
小能熊是终生学习的小能熊,是自我管理的小能熊。 小能熊专注于分享自我学习方法,分享时间管理、知识管理等自我管理方面的经验和思考。 一句话,小能熊,来自学习者,服务学习者。 热爱学习、希望提升自我的你,希望小能熊能成为你的好朋友。
目录
相关文章推荐
最爱大北京  ·  周杰伦方紧急声明! ·  16 小时前  
北京本地宝  ·  速查!2025北京亦庄半马抽签结果公布!还有 ... ·  2 天前  
于小戈  ·  塌房顶流,你糊涂啊 ·  2 天前  
最爱大北京  ·  10号线咋了? ·  2 天前  
51好读  ›  专栏  ›  Howie和小能熊

gpt-4.5 深度分析+实例测评:一次性讲清楚openai 的最后一代“文科模型”

Howie和小能熊  · 公众号  ·  · 2025-02-28 17:01

正文

先来看一个 gpt-4.5 实例:

给我一个真正深刻、新颖、超出常规分布,但出奇简单的人类洞见——这个洞见应该极少有人意识到,甚至根本没人意识到。

它不能是泛泛而谈的、模糊的、浮夸的,也不能是陈词滥调或商业包装的废话。

gpt-4.5 说:人类的语言,从来不是为了“精确”

gpt-4.5
gpt-4.5

再来看 gpt-4.5 续写诗歌:

来自网友 @tz_2022
来自网友 @tz_2022

看完具体的例子,下面我们细细道来,一起走进 gpt-4.5 的世界。

what

今天凌晨4点半,openai用14分钟的极简直播,发布了有 史以来最大最贵 的最新前沿 gpt 模型:gpt-4.5。

目前,仅限 200 美金的 pro 用户“研究预览”。一周后,plus 用户就可以用上(太费 GPU,openai 正在连夜采购安装)。几个月后,免费用户应该也可以体验到。

gpt-4.5 是什么

openai 原文划线笔记
openai 原文划线笔记

openai官方描述:我们 最大最好 的模型……通过对 无监督学习 的扩展,gpt-4.5的对话 更自然 …… 知识库 更大,跟随 用户意图 的能力更强,“ 情商 ”更高(注意,openai 首次用这个词汇来描述大模型)…… 幻觉 更少……

当时,目前的自媒体评价普遍是看空看衰不看好,甚至有“骂大街”的(垃圾什么的)。理由似乎很充分:不但不强,而且很弱,很贵,很慢,还得花 200 美金才能体验到,openai 真垃圾 ……

情绪带来流量,但 “流量们”(我们普通读者/用户) 真正需要的是客观、深入、理性的观察使用和分析,再配合具体的测试案例。

我们来逐项分析。

强项“不强”:温暖、微妙、情商

gpt-4.5 benchmark
gpt-4.5 benchmark

从benchmark(“考试成绩”)上看,gpt-4.5 毫无疑问是“不强”的:作为一个满血模型,参数可能几十万亿之多,各项指标却连自家的 o3-mini这样的蒸馏版模型都打不过。

只有语言项目(MMMLU和MMMU,多语种和多模态语言理解)上有不到 5% 的小幅度提升(普通人在 体感上感受不到 的那种)。

花了几十亿训练出的最强模型,就这?

openai 自己也心虚,一再提醒大家别管 benchmark 了。他们说,gpt-4.5 对世界的理解更深刻 ,在哪些哪些小地方有提升:

openai 原文划线笔记
openai 原文划线笔记
  • 温暖(warm、intuitive) :与你的对话更自然,更温暖,更符合直觉,跟人类的协作会更融洽协调;
  • 微妙(subtle、implicit) :对人类意图的理解更好,能解读出微妙的意图线索,以及人类语言中隐含的期待;
  • 情商(EQ、nuance) :对话更微妙,情商更高,展现出更强的审美直觉和创造力……

一句话总结:

gpt-4.5 更 善解人意 ,更理解 言外之意 ,更擅长捕捉 微妙的情感变化 ,情商更高,审美和创造力也更高。

很不幸的是,这些特点是很难量化,都是性质维度的细微变化。如果一个人 算法短视频 刷多了,读书少了,注意力涣散,洞察力下滑, 大脑分辨率 降低,可能就难以看出来这种细微变化。

在gpt-4.5发布前,读了上百份 deep research 报告后,我明显注意到: deep research 报告的语言不一样,比之前o1的语言有细节上但能感受得出的提升 。而 deep research 用的是满血版 o3,基本上可以确定,这个 o3 就是以 gpt-4.5 为基座模型通过强化学习后训练而得到的。

这种差别,你说难发现的话,确实难发现。但是,你说能具体感受到,也是能感受到的。我举一个例子:

类似于你有一个特别聪明的朋友。

三个月没见,他果然比上次见面更聪明了。

就是那种感觉:人还是那个人,但真的是更聪明的版本。🤣

弱项“真弱”:弱、慢、贵

gpt-4.5被骂,原因不外乎:弱、慢、贵。

“弱”的是benchmark,是STEM理科任务,不重复了。

“慢”是必然的。2年前的gpt-4有1.8万亿参数,gpt-4.5的参数量高了一个数量级,很可能来到 18 万亿参数这个档次 。每生成一个 token,都要 18 万亿参数激活一次,当然慢。

“贵”能有多贵?

有它衬托, “200 美金包月的 pro 简直就是白送” 那么贵。

与 gpt-4o 的价格对比
与 gpt-4o 的价格对比

Gpt-4.5 的 input 价格是 75 美金/百万 token,是gpt-4o 的 30 倍 ;output价格是 150 美金/百万 token,是 gpt-4o 的 15 倍

网友对比了deepseek-v3 的价格:gpt-4.5 的 input 是deepseek 的 278倍 ,输出价格是 deepseek 的 137 倍

how

gpt-4.5尴尬了:强项上,用户感受不到;弱项上,用户感受强烈。它不被骂谁被骂?(加上最近openai疯狂定向降智,口碑已降至谷底)

那么, 是不是说gpt-4.5真的一无是处

或许是视角问题。理性分析号召全局视角,从llm整体格局来判断gpt-4.5的意义。

最后一代文科模型

一句话总结:

gpt-4.5 是最后一代文科模型。

gpt-4.5 不是推理模型,你不能用它跟openai-o1、deepseek-R1比较,不能因为它在数学、编程、STEM等理科任务不如理科模型来否定它存在的意义。

人类之间的文理科相互贬低,没必要且没意义。迁移到 LLM 上,也是如此。

如 openai 在博客文章里所说,LLM 有两大范式:预训练范式和推理范式。

预训练范式 的代表是 gpt系列模型,本质是 文科生







请到「今天看啥」查看全文