先来看一个 gpt-4.5 实例:
给我一个真正深刻、新颖、超出常规分布,但出奇简单的人类洞见——这个洞见应该极少有人意识到,甚至根本没人意识到。
它不能是泛泛而谈的、模糊的、浮夸的,也不能是陈词滥调或商业包装的废话。
gpt-4.5 说:人类的语言,从来不是为了“精确”
gpt-4.5
再来看 gpt-4.5 续写诗歌:
来自网友 @tz_2022
看完具体的例子,下面我们细细道来,一起走进 gpt-4.5 的世界。
what
今天凌晨4点半,openai用14分钟的极简直播,发布了有
史以来最大最贵
的最新前沿 gpt 模型:gpt-4.5。
目前,仅限 200 美金的 pro 用户“研究预览”。一周后,plus 用户就可以用上(太费 GPU,openai 正在连夜采购安装)。几个月后,免费用户应该也可以体验到。
gpt-4.5 是什么
openai 原文划线笔记
openai官方描述:我们
最大最好
的模型……通过对
无监督学习
的扩展,gpt-4.5的对话
更自然
……
知识库
更大,跟随
用户意图
的能力更强,“
情商
”更高(注意,openai 首次用这个词汇来描述大模型)……
幻觉
更少……
当时,目前的自媒体评价普遍是看空看衰不看好,甚至有“骂大街”的(垃圾什么的)。理由似乎很充分:不但不强,而且很弱,很贵,很慢,还得花 200 美金才能体验到,openai 真垃圾 ……
情绪带来流量,但
“流量们”(我们普通读者/用户)
真正需要的是客观、深入、理性的观察使用和分析,再配合具体的测试案例。
我们来逐项分析。
强项“不强”:温暖、微妙、情商
gpt-4.5 benchmark
从benchmark(“考试成绩”)上看,gpt-4.5 毫无疑问是“不强”的:作为一个满血模型,参数可能几十万亿之多,各项指标却连自家的 o3-mini这样的蒸馏版模型都打不过。
只有语言项目(MMMLU和MMMU,多语种和多模态语言理解)上有不到 5% 的小幅度提升(普通人在
体感上感受不到
的那种)。
花了几十亿训练出的最强模型,就这?
openai 自己也心虚,一再提醒大家别管 benchmark 了。他们说,gpt-4.5
对世界的理解更深刻
,在哪些哪些小地方有提升:
openai 原文划线笔记
温暖(warm、intuitive)
:与你的对话更自然,更温暖,更符合直觉,跟人类的协作会更融洽协调;
微妙(subtle、implicit)
:对人类意图的理解更好,能解读出微妙的意图线索,以及人类语言中隐含的期待;
情商(EQ、nuance)
:对话更微妙,情商更高,展现出更强的审美直觉和创造力……
一句话总结:
gpt-4.5 更
善解人意
,更理解
言外之意
,更擅长捕捉
微妙的情感变化
,情商更高,审美和创造力也更高。
很不幸的是,这些特点是很难量化,都是性质维度的细微变化。如果一个人
算法短视频
刷多了,读书少了,注意力涣散,洞察力下滑,
大脑分辨率
降低,可能就难以看出来这种细微变化。
在gpt-4.5发布前,读了上百份 deep research 报告后,我明显注意到:
deep research 报告的语言不一样,比之前o1的语言有细节上但能感受得出的提升
。而 deep research 用的是满血版 o3,基本上可以确定,这个 o3 就是以 gpt-4.5 为基座模型通过强化学习后训练而得到的。
这种差别,你说难发现的话,确实难发现。但是,你说能具体感受到,也是能感受到的。我举一个例子:
类似于你有一个特别聪明的朋友。
三个月没见,他果然比上次见面更聪明了。
就是那种感觉:人还是那个人,但真的是更聪明的版本。🤣
弱项“真弱”:弱、慢、贵
gpt-4.5被骂,原因不外乎:弱、慢、贵。
“弱”的是benchmark,是STEM理科任务,不重复了。
“慢”是必然的。2年前的gpt-4有1.8万亿参数,gpt-4.5的参数量高了一个数量级,很可能来到
18 万亿参数这个档次
。每生成一个 token,都要 18 万亿参数激活一次,当然慢。
“贵”能有多贵?
有它衬托,
“200 美金包月的 pro 简直就是白送”
那么贵。
与 gpt-4o 的价格对比
Gpt-4.5 的 input 价格是 75 美金/百万 token,是gpt-4o 的
30 倍
;output价格是 150 美金/百万 token,是 gpt-4o 的
15 倍
。
网友对比了deepseek-v3 的价格:gpt-4.5 的 input 是deepseek 的
278倍
,输出价格是 deepseek 的
137 倍
。
how
gpt-4.5尴尬了:强项上,用户感受不到;弱项上,用户感受强烈。它不被骂谁被骂?(加上最近openai疯狂定向降智,口碑已降至谷底)
那么,
是不是说gpt-4.5真的一无是处
?
或许是视角问题。理性分析号召全局视角,从llm整体格局来判断gpt-4.5的意义。
最后一代文科模型
一句话总结:
gpt-4.5 是最后一代文科模型。
gpt-4.5 不是推理模型,你不能用它跟openai-o1、deepseek-R1比较,不能因为它在数学、编程、STEM等理科任务不如理科模型来否定它存在的意义。
人类之间的文理科相互贬低,没必要且没意义。迁移到 LLM 上,也是如此。
如 openai 在博客文章里所说,LLM 有两大范式:预训练范式和推理范式。
预训练范式
的代表是 gpt系列模型,本质是
文科生