专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
黄建同学  ·  Figure 创始人Brett ... ·  昨天  
51好读  ›  专栏  ›  宝玉xp

回复@用户5777269631:表示它说服能力很强,会骗人呢,可-20250228090519

宝玉xp  · 微博  · AI  · 2025-02-28 09:05

正文

2025-02-28 09:05

回复 @用户5777269631 :表示它说服能力很强,会骗人呢,可以看 GPT-4.5 系统卡里面的 4.5 节( 网页链接 评论配图 // @用户5777269631 :财连社今早报道的4.5擅长骗钱是啥意思?
2025 年 2 月 27 日,OpenAI 正式发布了其迄今为止规模最大的 AI 模型——GPT-4.5(代号 Orion)。尽管 OpenAI 表示 GPT-4.5 是该公司有史以来算力和数据规模最大的模型,但这次的性能提升并未像此前 GPT 系列一样带来革命性的飞跃。不仅如此,GPT-4.5 高昂的运行成本和在一些关键基准测试上的表现差强人意,甚至让外界开始怀疑——AI 长期依赖的Scaling Law(规模定律),正在走向终点了吗?

巨型模型、巨额成本,但性能未如预期
此次 GPT-4.5 发布最引人注目的,莫过于其惊人的成本——每 100 万输入 token 收费 75 美元,输出 token 更高达 150 美元。这意味着 GPT-4.5 的成本是 OpenAI 自己广泛使用的主力模型 GPT-4o 的30 倍,更是竞争对手 Claude 3.7 Sonnet 的25 倍。

OpenAI 发言人承认,GPT-4.5 的运行成本之高,使得公司必须重新评估它未来是否适合长期开放 API。

如此巨额成本背后,GPT-4.5 的性能究竟如何呢?

性能迷雾:优势与劣势并存
尽管 OpenAI 将 GPT-4.5 定位为非推理模型(Non-Reasoning Model),但它的表现却出现了明显的两极分化。

✅ 明确的性能提升领域:
• 事实性问答 (SimpleQA) 基准测试中,GPT-4.5 优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini,幻觉(hallucination)的频率也明显降低。
• 软件开发(SWE-Lancer) 测试中,GPT-4.5 表现优于 GPT-4o 和 o3-mini,在开发完整软件功能时具有更高的可靠性。
❌ 性能不及预期的领域:
• 在高难度的学术推理类测试(如 AIME 和 GPQA)中,GPT-4.5 表现低于竞争对手 Claude 3.7 Sonnet、DeepSeek R1 和 OpenAI 自家的推理模型 o3-mini。
SimpleQA benchmarks.
SimpleQA benchmarks.

SimpleQA benchmarks.(图片来源:OpenAI)
OpenAI’s Swe-Bench verified benchmark.
OpenAI’s Swe-Bench verified benchmark.

OpenAI’s Swe-Bench Verified benchmark.(图片来源:OpenAI)
OpenAI’s SWe-Lancer Diamond benchmark.
OpenAI’s SWe-Lancer Diamond benchmark.

OpenAI’s Swe-Lancer Diamond benchmark.(图片来源:OpenAI)
性能对比之谜:成本 vs 性能提升
GPT-4.5 虽然在一些特定任务上确实表现出色,但考虑到成本的激增,性能并未出现对应比例的显著提升。特别是在需要深度推理的任务上,GPT-4.5 远不如更便宜的推理型模型 Claude 3.7 Sonnet 和 OpenAI 的深度推理模型 Deep Research。

Devin 公司 CEO Scott Wu 在推特上也指出,GPT-4.5 在涉及架构设计和跨系统交互的任务上表现突出,但在纯粹的代码编写和编辑任务上却逊色于 Claude 3.7 Sonnet。这种性能的细微差别进一步证明,单纯的扩大模型规模,可能已不能带来跨领域全面的性能跃升。

从性能到情感智能:“微妙的提升”
OpenAI CEO Sam Altman 提到了 GPT-4.5 独特的魅力——它带来了以往模型所缺乏的“人性化”的感觉,虽然在数学、代码等硬核推理领域并不出彩,但在理解人类意图和情感回应方面达到了新的高度。

OpenAI 展示了一个情感交流的案例,当用户表示考试失败而难过时,GPT-4.5 给出的安慰更为贴心且符合社交情境:

正如 Andrej Karpathy 所言:“每代 GPT 都是微妙的提升,一切都变得更好一点,但无法具体指出哪一项是绝对的突破。”

Scaling Law 失效了吗?
此次 GPT-4.5 发布最令人关注的一点,在于它似乎验证了 AI 界早有预言的“规模定律的终结”。OpenAI 联合创始人 Ilya Sutskever 曾直言:“我们已经达到了数据的巅峰,传统的预训练方式即将终结。”

GPT-4.5 的性能曲线证实了他的预测——随着模型规模继续扩大,其性能的提升不再显著,甚至出现了严重的成本与收益不成比例的现象。

市场也开始感受到这一趋势:

“DeepSeek R1:我们不再需要大量 GPU 进行预训练;
OpenAI GPT-4.5:我们已到 GPU 预训练的尽头。”






请到「今天看啥」查看全文