专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
51好读  ›  专栏  ›  Datawhale

OpenAI发布GPT-4.5:主打情商高,OpenAI最大最贵模型

Datawhale  · 公众号  ·  · 2025-02-28 09:49

正文

Datawhale分享

OpenAI:GPT4.5,整理:Datawhale

信息来源|X、 新智元、 机器之心

今天凌晨4点,OpenAI进行了在线技术直播, 奥特曼并没有现身


OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。


直播视频


奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。


OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。

OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

image.png
image.png
图源:https://x.com/ScottWu46/status/1895209597084017073

但值得吐槽的是,GPT-4.5 的 token 定价着实有些夸张:每 1M tokens 输入价格为 75 刀,输出价格为 150 刀。


从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。

现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

GPT4.5通过两种范式提升能力

作为OpenAI目前规模最大、知识储备最丰富的模型,GPT-4.5通过扩展两种不同范式来提升AI能力——无监督学习和推理能力。
其中,推理会让GPT-4.5在回应前先思考,这提高了它在科学、数学和其他困难复杂问题上的性能。
而无监督学习,则增加了模型的词汇知识、直觉力,并减少了模型幻觉。
注意,跟o系列模型不同,GPT-4.5并不会一步一步推理,但它更实用、本质上更智能。
尤其因为它不是推理模型,OpenAI的研究者们也仍在对之试验,探索无监督学习究竟能展现出什么样的能力。

迄今最好的聊天模型:更体察,更细腻

GPT-4.5的最大特色,就是交互非常自然,被评为OpenAI「迄今最好的聊天模型」,
原因就在于,它有更深入的知识,和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。
研究者现场演示了一把,跟GPT-4.5对话究竟是什么样的体验。
告诉它:「朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们。」
可以看到,GPT-4.5敏锐地觉察到了他的沮丧,语气柔和地给予了安慰,提供了细腻的建议。
图片
而与之形成对比的,就是看起来「不近人情」的o1了。
它虽然的确给出了愤怒的恢复,但并没有捕捉到作者话语间传达出来的暗示——能不能安慰我一下。
图片
下一个考验,是让两个模型分别从第一性原理,解释AI对齐是什么。
对比之下可以看出,o1虽然提供了大量有用信息和知识点,但GPT-4.5的回答更加自然流畅。
图片
研究者表示,对模型来说,我们需要教会它们更好地理解人类需求和意图。
为此,他们针对GPT-4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,于是真正释放了它的深层世界模型。
在后面我们会看到,GPT-4.5在准确率上超越了其他GPT模型,同时也实现了最低的幻觉率。
图片
OpenAI还特意邀请了人类测试者将其与GPT-4o进行对比,结果显示,GPT-4.5 在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。
华人研究者Youlong,负责的是后训练基础设施。
他和同事们发现,运行如此大规模的模型,就要求后训练基础设施进一步优化,因为预训练阶段和后训练阶段的训练数据与参数规模比例有很大差异。
为此,他们开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型。
结合监督微调和RLHF,他们通过多轮迭代进行后期训练,终于开发出了一个可以部署的新模型。

给GPT-4.5投入最大的计算能力

接下来,他们问了所有模型这样一个问题:海水为什么是咸的?
我们从GPT-4.5倒着看各代模型的回答。

可以看到,从GPT-4T开始,模型回答的质量就会稍好一些。而GPT-4.5的表现,显然最精彩——清晰、精确、一致,而且非常有趣。

图片
图片
图片
图片
图片
左右滑动查看
比如这句「海水是咸的,是由于雨水、河流和石头」,通俗易懂又好记,充分体现了GPT-4.5的个性。
研究者介绍说,除了为实现GPT-4.5而进行的系统扩展工作外,他们还在架构、数据和优化方面投入了大量工作来实现训练。

Scaling「无监督学习」边界

正如前文所述,凭借双重buff加持下——Scaling无监督学习和推理,GPT-4.5性能取得了显著提升。
无监督学习和推理,代表着智力的两个维度。
· 推理
Scaling推理能力教会模型在回答前进行思考并生成思维链,使其能够处理复杂的STEM或逻辑问题。
比如,o1和o3-mini模型,就是这种模式的代表。
· 无监督学习
另一方面,无监督学习则是让模型对世界的理解更准确,凭直觉判断更聪明。
GPT-4.5就是无监督学习的典型案例。
通过增加计算能力和数据量,再加上架构和优化创新,使其变得知识更广、对世界的理解更深。

知识渊博,击败Grok 3

GPT-4.5具备了强大的世界知识,在问答基准上,准确率明显超越了Grok 3、GPT-4o、o3-mini。
图片
GPT-4.5得分62.5%,比Grok 3明显提升近20%。
图片
与此同时,在幻觉方面,GPT-4.5是最低的,仅有37.1%。而o3-mini幻觉率高达80.3%。
图片

同一个问题,GPT-1到GPT-4.5的回答

具体来说,GPT-4.5在回答问题方面,和前几代模型的区别在哪?






请到「今天看啥」查看全文