专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
爱否科技  ·  iPhone 17 ... ·  3 天前  
爱否科技  ·  OPPO Find X8s ... ·  3 天前  
51好读  ›  专栏  ›  Dots机构投资者社区

GPT-4.5震撼上线情商逆天!OpenAI最大最贵模型最像人类,奥特曼带娃缺席

Dots机构投资者社区  · 公众号  ·  · 2025-03-01 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。

图片




编辑:编辑部 HNYZ
【导读】 OpenAI的重磅炸弹GPT-4.5,刚刚如期上线了!它并不是推理模型,但是规模最大、知识最丰富,最鲜明的特点就是情商高、很类人。Pro版用户和付费开发者已经能用了,但token定价有点离谱。

万众瞩目瞩目的GPT-4.5终于登场!

虽然它并不是推理模型,但OpenAI对它的评价是——更实用,本质上更智能。

图片

进行展示的OpenAI研究者中,有一位华人科学家:Youlong Cheng

划重点:今天起,GPT-4.5会向所有ChatGPT Pro版用户开放,包括网页端、移动端和桌面端。另外所有付费开发者也能使用了。

下周会向Team版和Plus版开放,随后一周就是Edu和Enterprise版的用户。

GPT-4.5研究预览版,是OpenAI迄今为止规模最大、知识储备最丰富的模型。

作为GPT-4o升级版,GPT-4.5在预训练规模上进一步Scaling,同时被设计成一个通用性更强的模型。

它秘密武器便是——Scaling无监督学习和推理。

基于新旧技术的融合,GPT-4.5能更好地识别模式、连接信息,甚至在不需要复杂推理情况下,就能给出富有创意的回答。而且,幻觉率大幅降低。

图片

这难道就是奥特曼口中的AGI吗?

在多项基准测试中,GPT-4.5实力碾压GPT-4o,尤其在数学能力上飙升27%,编码能力提升7%-10%。

其中,在SWE-Lancer这种更依赖深层世界知识的评估中,GPT-4.5甚至一举超越了o3-mini!

这充分展示了无监督学习与推理能力提升之间的互补关系。

图片

在最新Cognition编码实测中,GPT-4.5的能力虽不及Claude 3.7,但明显超越了DeepSeek-R1、o1、GPT-4o等模型。

图片

唯一值得吐槽的是,GPT-4.5的token定价着实有些离大谱:每1M tokens输入价格为75刀,输出价格为150刀。

图片

奥特曼承认:GPT-4.5很像人,但庞大且昂贵

奥特曼激动发文表示,「GPT-4.5准备就绪了」!

好消息是,这是第一个让我感觉像在和一个深思熟虑的人交谈的模型。有几次我靠在椅子上,对于能从AI那里得到真正有用的建议感到惊讶。


坏消息是,这是一个庞大且昂贵的模型。目前,仅向Pro会员推出。

他解释道,由于OpenAI发展太快,内部GPU不够用了。下周将增加数万个GPU,届时会向Plus会员推出。

「很快会增加数十万个,我很确定你们会用掉我们能搭建的每一个GPU。这不是我们想要的运营方式,但要完美预测导致GPU短缺的增长高峰确实很难」。

图片

提前说明:这不是一个专注于推理的模型,也不会在基准测试中获得惊人成绩。这是一种不同类型的智能,它具有我之前从未感受过的魔力。真的很期待大家来尝试!

OpenAI研究科学家Noam Brown称,「Scaling预训练和scaling思考能力,是两个不同维度的提升。它们是互补的,而非相互竞争」。

图片
图片
图片

左右滑动查看

还有网友追问奥特曼为啥没有现身,原因竟是需要在医院带娃。

图片

奥特曼缺席,直播第一个demo:我被鸽了,很气

作为OpenAI目前规模最大、知识储备最丰富的模型,GPT-4.5通过扩展两种不同范式来提升AI能力——无监督学习和推理能力。

其中,推理会让GPT-4.5在回应前先思考,这提高了它在科学、数学和其他困难复杂问题上的性能。

而无监督学习,则增加了模型的词汇知识、直觉力,并减少了模型幻觉。

注意,跟o系列模型不同,GPT-4.5并不会一步一步推理,但它更实用、本质上更智能。

尤其因为它不是推理模型,OpenAI的研究者们也仍在对之试验,探索无监督学习究竟能展现出什么样的能力。

迄今最好的聊天模型:更体察,更细腻

GPT-4.5的最大特色,就是交互非常自然,被评为OpenAI「迄今最好的聊天模型」,

原因就在于,它有更深入的知识,和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。

研究者现场演示了一把,跟GPT-4.5对话究竟是什么样的体验。

告诉它:「朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们。」

可以看到,GPT-4.5敏锐地觉察到了他的沮丧,语气柔和地给予了安慰,提供了细腻的建议。

图片

而与之形成对比的,就是看起来「不近人情」的o1了。

它虽然的确给出了愤怒的恢复,但并没有捕捉到作者话语间传达出来的暗示——能不能安慰我一下。

图片

下一个考验,是让两个模型分别从第一性原理,解释AI对齐是什么。

对比之下可以看出,o1虽然提供了大量有用信息和知识点,但GPT-4.5的回答更加自然流畅。

图片

研究者表示,对模型来说,我们需要教会它们更好地理解人类需求和意图。

为此,他们针对GPT-4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,于是真正释放了它的深层世界模型。

在后面我们会看到,GPT-4.5在准确率上超越了其他GPT模型,同时也实现了最低的幻觉率。

图片

OpenAI还特意邀请了人类测试者将其与GPT-4o进行对比,结果显示,GPT-4.5 在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。

华人研究者Youlong,负责的是后训练基础设施。

他和同事们发现,运行如此大规模的模型,就要求后训练基础设施进一步优化,因为预训练阶段和后训练阶段的训练数据与参数规模比例有很大差异。

为此,他们开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型。

结合监督微调和RLHF,他们通过多轮迭代进行后期训练,终于开发出了一个可以部署的新模型。

给GPT-4.5投入最大的计算能力

接下来,他们问了所有模型这样一个问题:海水为什么是咸的?

我们从GPT-4.5倒着看各代模型的回答。

可以看到,从GPT-4T开始,模型回答的质量就会稍好一些。而GPT-4.5的表现,显然最精彩——清晰、精确、一致,而且非常有趣。

图片
图片
图片
图片
图片

左右滑动查看

比如这句「海水是咸的,是由于雨水、河流和石头」,通俗易懂又好记,充分体现了GPT-4.5的个性。

研究者介绍说,除了为实现GPT-4.5而进行的系统扩展工作外,他们还在架构、数据和优化方面投入了大量工作来实现训练。

Scaling「无监督学习」边界

正如前文所述,凭借双重buff加持下——Scaling无监督学习和推理,GPT-4.5性能取得了显著提升。

无监督学习和推理,代表着智力的两个维度。

· 推理

Scaling推理能力教会模型在回答前进行思考并生成思维链,使其能够处理复杂的STEM或逻辑问题。

比如,o1和o3-mini模型,就是这种模式的代表。

· 无监督学习

另一方面,无监督学习则是让模型对世界的理解更准确,凭直觉判断更聪明。

GPT-4.5就是无监督学习的典型案例。

通过增加计算能力和数据量,再加上架构和优化创新,使其变得知识更广、对世界的理解更深。

知识渊博,击败Grok 3







请到「今天看啥」查看全文