专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
数据派THU  ·  【ICLR2025】VEVO:基于自监督解耦 ... ·  2 天前  
数据派THU  ·  ICLR 2025 | ... ·  2 天前  
数据派THU  ·  原创 | 一文读懂霍夫直线变换 ·  5 天前  
51好读  ›  专栏  ›  天池大数据科研平台

刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模型,API价格飞涨30倍,不拼推理拼情商

天池大数据科研平台  · 公众号  · 大数据  · 2025-02-28 10:28

正文

本文转载来源:机器之心公众号,不代表官方立场
大家心心念念的 GPT-4.5 终于来了!
凌晨 4 点,OpenAI 开始了直播,奥特曼并没有现身。直播不到 15 分钟就匆匆结束了。
OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。
奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。
OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。
OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。
Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。
image.png
image.png
图源:https://x.com/ScottWu46/status/1895209597084017073
从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。
现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。
基准测试结果
OpenAI 首先在 SimpleQA(评估模型的事实性回答能力)数据集上进行了测试,其中 GPT-4.5 的准确率最高,超越了前代 GPT-4o、o1 和 o3-mini,展现了 GPT-4.5 拥有惊人的世界知识。
image.png
同时,GPT-4.5 的幻觉率也最低。
image.png
OpenAI 其次测试了人类协作训练水平。
随着模型不断扩展并解决更复杂的问题,教会它们更好地理解人类的需求和意图变得越来越重要。对于 GPT-4.5,OpenAI 开发了全新的可扩展技术,可以使用来自较小模型的数据来训练更大、更强的模型。这些技术提高了 GPT-4.5 的可操纵性、对细微差别的理解和自然对话水平。
下图人类偏好衡量结果显示,测试人员更喜欢 GPT-4.5 查询而不是 GPT-4o。
image.png
OpenAI 表示,将对世界的深刻理解与更佳的协作相结合,可以使得模型在更适合人类协作的「热情直观对话」中自然地整合想法。 GPT-4.5 能够更好地理解人类的意思,并以更细致入微的「情商」来解读微妙的暗示或隐含的期望。 此外,GPT-4.5 还表现出了更强的审美直觉和创造力,它擅长帮助写作和设计。
比如「在考试失败后,正在经历一段艰难的时光」,GPT-4.5 能够给你更拟人的安慰「哎呀,听到这个消息我真的很遗憾。 考试失败会让人感到很艰难和沮丧,但请记住,这只是一个瞬间 —— 并不反映你的身份或能力。 想谈谈发生了什么,还是你只是需要分散注意力? 无论如何,我都在这里。 」。
image.png
不过,OpenAI 指出 GPT-4.5 在做出反应之前不会思考,这使得它的优势与 o1 等推理模型截然不同。 因此,与 o1、o3-mini 相比,GPT-4.5 是一种更通用、天然更智能的模型。
OpenAI 相信推理将成为未来模型的核心能力,而两种扩展方法 —— 预训练和推理 —— 将相辅相成。 随着 GPT-4.5 等模型通过预训练变得更加智能和知识渊博,它们将成为推理和使用工具的代理的更强大的基础。
从下图多个基准测试结果,我们可以明显看到: 在 GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5 全面领先于 GPT-4o,但仍然逊色于 o3-mini,尤其是数学和真实编程能力。
数字代表最佳内部性能。
扩展无监督学习
OpenAI 通过扩展两种互补范式来提升 AI 能力: 无监督学习和推理。
这两种范式代表了 AI 智能的两个轴向。
其中,扩展推理使模型在做出回应之前学会思考并产生思维链,从而能够解决复杂的 STEM(科学、技术、工程和数学)或逻辑问题。 例如 OpenAI 的 o1 和 o3‑mini 模型就推动了这一范式的发展。
另一方面,无监督学习则提高了世界模型的准确性以及直觉能力。
GPT‑4.5 是通过扩大计算和数据规模以及架构和优化创新来扩大无监督学习的一个例子。 其结果是一个知识面更广、对世界理解更深入的模型,从而在广泛的主题上减少了幻觉现象,提高了可靠性。
接下来,我们看看 GPT 在这几年当中范式的改变:
2018 年,当问 GPT-1「第一种语言是什么? 」时,GPT-1 只能简单的重复问题,答案根本没有参考价值:
2019 年,GPT-2 能进行一些简短的回答:
image.png
GPT-3.5 的回答如下,但并不是最准确的答案:
image.png
GPT-4 显然比其他模型更聪明,但你会明显感觉到它想让你知道它有多聪明,只是在列出事实:
最后,我们看一下 GPT-4.5 的答案,可以看出 GPT-4.5 给出了一个很棒的回答。 它清晰、简洁、连贯,而且还很有趣。
API 调用和价格
至于 API,所有付费用户现已可以选择聊天补全 API、助手 API 和批处理 API 来接入 GPT-4.5 模型,支持函数调用、结构化输出、流式传输和系统消息等主要功能,还支持图像输入。
测试显示,GPT-4.5 在写作辅助、沟通、学习、辅导和头脑风暴等需要高情商和创造力的应用场景特别有用。 在多步骤编程和复杂任务自动化等方面也表现出色,看来 OpenAI 是持续押注智能体了。
GPT-4.5 体量很大,需要大量计算资源,所以 API 价格每 1M token 75 美元,比 GPT-4o 的 2.5 美元暴涨 30 倍。 OpenAI 甚至在官方博客中表示: 「因此,GPT-4.5 还无法完全替代 GPT-4o」
考虑到要在支持现有功能和开发未来的模型之间取得平衡,OpenAI 还在评估是否要长期在 API 中提供 GPT-4.5。
大家明显被 GPT‑4.5 的价格震惊到了,下面这张梗图说明了一切。
图源:https://x.com/airesearch12/status/1895215157623889991
OpenAI 已经放出了详细的 GPT-4.5 系统卡。
image.png
系统卡地址:






请到「今天看啥」查看全文