本文转自微信公众号“新智元”,作者:新智元。
【导读】
撇开API价格暴涨30倍不说,GPT-4.5的实力还是可圈可点的。用掉10倍GPT-4算力,4.5注定在智能上大幅提升,不仅情商高更通人性,而且在编程、物理模拟测试中,也不输专业对手。然而,又贵又慢……
OpenAI发布了史上最贵的AI服务:GPT-4.5。
一边是「史上最贵」,一边是「感觉到了AGI」,GPT-4.5从诞生之初就充满了争议。
虽然一般人用不起,但依然有一大波实测迎面而来。
OpenAI研究员Aidan在X上表示,他花了很长时间玩这个新模型,「它让我感觉到了AGI」。
他使用不同版本的GPT模型来生成一张SVG格式的「美丽」自画像,结果看来,GPT-4.5终于可以生成一个像人的了。
至于「美丽」嘛,那就看个人喜好了。
Aidan接着说,IQ狂热者有一个称为「g因子」的概念,意思是有些人就是特别聪明,好像什么都擅长(不仅仅是某个狭窄领域)。
「GPT-4.5在几乎所有任务上都有很高的g因子(尽管有时候这种优势很微妙),感觉它比我用过的任何其他模型都更能理解这个世界。」他说。
要知道,GPT-4.5是OpenAI史上参数规模最大的模型,其计算量是上一代的10倍。
不难理解,算力狂飙下的智能,情商更高,还能提供更多的情绪价值。
智能开发工具Cursor, 发文表示:在其他模型失败的时候, GPT-4.5有效得邪门。
这种说法有些绕,Cursor为什么不直接夸GPT-4.5「目前最佳」?
因为它真不是。
同样致力于AI+软件领域的Scott Wu,表示GPT-4.5在编程任务上进步明显,但和Claude3.7 Sonnet比起来,只能说各有输赢。
在初级开发得分上,GPT-4.5比OpenAI自家的o1高10%,比GPT-4o高16%,但比Anthropic旗下的Claude 3.7 Sonnet低2%。
部分AI模型在智能编码评估中的比较:GPT-4o最差,Sonnet 3.7最好
GPT-4.5并没有针对编码编程任务优化,这么大的进步似乎还可以?
网友Flavio对GPT-4.5做了编程测试,他给了下面的提示词:
编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响,并且必须以逼真的方式从旋转的墙壁上弹回。
GPT-4.5的输出令人印象深刻!
Flavio表示,「这是迄今为止最真实的结果。」
接着,OpenAI Developers的X账号也注意到了Flavio的测试,他们在Flavio的提示词基础上,要求GPT-4.5做的更有创意。
改进之后的视觉效果果然更有创意,小球不仅五颜六色的,碰撞还有飞溅效果。
不过也不是每次测试都会成功。
网友Theo-t3.gg就展示了一次失败的尝试。
「从未见过一个模型以如此独特、新颖的方式艰难失败。」他说道。
在他的这次测试中,小球来回穿过六边形,显得毫无逻辑可言。
还有网友称,使用新发布的Sonnet 3.7,只需要3个提示就完成了。而且后两个提示只是为了使它更有趣。
网友Theo-t3.gg自己也承认,GPT-4.5并不是一个编码模型。
他表示「我发现它在写作方面相当不错。」
随后他贴出了GPT-4.5与Gemini 2.0 Flash的写作对比。
艾伦·图灵一生的情感概述。
总体而言,GPT-4.5的写作水平明显高于Gemini 2.0 Flash的文章。
GPT-4.5的文章在结构、语言、文风、内容深度和情感表达上都更加成熟和精炼,展现了更高的写作技巧和叙事能力。
Gemini 2.0 Flash的文章虽然活泼有趣,但过于口语化,缺乏深度和严谨性,更适合轻松阅读,而非深入了解图灵生平的严肃探讨。
有网友甚至称,「我从未见过这么好的AI写作」。
「这是写作的斯普特尼克时刻。」
该网友给了GPT-4.5一个提示词:
写一个原创的短篇恐怖故事,背景设定在夜晚的一辆汽车中,带有反转结局。
一对情侣在月光下开车兜风。他们的车停在了路边。
男孩转向女孩说道:
「宝贝,我真的很爱你。」
「怎么了,亲爱的?」
「我们的车抛锚了,应该是发动机出故障了。我得走路去买些汽油。」
「好吧,那我在这儿守着音响。最近新闻报道说有人专门偷音响。」
「这主意不错。记住,无论发生什么事都不要给任何人开门。亲爱的,我爱你。」
说完,男孩就出发去买汽油了。两个小时过去了,女孩喃喃自语道:「怎么回事?他应该早就回来了啊。」就在这时,她听到有什么东西在刮擦车门,还传来一个声音:
「让我进去!」
女孩始终没有开门,后来疲惫地睡着了。第二天早晨醒来,她发现男友依然没有回来。当她下车查看时,却发现「男人的手被钩在车门上。」
有网友看后感到害怕,看来它写的的确是恐怖故事。
除了旋转球和写作,网友AK也测试了GPT-4.5的游戏能力。
他给出一段提示词:一个基于网络的自主Wordle游戏克隆版,采用7个字母的单词和7次猜测机会,包含一些随机的7个字母单词。