来自:量子位 | 公众号 QbitAI
GPT-5被曝效果远不达预期。
OpenAI连续12场发布会刚刚结束,大家最想看的GPT-5/4.5影子都没有,于是华尔街日报这边爆料了。
按照市场估算,一次长达6个月的训练
仅计算就需要花费5亿美金
。GPT-5两次训练进展都不顺,背后的成本想必也是个天文数字。
Ilya前不久在NeurIPS 2024上宣判的预训练即将终结
,似乎再次得到论证……
这也和The Information此前爆料相呼应,随着GPT系列进化速度放缓,OpenAI正在尝试调整战略,比如o1、o3系列的推出。
目前,OpenAI对最新爆料尚无回应。
但GPT-5究竟是OpenAI藏着不发,还是不能发?答案更确定了一点。
巨量数据算力堆不好GPT-5的预训练
在华尔街日报的爆料中,OpenAI对于GPT-5的预期很高。
它能够进行科学探索发现,并完成例行的人类任务,比如预约、订航班。而且希望它能够犯更少的错误,或者能够承认错误存在,也就是减少幻觉。
这与更早透露出的信息相呼应。OpenAI前CTO Mira曾形象地
将GPT-5的智能水平比作博士生
。
这意味着GPT-5能够在某些特定领域取得高水平成绩,能像研究生、博士那样可以深刻理解、推理,并具备专业知识。对比来看,GPT-3是蹒跚学步的孩子,GPT-4是高中生。
今年10月,OpenAI最新筹集到的66亿美元融资,估值飙升到1570亿美元。投资者的再一次加码,也被认为是因为相信GPT-5将能完成重大飞跃。
但是GPT-5的发布一直悬而未决。
奥特曼之前表示,GPT-5
不会有明确的发布时间
,等什么时候准备好了,就什么时候发。这个时间可能是2025,也可能是2026。
如今回溯来看,
GPT-5的推出一直都坎坷不断
。
在2023年,OpenAI被曝光放弃了一个代号为
Arrakis
的模型。放弃原因是该模型不能实现在保持性能的同时减少对计算资源的需求,没有达到预期的训练效率。
这其实反向证明,如果想要训练规模更大规模的模型,还是需要更庞大的计算资源、更长的时间。
从设定来看,GPT-5显然会是个“巨无霸”。
GPT-5的开发启动于GPT-4发布时。至今已经超过18个月了。
它在内部的代号是
猎户座Orion
。按照原本计划,微软是想在2024年年中看到GPT-5的。
华尔街日报披露,GPT-5的大规模训练至少进行了2轮。
每次都需要几个月
,每次也都遇到了新问题。
最好的情况下,Orion比OpenAI目前的产品表现都要好。但与所消耗的成本相比,这种提升并不明显。
据估测,一次为期6个月的训练仅算力成本就要消耗
5亿美元
。对比来看,GPT-4的训练成本超1亿美元。
另一方面,
想要更好的模型,就需要更多的数据
。
公共资源的数据消耗殆尽,OpenAI决定雇人从头构建数据。据爆料,它专门找了一些软件工程师、数学家来写代码、解数学题,供GPT-5学习。
一直以来,AI圈内都认为模型学习代码可以提升它解决其他问题的能力。
同时OpenAI也和一些物理学家合作,让GPT-5学习科学家如何理解领域内的问题。
但问题就是,这样太慢了。
AI合成数据的路子OpenAI也走。据说GPT-5就使用了o1合成的数据。
这种范式可能已经可以被论证。
隔壁Anthropic也被爆料使用AI合成数据训练模型。他们的做法是把最好用的模型内部自留合成数据,因为模型性能与合成数据质量直接成正比。
以上,大概就是GPT-5最新相关信息。
不过话说回来,最近谁还在乎GPT-5呢
(手动狗头)
?
毕竟OpenAI凭借o1、o3系列开启了
推理Scaling Law
。
刚刚发布的o3在ARC-AGI上刷新成绩。最新结果报告显示,在400项公共任务上,o3的最好成绩已经达到91.5%。
在核心机制上,o3也给出新启发。它通过LLM在token空间内搜索和执行,实现了在测试时内的知识重组。
随着o3系列发布,AGI的预言依旧很有吸引力。
o3屠榜ARC-AGI测试,离AGI还有多远?
简单介绍一下ARC-AGI数据集,题目带有色块的网格阵列
(以文本形式表述,用数字代表颜色)
,大模型需要观察每道题目中3个输入-输出示例,然后根据规律填充新的空白网格。
这几个示例比较简单,但实际面临的问题可能是这样的:
ARC-AGI测试集一共包含400道公开试题和100个私有问题。
在公开问题中,o3高效率版的准确率为82.8%,消耗了1.11亿Token,平均每个任务成本为17美元。
低效率版本
(计算量是高效版的172倍)
,准确率高达91.5%,不过消耗的Token数也达到了惊人的95亿。
另外OpenAI还做了一个专门针对ARC-AGI的版本,使用了75%的公开数据集进行了训练。
这个版本拿到私有测试集上测试,结果地计算量模式取得了76%的准确率,高计算量模式则为88%。
并且,低计算量版本的成本在ARC-AGI-Pub的规则范围内
(,成为了公共排行榜上的第一名。
88%的高计算量版本则过于昂贵,但仍然表明新任务的性能确实随着计算量的增加而提高。
在此之前,GPT-3的准确率是零,GPT-4o为5%,o1最好也刚刚超过30%。
ARC挑战的发起者之一、前谷歌资深工程师、Keras之父
François Chollet
认为,o3能够适应以前从未遇到过的任务,可以说在ARC-AGI领域接近人类水平。
当然成本也十分昂贵,即使是低计算量模式,每个任务也需要17-20美元,而发起方雇佣真人解决此类问题的成本,平均到每个问题只有5美元。
但抛开成本问题,Chollet指出,
o3对GPT系列的改进证明了架构的重要性
,认为无法在GPT-4上通过投入更多计算来获得这样的成绩。
所以,通过ARC-AGI测试,意味着o3实现AGI了吗?Chollet认为并不是。
通过测试发现,o3
在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异
。
另外,ARC-AGI的下一代ARC-AGI-2也即将推出,早期测试表明其将对o3构成重大挑战,即使在高计算量模式下,其得分也可能会降低到30%以下
(而聪明人仍然能够得分超过95%)
。
但无论是否达到AGI,o3能够实现的成绩都是前所未有的,甚至有人认为,针对ARC这样的任务而言,人类的优势其实是在于视觉推理,如果改成像模型看到的那样用文本形式描述图形,那人类做的不一定会比AI好。
并且,针对o3“没能成功”的一个案例,还有人质疑是标准答案错了。
这道题当中,变化规律是将处于同一行或列的两个蓝色格子连成线,并把穿过的红色区域整块涂蓝。
这道题的“标准答案”和o3的尝试,区别就是绿色框中的部分是否被涂成蓝色:
在三个示例当中,由红变蓝的部分都是被连线从中间穿过,但在这道题中连线是从这个3×4的红色区域下方经过,o3因此认为不该把这块区域涂蓝。
那么,o3又是怎么实现的呢?