专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  终于还是来了……Pika 推出的 ... ·  8 小时前  
AIbase基地  ·  AI日报:DeepSeek紧急说明仿冒问题; ... ·  12 小时前  
AIbase基地  ·  AI日报:DeepSeek紧急说明仿冒问题; ... ·  12 小时前  
新智元  ·  微软官宣All in智能体,SWE ... ·  14 小时前  
宝玉xp  ·  转发微博-20250205150219 ·  2 天前  
51好读  ›  专栏  ›  新智元

单靠推理Scaling Law无法成就o1!无限推理token,GPT-4o依然完败

新智元  · 公众号  · AI  · 2024-09-29 13:03

正文



新智元报道

编辑:编辑部 HXY
【新智元导读】 o1的秘诀,和全新的「推理Scaling Law」关系有多大?Epoch AI最近的对比实验表明,算法创新才是关键。
CoT铸就了o1推理王者。
它开创了一种推理scaling新范式——随着算力增加、更长响应时间,o1性能也随之增长。
这一点,为AI scaling开辟了新的可能性。
既然如此,若是将o1这一训练过程直接应用到所有LLM中,岂不皆是「推理王者」。
然而,研究机构Epoch AI发现,结果并不是这样的。

单纯的扩展推理计算,根本不能弥合o1-preview和GPT-4o之间的差距。

他们称,「虽然o1使用了逐步推理方法训练,但其性能改进,可能还存在其他的因素」。

o1的秘诀是什么?

上周,在o1-preview和o1-mini发布之后,Epoch AI研究人员开启了GPT-4o和o1-preview对比实验。
他们选择了一个具有挑战性的基准测试GPQA进行评估,其中包含STEM领域研究生级别的多项选择题,而且考虑到模型的随机性进行了多次运行。
结果发现o1-preview的性能远远好于GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉开了相当大的差距。
这个结果也和OpenAI自己放出的测试结果相吻合,尤其是在AIME和Codeforces这类难度更高的基准上,o1-preview相比GPT-4o的提升更加明显。
然而,考虑到o1模型相比GPT-4o使用了更多的推理时计算,而且每个问题生成的token也更多,这种比较显得不太公平。
因此,研究人员使用了两种方法尝试增加GPT-4o的输出token,类似于让GPT-4o模仿o1的思考过程。
- 多数投票(majority voting):选择k个推理轨迹中最常见的答案
- 修正(revision):给模型n次反思和改进答案的机会
值得注意的是,这些都是相对简单的方法。其实存在更复杂、有效的方法来利用推理时间计算,比如让过程奖励模型作为验证器参与搜索。
o1模型很可能使用了更复杂的方法,但Epoch研究人员只是想建立一个比较基线,因此选择了较为基础的方法。
结果显示,虽然这两种方法都生成了更多的token,并提高了GPT-4o的准确性,但依旧无法匹敌o1-preview的性能。
GPT-4o变体的准确率仍然显著低于o1-preview,差距始终大于10个百分点。
与o1-preview相比,输出token数量对GPT-4o在GPQA上性能的影响
即使考虑到o1-preview每个输出token的成本更高,这种性能差距仍然存在。
Epoch AI团队的推算结果表明,即使在GPT-4o上花费1000美元用于输出token,准确率仍将比o1-preview低10多个百分点。
对GPT-4o mini进行相同操作后也能得到类似的结果,但在进行模型修正后,结果存在一些差异。
随着修正次数的增加,模型准确性不会持续提升,反而会在到达一定阈值后开始下降。这可能是由于GPT-4o mini在长上下文推理方面的局限。
从以上结果可以看出,仅仅扩大推理处理能力并不足以解释o1的卓越性能。
研究作者认为,先进的强化学习技术和改进的搜索方法可能发挥了关键作用,凸显了在Scaling Law之外,算法创新对AI发展的重要性。
但是,我们也并不能确定算法改进是o1-preview优于GPT-4o的唯一因素,更高质量的训练数据也可能导致性能差异。

推理很强的o1,差在规划能力

虽然GPQA或AIME这类问题相当困难,但一般只会考察模型的在STEM领域的知识储备和推理能力。那么强如o1,它的规划能力如何?
2022年,亚利桑那州大学的学者们曾经提出过一个用于评测LLM规划能力的基准套件PlanBench,包括了来自Blocksworld领域的600个任务,要求将一定数量的积木按照指定顺序堆叠起来。
在MMLU、GSM8K等传统基准相继饱和时,两年前提出的PlanBench依旧没有饱和,可见当今的LLM在规划能力方面依旧有很大的提升空间。

o1之前的模型中,PlanBench准确率很少超过50%

最近,提出PlanBench团队又测试了一下最新的o1-preview模型,发现虽然o1的结果已经表现出了实质性改进,但仍然存在很大的局限性,不能完全解决规划任务。







请到「今天看啥」查看全文