Ilya承认Scaling Law到头了，Meta和谷歌寻找替代o1的方法

大数据文摘 · 公众号 · 大数据 · 2024-11-15 19:30

正文

大数据文摘受权转载自夕小瑶科技说

作者 | 小鹿

近期，全球科技界的目光都集中在OpenAI即将推出的下一代模型上，究竟会是o2还是GPT-5？

o2代表了全新的训练范式，而GPT-5则代表了继续Scaling Law的路线。

实际上，这个问题已经在11月份的时候，有Reddit网友向Altman提出过：

Altman最新谈到OpenAI的动态时，与OpenAI寻求新路径的努力是相呼应的--下一代技术不会是GPT的简单迭代。

为什么不再是GPT-5了？

首先，GPT系列模型，即生成式预训练Transformer模型，其核心特点是依靠数据驱动的Scaling Law来推动性能的提升。

然而，随着技术的不断进步，这种依赖于数据量和模型规模增长的模式开始显现出其局限性，优化和改进的速度逐渐放缓。

OpenAI的资深前合伙人，同时也是早期推动暴力scaling的重要人物之一的Ilya在接受路透社采访时提到：“实际上，Scaling Law已经达到了极限，就要到头了！”

在数据方面，目前全球可用于训练的数据已经接近都被抓过来训练了，且仅仅通过向模型提供更多未标注数据的方式已无法实现进一步的提升。
在训练算力方面，随着模型规模的增大，所需的计算资源也在增加。但是好巧不巧，最新的研究表明，通过在推理阶段增加算力的使用也能有效提升模型性能，而不仅限于增加训练数据和算力。

在这样的背景之下，OpenAI的o1模型不再是对GPT模型的扩展，它代表了一种全新的训练范式。

这种范式探索了超越传统GPT架构的新途径，可能涉及到更深层次的算法创新和训练策略的彻底变革。

当Altman提及「o1及其后续版本」时，这暗示了Orion模型可能会与推理能力更加紧密地结合，并有可能被重新命名为「o2」。

Scaling Law没错，但是现阶段不能再这样用了

那这样看来Scaling Law是不是已经到天花板了？

Ilya 指出：我们不仅需要关注规模的扩大，更重要的是“扩大正确的规模”。即在保持效率和效果的同时进行规模扩大，变得尤为重要。

Ilya 的这一观点引发了一个核心问题：当我们谈论规模扩大（scaling）时，我们究竟在扩大什么？

在AI领域，规模扩大通常意味着模型的复杂性、数据集的大小以及计算资源的投入。然而，这种无差别的规模扩大往往导致资源的浪费和效率的低下。

而各大科技巨头们现在都认识到这个问题了！

OpenAI想到的新办法是测试时计算（inference-time computation）。

这种策略通过在模型推理过程中增加计算资源的投入，使得模型能够实时地生成和评估多个选项，而不是仅限于一个固定答案。

这种策略的核心优势在于，它使得模型在处理复杂的任务时，如解决数学问题、编程挑战或需要类似人类的推理和决策的场景，能够进行更深入的思考和分析。

以OpenAI的o1模型为例，该模型通过在训练和测试阶段引入不同级别的计算资源，实现了规模的扩展。这种双重规模扩展不仅提升了模型的性能，还降低了对能源和硬件资源的过度依赖。

各大公司也同样认识到不能再像以前一样使用Scaling Law了！

Meta的研究团队提出了一种名为“思维偏好优化”（Thought Preference Optimization, TPO）的技术，旨在训练大语言模型在执行任务前进行“思考”，而不仅仅依赖于特定的训练数据。

通常，LLMs被训练以回答用户问题或执行指令，模仿人类专家的反应。对于需要推理和规划的复杂问题，这种思考能力至关重要，并且可以应用于各种任务。

论文地址：https://arxiv.org/pdf/2410.10630

即通过探索可能的思考生成空间，使模型能够在缺乏直接监督的情况下学习如何思考。

对于每个指令，他们使用评判模型对思考候选者进行评分，以评估它们的响应质量，然后通过偏好优化进行调整。

Google的研究团队也提出了采用链式推理（CoT）方法来解决多步骤问题，并在生成多个答案后选择最佳答案。

通过在测试时增加计算量来改进大型语言模型（LLMs）的输出，是构建能够自我改进并处理开放式自然语言问题的代理的关键步骤。

该研究团队研究了LLMs在增加推理时计算量时的表现，重点是探讨如果允许LLM使用固定但非琐碎的推理时计算量，它能在一个具有挑战性的提示上提高多少性能。

这个问题的答案不仅影响LLM的性能，也影响LLM预训练的未来以及如何在推理时计算和预训练计算之间做出权衡。

尽管这一点很重要，Google的研究团队探索了两种主要机制：

对密集的、基于过程的验证器奖励模型进行搜索
根据测试时的提示，自适应地更新模型对响应的分布。

该团队发现，这两种情况下，扩展测试时计算的不同方法的有效性根据提示的难度而有很大的不同。

这一观察激发了应用一种“计算最优”的扩展策略，该策略旨在最有效地自适应地分配测试时计算。使用这种计算最优策略，与最佳基线相比，Google的研究团队可以将测试时计算扩展的效率提高4倍以上。此外，在FLOPs匹配评估中，该团队发现在较小的基础模型取得一定非琐碎成功率的问题上，测试时计算可以用来超越一个大14倍的模型。

论文链接：https://arxiv.org/pdf/2408.03314

请到「今天看啥」查看全文