不要“教授”，要激励是Self-play RL的关键？Open AI 研究员分享

歸藏的AI工具箱 · 公众号 · · 2024-09-20 17:28

正文

Open AI 研究员 Hyung Won Chung ^[1] 放出了他去年的一次分享。

可能刚好讲到了可能关于 o1 的核心训练思路。

他的逻辑是 不要“教授”，要激励 。

比如涉及 RL 时候常用来举例子的 AlphaGo。

不要告诉模型如何才能赢得棋局，而应该引导模型学习什么是好的走法。

背景介绍：

• 传统的机器学习方法往往直接"教授"模型特定的技能或知识。 • 但在开发通用人工智能时，我们无法枚举所有需要的技能和知识。 • 计算能力正在指数级增长，为新的训练范式提供了可能。

"激励"而非"教授"的核心思想：

• 不是直接教授模型特定技能，而是创造一个环境或任务，激励模型自主学习。 • 这种方法让模型能够发展出更通用、更灵活的能力。

以大语言模型（LLM）为例：

• LLM主要通过"下一个token预测"任务来训练。 • 这个简单的任务实际上是一个强大的激励机制。 • 模型为了更好地预测下一个token，被迫学习语言结构、世界知识、推理能力等。

隐式多任务学习：

• 预测下一个token可以看作是大规模的隐式多任务学习。 • 模型面对数万亿种不同的预测情况，被迫发展出通用的问题解决能力。

显式信号vs诱导激励：

• 显式信号：预测正确的下一个token。 • 诱导激励：发展出理解语言、推理、组合概念等通用能力。

激励结构的优势：

• 更具可扩展性：随着计算资源增加，模型可以学习更复杂的能力。 • 更通用：学到的能力不局限于特定任务，可以泛化到新情况。 • 能力涌现：某些复杂能力（如推理）会在模型达到一定规模时突然出现。

类比解释：

• "给人一条鱼"：直接提供答案（硬编码） • "教人钓鱼"：教授特定技能 • "教人喜欢吃鱼并使其饥饿"：创造激励，让人自主学习包括钓鱼在内的多种获取食物的方法

为什么现在这种方法变得可行：

• 计算能力的增长使得我们可以训练更大的模型。 • 大模型已经达到了能够响应复杂激励结构的"智能阈值"。

对未来AI研究的启示：

• 应该更多地关注设计有效的激励结构，而不是直接编码知识或技能。 • 需要重新思考如何评估和理解AI的能力，特别是那些可能在未来"涌现"的能力。

潜在的广泛应用：

•