Andrej Karpathy 用人类通过教科书学习来类别大模型-20250131021706_宝玉xp的专栏文章_微信文章

Andrej Karpathy 用人类通过教科书学习来类别大模型-20250131021706

宝玉xp · 微博 · AI · 2025-01-31 02:17

正文

2025-01-31 02:17
本条微博链接

Andrej Karpathy 用人类通过教科书学习来类别大模型训练，很简单易懂：

当你翻开任何一本教科书时，你会发现其中包含三类主要信息：

1. 背景信息/阐释

也就是教科书的主体内容，用来讲解概念。当你仔细阅读这些内容时，大脑实际上是在利用这些信息进行训练。这就好比预训练阶段：模型在互联网上“大量阅读”，并积累背景知识。

2. 带有完整解题过程的示例

这些示例演示了专家是如何一步步解决问题的，是可供学习和模仿的范例。这相当于监督微调：模型在人工撰写的“理想答案”上进行微调，从而学习如何生成更好的回答。

3. 练习题

这些通常只给出题目本身，并不提供详细解题过程，但会给出最终答案。每一章末尾往往都有很多这样的题目，目的是让学生通过反复试错来学习——必须经过多次尝试才能找到正确答案。这相当于强化学习。

目前，我们已经给LLM提供了大量属于前两类的数据，但第三类还处于起步阶段。我们在为LLM创建数据集时，就像在为它们编写教科书——同样需要包含这三种类型的数据。模型不仅要“读”，还要“练习”。

x.com/karpathy/status/1885026028428681698