Andrej Karpathy 用人类通过教科书学习来类别大模型训练,很简单易懂:
当你翻开任何一本教科书时,你会发现其中包含三类主要信息:
1. 背景信息/阐释
也就是教科书的主体内容,用来讲解概念。当你仔细阅读这些内容时,大脑实际上是在利用这些信息进行训练。这就好比预训练阶段:模型在互联网上“大量阅读”,并积累背景知识。
2. 带有完整解题过程的示例
这些示例演示了专家是如何一步步解决问题的,是可供学习和模仿的范例。这相当于监督微调:模型在人工撰写的“理想答案”上进行微调,从而学习如何生成更好的回答。
3. 练习题
这些通常只给出题目本身,并不提供详细解题过程,但会给出最终答案。每一章末尾往往都有很多这样的题目,目的是让学生通过反复试错来学习——必须经过多次尝试才能找到正确答案。这相当于强化学习。
目前,我们已经给LLM提供了大量属于前两类的数据,但第三类还处于起步阶段。我们在为LLM创建数据集时,就像在为它们编写教科书——同样需要包含这三种类型的数据。模型不仅要“读”,还要“练习”。
x.com/karpathy/status/1885026028428681698
当你翻开任何一本教科书时,你会发现其中包含三类主要信息:
1. 背景信息/阐释
也就是教科书的主体内容,用来讲解概念。当你仔细阅读这些内容时,大脑实际上是在利用这些信息进行训练。这就好比预训练阶段:模型在互联网上“大量阅读”,并积累背景知识。
2. 带有完整解题过程的示例
这些示例演示了专家是如何一步步解决问题的,是可供学习和模仿的范例。这相当于监督微调:模型在人工撰写的“理想答案”上进行微调,从而学习如何生成更好的回答。
3. 练习题
这些通常只给出题目本身,并不提供详细解题过程,但会给出最终答案。每一章末尾往往都有很多这样的题目,目的是让学生通过反复试错来学习——必须经过多次尝试才能找到正确答案。这相当于强化学习。
目前,我们已经给LLM提供了大量属于前两类的数据,但第三类还处于起步阶段。我们在为LLM创建数据集时,就像在为它们编写教科书——同样需要包含这三种类型的数据。模型不仅要“读”,还要“练习”。
x.com/karpathy/status/1885026028428681698