专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  通俗版解读 查看图片-20250130060958 ·  昨天  
人工智能那点事  ·  独自返乡的视障女孩,这样记录1200公里返乡 ... ·  2 天前  
爱可可-爱生活  ·  【[30星]Baichuan-Omni-1. ... ·  3 天前  
爱可可-爱生活  ·  [CL]《Synthetic Data ... ·  4 天前  
爱可可-爱生活  ·  【[69星]SimpleDSPy:让Pyth ... ·  4 天前  
51好读  ›  专栏  ›  宝玉xp

Andrej Karpathy 用人类通过教科书学习来类别大模型-20250131021706

宝玉xp  · 微博  · AI  · 2025-01-31 02:17

正文

2025-01-31 02:17

Andrej Karpathy 用人类通过教科书学习来类别大模型训练,很简单易懂:

当你翻开任何一本教科书时,你会发现其中包含三类主要信息:

1. 背景信息/阐释

也就是教科书的主体内容,用来讲解概念。当你仔细阅读这些内容时,大脑实际上是在利用这些信息进行训练。这就好比预训练阶段:模型在互联网上“大量阅读”,并积累背景知识。

2. 带有完整解题过程的示例

这些示例演示了专家是如何一步步解决问题的,是可供学习和模仿的范例。这相当于监督微调:模型在人工撰写的“理想答案”上进行微调,从而学习如何生成更好的回答。

3. 练习题

这些通常只给出题目本身,并不提供详细解题过程,但会给出最终答案。每一章末尾往往都有很多这样的题目,目的是让学生通过反复试错来学习——必须经过多次尝试才能找到正确答案。这相当于强化学习。

目前,我们已经给LLM提供了大量属于前两类的数据,但第三类还处于起步阶段。我们在为LLM创建数据集时,就像在为它们编写教科书——同样需要包含这三种类型的数据。模型不仅要“读”,还要“练习”。

x.com/karpathy/status/1885026028428681698