专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
极市平台  ·  一文详尽之Scaling Law ·  15 小时前  
极市平台  ·  一文详尽之Scaling Law ·  15 小时前  
信息平权  ·  国产的希望 ·  昨天  
信息平权  ·  国产的希望 ·  昨天  
爱可可-爱生活  ·  【[22星]EmbodiedEval:评估多 ... ·  2 天前  
爱可可-爱生活  ·  【[42星]VecturaKit:为移动设备 ... ·  2 天前  
宝玉xp  ·  //@大红矛:-20250129033223 ·  5 天前  
51好读  ›  专栏  ›  宝玉xp

//@高飞:看来人与AI,殊途同归了,预训练、后训练、测试时间计-20250131111633

宝玉xp  · 微博  · AI  · 2025-01-31 11:16

正文

2025-01-31 11:16

//@高飞:看来人与AI,殊途同归了,预训练、后训练、测试时间计算。
Andrej Karpathy 用人类通过教科书学习来类别大模型训练,很简单易懂:

当你翻开任何一本教科书时,你会发现其中包含三类主要信息:

1. 背景信息/阐释

也就是教科书的主体内容,用来讲解概念。当你仔细阅读这些内容时,大脑实际上是在利用这些信息进行训练。这就好比预训练阶段:模型在互联网上“大量阅读”,并积累背景知识。

2. 带有完整解题过程的示例

这些示例演示了专家是如何一步步解决问题的,是可供学习和模仿的范例。这相当于监督微调:模型在人工撰写的“理想答案”上进行微调,从而学习如何生成更好的回答。

3. 练习题

这些通常只给出题目本身,并不提供详细解题过程,但会给出最终答案。每一章末尾往往都有很多这样的题目,目的是让学生通过反复试错来学习——必须经过多次尝试才能找到正确答案。这相当于强化学习。

目前,我们已经给LLM提供了大量属于前两类的数据,但第三类还处于起步阶段。我们在为LLM创建数据集时,就像在为它们编写教科书——同样需要包含这三种类型的数据。模型不仅要“读”,还要“练习”。

x.com/karpathy/status/1885026028428681698
推荐文章
极市平台  ·  一文详尽之Scaling Law
15 小时前
极市平台  ·  一文详尽之Scaling Law
15 小时前
信息平权  ·  国产的希望
昨天
信息平权  ·  国产的希望
昨天
宝玉xp  ·  //@大红矛:-20250129033223
5 天前