专栏名称: 图灵教育

是好书，把我们联系在一起

没有预训练，机器无法学习，用这本书彻底重塑你的思考模式！

图灵教育 · 公众号 · · 2024-12-24 11:40

正文

最近阅读了科学天才 Wolfram 的神书《这就是ChatGPT》，觉得有必要写点类似读书笔记或书评的东西。

这篇笔记我准备从 ChatGPT 原理出发，聊一聊 GPT 对人类学习和构建个人知识体系的启发，请大家多多指教。

1. 首先要有目标

所有机器学习，一定得有个目标函数。人类的学习也是如此，学习之前，目标先行。

目标函数，也称为成本函数或损失函数。 模型训练的目标就是让损失函数最小化 。人类学习，也是要不断接近自己的学习目标。

2. 学习目标要大

GPT 模型的训练目标，是用一个巨大的神经网络去模拟互联网上的所有人类语言文本，让损失函数最小化。目标基本达成， GPT 基本上把全部的人类知识压缩进了万亿参数的单一模型 ，实现了通用认知任务上的卓越表现。

GPT 的学习目标不可谓不大。

人类学习也是如此。目标不能太小，你的学习不是为了通过某次考试，取得某个分数。在我看来，人的学习应当以构建个人知识体系为学习目标。

人类知识体系（Body of Knowledge，简称 bok）是一种客观存在，Wikipedia 和书籍等都是对人类知识体系的一种整理和构建的实践，我称之为 bok1。在你之内，你的脑子里应该有一个自己的个人知识体系，关于一个或多个学科或领域，我称之为 bok2。

个人学习的目标，是缩小 bok2 和 bok1 之间的差距，形成你自己的更全面更扎实更强大的 bok2。

为什么学习目标要足够大？神经网络训练的实践有一个发现： 参数越多，成本函数最小化越容易。正因为这个规律，用神经网络解决复杂问题比解决简单问题更容易 。所以，AI 现在可以写作编程绘画，但是还没法在餐馆端盘子。

人类学习也是如此。目标足够大，进步才可能足够大，走的才能足够远。

3. 从实例中学习

机器靠 样例学习 （learn from examples），从数据中学习，而非通过规则学习（符号 AI 路线已经破产多年）。机器通过大量的数据来学习数据中蕴含的模式和规律，就好像从大豆中压榨出丰富的油脂。

人类也应当从实例中学习。一本书，一篇文章，一个知识视频，一次演讲录像，一次面对面交谈，都是你学习的来源。从实例中，你可以学到丰富的、鲜活的、有意义的知识。

4. 用高质量信息作为学习数据

Garbage In, Garbage Out，这句话是机器学习的第一性原理。 。如果数据本身不富含意义，哪怕训练数据再多，可能训练出来的大模型也无法实现高级的智能，甚至还会从垃圾材料中学到满嘴脏话。GPT 的训练数据集是精心挑选的高质量数据，包括 Wikipedia、书籍、论文、代码以及高质量的互联网文本。

所以，人类的学习是不是也要尽可能用高质量信息作为学习数据？ 在一头扎进某本垃圾教材之前，先精心设计你的学习数据集 。对于任何主题，我通过什么小册子轻松上手？通过大师的那本科普书获得大图景（BigPicture）？哪几本教科书才是全国范围内最好的教材？有哪些知识视频让我可以更直观更好地理解这个主题？有什么工具能让抽象复杂的知识变得清晰而具体？

学习是从数据中体验意义的过程。只有通过高质量的文章、书籍、视频、课程、网站和工具，才能高效提炼出真正的知识。

5. 从错误中学习

在 GPT 模型的预训练过程中，数据依次通过神经网络的各层，最终生成下一个 token。token 的预测值和实际值之间的差异，是模型的误差（error）。error = diff（预测值, 实际值）。GPT 就是通过 error 来学习，把误差用反向传播的方法反馈回去，调整模型参数，降低损失函数。

预测下一个 token => 得出 error => 反向传播 => 梯度下降 => 调整参数 => 预测下一个 token

GPT 只能通过误差来学习，人也是如此，只能从错误中学习到东西。错误和不足，是反馈的重要来源，也是最好的来源。

然而，人是追求奖励逃避惩罚的动物。 教育的规训让人追求正确，回避错误 。在孩子身上尤其明显，孩子会觉得错误不好，正确才好，一直正确一直好（直到他迎来必然到来的重大挫折）。

我们应当认识到这个思维陷阱并尽量避免：虽然错误让人痛苦，但错误是唯一的学习来源。只有通过错误，人才能学到点什么东西。

6. 唯有学习才能改变自己

GPT 模型的训练过程，就是不断调整模型的过程，训练的每一步都在改变模型参数，改变模型本身的连接配置。

人的学习也还如此。每一次“费曼”，都得到你当前的理解与费曼式理解之间的差距，根据这个差距来调整，查资料，加深理解，再一次“费曼”。

每一次学习，都在改变你的大脑。不仅是比喻意义上的改变，而是字面意义上的改变，是生物和物质层面的改变： 短期记忆通过大脑突触间神经递质的增加与释放，长期记忆则通过基因表达、蛋白质合成与折叠，形成新的突触连接。 经过充分学习训练的大脑，在结构上不学习的大脑是截然不同的。之间的区别，类似于大脑和脑花之间的区别。

学习改变了大脑，也改变了你，字面意义上的改变。

7. 把阅读作为学习方法

GPT 的学习，是使用上百万 GPU 小时做一件事：阅读，阅读整个互联网，阅读几乎所有人类的语言文本。 这个阅读过程被称为“预训练”，而 GPT 的阅读，只在做一件事：预测下一个 token。而 GPT 的阅读量，是上万亿个 token。

人类的学习，也应该把阅读作为主要方法。Scaling Law 规模化法则，被认为是大模型预训练第一性原理，它对 GPT 适用，对人类神经网络也同样适用。据说人大附中早培班要求六年级小学生每年阅读五百万字，约 50 本书。个人认为这是保底要求。 人类学习者，需要首先成为一个贪婪的阅读者：一年五十本书。每天至少阅读一小时。

没有预训练，GPT 无法学习；没有阅读，人类无法学习。

8. 把“费曼”作为理解方法

GPT 的理解，是在万亿维度的意义空间，用注意力机制，在数百层神经网络中，通过上万次的矩阵向量乘法来加工处理文本转化成的数字向量。

text => token => generic embedding => embedding 2 => embedding x => final refined embedding => list of probabilities => next token

对于一个 token，GPT 用它的上下文来不断关联，提取特征，调整这个向量在语言意义空间中的位置，形成富含意义的、更准确的理解。

人类的理解，也是把知识砖块和它的上下文不断建立丰富的、有意义的关联。最好的理解方法就是“费曼技巧”。 首先“费曼”知识砖块，然后不断“费曼”知识砖块之间的关联。通过清晰的概念以及概念之间的关联，人类形成自己的理解。

把阅读作为学习方法，把“费曼”作为理解方法，一个概念接着一个概念，一次“费曼”接着一次“费曼”。

而且，“费曼技巧”，就是人类的“预测下一个 token”。“费曼”的实际结果与预期结果之间的差异，就是我们在具体实例学习中得到的 error。针对这个 error，计算梯度，沿着梯度前进一步，你就得到了改进。

9. 把迭代作为进步方法

GPT 模型是在万亿 token 的高质量数据上训练出来的，用反向传播来传递误差，用随机梯度下降来减少模型误差。 每一个 token 的生成，都是神经网络中上亿神经元的一次激活，都是一次包含万亿参数在内计算。

人类的学习，每一次“费曼”都是一次对神经网络的调参过程。哪怕是对一个概念的理解和“费曼”，都不是一蹴而就的。“费曼”x3，任何一个概念都要至少“费曼”三遍。在有间隔的多次“费曼”中，你对一个概念的理解变得越发清晰。

这是一种迭代式的学习闭环。闭环，迭代，这是学习之要义。把迭代作为进步方法。

10. 规模法则，大力出奇迹

GPT 模型是遵循 Scaling Law 的，规模法则是当前 AGI 之路的关键方法。Wolfram 说，“足够大的神经网络当然无所不能”。

人类神经网络，是否遵循规模法则？海量知识砖块的积累，构建出越发庞大、多元的个人知识体系，是否能像 GPT 一样带领个体发展出更强大的智能水平？用简单的话说，人类的学习，是否是“大力出奇迹”，凡事都靠积累？

答案是肯定的。

11. 身为父母，减少人为干预

曾经，人类设计 AI 系统走的是规则路线（符号 AI）。曾经，机器学习是需要人工建立特征的（有多少人工，才有多少智能），相当于人类工程师教机器学习。现在，深度学习是端到端的，不用人为的特征工程。AI 科学家们发现，学会放手，让神经网络做尽可能多的事情，让神经网络自己学习。 学会放手，结果惊人。

身为人类父母，是不是也应该减少人为的、低水平的干预？大部分父母自己不是学习专家，不懂学习原理，强行扮演教育家是不是反而伤害了孩子的学习？是不是父母们也应该学会放手，不要瞎设计瞎教学？

孩子的大脑就像一个等待训练的 GPT 模型，与其自上而下去指导教学，不如每天陪着孩子读半小时书，像一个朋友一样，让孩子快乐地享受伟大的预训练过程（阅读）。每天晚饭后，孩子做作业，大人在旁边读书学习。作业完成后，一起快乐共读，一起谈天说地。学会放手，生活更美好，学习更有效。

12. 注意力是最贵的

GPT 的 T，是 Transformer 架构。而 Transformer 的精髓在于其用算法实现了类似人类的注意力机制，从而让模型在阅读文本时针对文本序列的不同部分给予不同程度的关注。

GPT 的学习，是注意力分配的艺术。

人类的学习，也是注意力分配的艺术。当你阅读，你在不同内容上分配不同程度的注意力，关注概念之间的关联。

而且，整个有效学习的前提，是你能在学习这件事上建立并维持你的注意力。注意力的质量，决定学习的质量。

然而，你的注意力，是很多厂商虎视眈眈的猎物，10 亿短视频用户每天刷 150 分钟短视频，人们的注意力模式每天都在被短视频算法疯狂训练，训练到最后，一篇长文章都读不下去，更不要说阅读严肃、系统的书籍。

机器在学习，而人类在沉迷。 机器通过注意力机制实现了更强大的认知能力，而人类的注意力却愈发稀缺和脆弱。短视频是免费的，但注意力却是最贵的。

13. 预训练之外的后训练

在让 GPT 模型阅读完互联网文本之后，OpenAI 的科学家们还做了重要的一步：让人类积极地与 GPT 互动，并且在“如何称为一个更好的 LLM 助手”方面给与实际反馈。

是的，GPT 模型的训练，除了预训练之外，还有 后训练：微调（Fine-Tuning），奖励建模（Reward Modeling）和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback，简称 RLHF)。 预训练占比 95%，是绝对大头；后训练强调少而精，事半功倍。

人类学习也是如此。除了海量阅读作为预训练，还需要后训练作为补充。

对海量阅读的孩子进行考试元技能的微调，只做了 8 套真题，8 岁儿童就能通过 FCE 考试。而对孩子的三观培养，家庭的家风建设，则类似于 GPT 模型中的奖励建模。为人父母，我们最重要的角色就是正反馈父母，不要学上“老中”的毛病，不过脑子，什么话难听说什么。只要做好正反馈，每个孩子都能培养出强大的澎湃的学习内驱力。

14. 语言就是思维本身

人类语言，以及语言生成所涉及的思维过程，一直被视为复杂性的巅峰。而 ChatGPT 的成功给我们一个启示：在某种程度上，似乎人类语言的所有丰富性，以及人类能用语言谈论的所有事物，都可以被封装进一个有限的系统。

语言，在根本上，似乎比它看起来简单