专栏名称: Howie和小能熊

小能熊是终生学习的小能熊，是自我管理的小能熊。小能熊专注于分享自我学习方法，分享时间管理、知识管理等自我管理方面的经验和思考。一句话，小能熊，来自学习者，服务学习者。热爱学习、希望提升自我的你，希望小能熊能成为你的好朋友。

训练一个人脑 GPT，需要多少 token？

Howie和小能熊 · 公众号 · · 2024-04-19 15:26

正文

大模型的预训练规模

Llama3 发布，训练数据集达到了 15T token，叹为观止。想到GPT-3 的训练数据集只有300B token。而 GPT-4 没有公布训练数据集，但估计也就是几十 T token。

以 GPT-3 的预训练为例，175B 的参数量，300B 的训练数据集，数据集大小和参数量大小差不多，可以认为通过对300B 数据的学习，把人类语言中的“意义”压缩进了175 参数的模型中。

而 GPT-3 的词汇量是50k，相当于每个 token 在预训练中出现了300B/50K=6M 次；可以认为，要想掌握语言，每个词汇得在阅读中出现足够多的次数，神经网络才能提取出语言中的意义。

人脑的预训练规模

现在，可以往人脑 GPT 的预训练（海量阅读）中引申了。几个关键假设：首先，以 GPT-3.5 为参考对象（GPT-4 未公开技术细节，而其他模型不如 GPT 有名）；其次，人类是“小样本学习者”，从文本中提取意义的效率应该比GPT 强，先假设比 GPT 强 1000 倍吧；第三，假设中文和英文的阅读各占一半，考虑到人类知识中英语占比超 60%，而其他任何语言占比不超过 5%，而且 GPT 训练数据中文占比不到 3%，但中文母语者阅读量肯定更多，所以，中英文一半一半；

计算如下:

一些想法：

1、阅读的目的不是单纯学习语言（如何使用某种语言），而是为了语言中的知识。语言不是人类智能/思维的容器、外皮，而是人类智能、思维本身。

2、为了学习作为工具的语言，不需要这么大阅读量。用外语进行吃喝拉撒的交流，几百小时的训练就足够多了。但是，作为自我发展、终身学习目的的阅读，数量要求上要大得多；

训练一个人脑 GPT，需要多少 token？

正文

请到「今天看啥」查看全文