专栏名称: Howie和小能熊
小能熊是终生学习的小能熊,是自我管理的小能熊。 小能熊专注于分享自我学习方法,分享时间管理、知识管理等自我管理方面的经验和思考。 一句话,小能熊,来自学习者,服务学习者。 热爱学习、希望提升自我的你,希望小能熊能成为你的好朋友。
目录
相关文章推荐
gooood谷德设计网  ·  xiān氙建筑工作室|北京小河边住宅 ·  5 天前  
gooood谷德设计网  ·  北京/深圳招聘 | PILLS – ... ·  5 天前  
51好读  ›  专栏  ›  Howie和小能熊

训练一个人脑 GPT,需要多少 token?

Howie和小能熊  · 公众号  ·  · 2024-04-19 15:26

正文

大模型的预训练规模

Llama3 发布,训练数据集达到了 15T token,叹为观止。想到GPT-3 的训练数据集只有300B token。而 GPT-4 没有公布训练数据集,但估计也就是几十 T token。

以 GPT-3 的预训练为例,175B 的参数量,300B 的训练数据集,数据集大小和参数量大小差不多,可以认为通过对300B 数据的学习,把人类语言中的“意义”压缩进了175 参数的模型中。

而 GPT-3 的词汇量是50k,相当于每个 token 在预训练中出现了300B/50K=6M 次;可以认为,要想掌握语言,每个词汇得在阅读中出现足够多的次数,神经网络才能提取出语言中的意义。

人脑的预训练规模

现在,可以往人脑 GPT 的预训练(海量阅读)中引申了。几个关键假设:首先,以 GPT-3.5 为参考对象(GPT-4 未公开技术细节,而其他模型不如 GPT 有名);其次,人类是“小样本学习者”,从文本中提取意义的效率应该比GPT 强,先假设比 GPT 强 1000 倍吧;第三,假设中文和英文的阅读各占一半,考虑到人类知识中英语占比超 60%,而其他任何语言占比不超过 5%,而且 GPT 训练数据中文占比不到 3%,但中文母语者阅读量肯定更多,所以,中英文一半一半;

计算如下:

一些想法:

1、阅读的目的不是单纯学习语言(如何使用某种语言),而是为了语言中的知识。语言不是人类智能/思维的容器、外皮,而是人类智能、思维本身。

2、为了学习作为工具的语言,不需要这么大阅读量。用外语进行吃喝拉撒的交流,几百小时的训练就足够多了。但是,作为自我发展、终身学习目的的阅读,数量要求上要大得多;







请到「今天看啥」查看全文