看了电子版前面两章,写的很不错!
——
GPT 系列模型的发展历程,有两点令人印象深刻。
第一点是可拓展的训练架构与学习范式:Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为预测下一个词这一通用学习范式;
第二点是对于数据质量与数据规模的重视:不同于 BERT 时代的预训练语言模型,这次大语言模型的成功与数据有着更为紧密的关系,高质量数据、超大规模数据成为大语言模型的关键基础。
上述的思路看似简单,但能够从早期众多的技术路线中寻找到这条路线,并且坚定地去执行这条路线,这就是 OpenAI 成功的关键所在。
——
GPT 系列模型的发展历程,有两点令人印象深刻。
第一点是可拓展的训练架构与学习范式:Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为预测下一个词这一通用学习范式;
第二点是对于数据质量与数据规模的重视:不同于 BERT 时代的预训练语言模型,这次大语言模型的成功与数据有着更为紧密的关系,高质量数据、超大规模数据成为大语言模型的关键基础。
上述的思路看似简单,但能够从早期众多的技术路线中寻找到这条路线,并且坚定地去执行这条路线,这就是 OpenAI 成功的关键所在。