手搓一个GPT模型，惊了！

程序员小灰 · 公众号 · · 2023-10-10 09:55

正文

以前，一个大型互联网企业，研发团队动辄上千人。但是随着大数据和AIGC技术的来临，可能十几个人甚至几个人就能完成以前上百人组成的技术团队的工作。

随着开源技术和云计算的快速发展，程序员的可替代性变高了。

但有些东西是没法迭代和替代的，打开认知的局限，掌握最前沿的技术，拓展提升研发实力，在技术迭代的浪潮中，打不过就加入，成为一个参与者！

想学习大模型的原理，但是不知道如何进入？

你是否还对GPT的原理处于懵懵懂懂的状态？

你是否GPT是如何变成ChatGPT而感到困惑？

你是否对Transformer的原理并不是很理解？

面试的时候，你是否被Query，Key，Value，Position等具体向量名词搞得云里雾里？

如果您有以上任何这样的问题，此次的超硬核免费直播课 《庖丁解牛2023 - 手推逐行实现GPT模型彻底理解大模型底层原理》 将是您的不二选择.

“我们只提供最核心的底层原理”

内容介绍

Introduction

以ChatGPT为代表的人工智能大模型带来了一次全新的人工智能升级. 这一次的人工智能升级不仅仅停留在AI技术，而是大范围的影响了诸多领域，尤其是文字工作者和知识工作者.

我们具体进行分析，ChatGPT顾名思义是具备聊天（Chat）功能的（GPT）模型. 而 GPT模型是生成式的（Generative）预训练（Pretrained）转换器（Transformer）. 作为算法工作者，到底什么是ChatGPT的原理？我们如何在大模型时代能为公司具体业务进行赋能？如何将自己AIGC的模型具体落地？

课程时间： 北京时间 10月12日、13日（周四、周五）晚8：30 – 10：30

课程地址： 腾讯会议

课程费用： 免费

课程面向者： 为了能确保与会者能充分获得有效知识，请您核对自己是否具备以下能力：

1. 掌握Python等基础编程能力

2. 掌握Neural Network等基础能力

3. 掌握PyTorch / Tensorflow等常 见框架

此次课程合计两天：

第一天：手推数学实现Transformer， GPT的数学原理

(第一天：手推实现GPT数学原理）

第二天：用PyTorch逐行实现Transformer， GPT模型并且进行训练

(第二天：用PyTorch自己动手实现GPT）

课程主讲者：

高老师，前IBM人工智能与认知服务数据科学家，目前于洛杉矶从事AI研究，人工智能顶刊JMLR多智能体项目作者。自2012年起进行对话机器人的研究工作。2017年开始使用预训练模型进行自动摘要，交易信息挖掘，自动机器人等项目。曾经作为技术负责人参与落地多个大中华区AI项目。

本次课程提纲：

一、从最简单的线性代数中的“线性变换” (linear transformer)开始讲起

a. 什么是单词表征（word representation），有什么作用？

b. 线性变化与单词表征有什么关系？有什么优势？

c. 如何增强单词表征的能力？

二、用代码逐行实现Transformer, 再实现GPT模型

a. 如何通过神经网络提升线性变化的能力？

b. 基于神经网络的Transformer是什么原理？

c. Transformer的结构是什么样的？如何实现？Query, Key, Value, Position到底是什么原理？

d. Transformer的各个功能组建有什么功能？

e. 什么是预训练模型？什么是模型的微调（Fine-Tuning）

三、最终我们将在线为大家带来GPT模型的训练结果

a. GPT模型，BERT模型和Transformer模型之间是什么关系？

手搓一个GPT模型，惊了！

正文

请到「今天看啥」查看全文