这门课的两位讲师是《Hands-On Large Language Models》的作者,这也是一本不错的书。代码集合在这里:
网页链接
,PDF电子版网上搜一下也是有的。
这门课不错!
DeepLearning.AI Andrew NG(吴恩达)推出了全新课程《Transformer 大语言模型的工作原理》,由《Hands-On Large Language Models》一书的作者 Jay Alammar 和 Maarten Grootendorst 联合开发。
该课程深入探讨了 Transformer 架构的主要组成部分,该架构是大语言模型(LLM)的核心。 Transformer 架构自 2017 年由 Vaswani 等人在论文《Attention Is All You Need》中提出以来,彻底改变了生成式 AI 的发展。 如今,OpenAI、Google、Meta、Cohere 和 Anthropic 等公司的 LLM 都基于该架构的变体。
在本课程中,你将学习 Transformer 网络架构的工作原理,建立 LLM 如何处理文本的直观理解,并通过代码示例来演示 Transformer 架构的关键组件。
1. 语言数值表示的演变:从词袋模型(Bag-of-Words)到 Word2Vec 嵌入,再到能够在上下文中捕捉词义的 Transformer 架构。
2. LLM 如何将输入分解为表示单词或片段的标记(tokens),然后将其发送到语言模型。
3. Transformer 的详细结构,包括三个主要阶段:标记化和嵌入、Transformer 块堆栈以及语言模型头。
4. Transformer 块的细节,包括计算相关性得分的注意力机制,以及结合训练中学习到的存储信息的前馈层。
5. 缓存计算如何加速 Transformer,以及自原始论文发布以来 Transformer 块如何演变并继续被广泛使用。
6. 在 Hugging Face Transformers 库中探索最新模型的实现。
完成本课程后,米将深入理解 LLM 如何处理语言,并能够阅读描述这些架构的模型论文,理解其中的细节。这种直觉将有助于改进您在构建 LLM 应用程序时的方法。
该课程适合任何对理解当今 LLM 所采用的 Transformer 架构内部工作原理感兴趣的人士。
课程为初级水平,时长约 1 小时 25 分钟,包括 12 个视频课程和 3 个代码示例。
DeepLearning.AI Andrew NG(吴恩达)推出了全新课程《Transformer 大语言模型的工作原理》,由《Hands-On Large Language Models》一书的作者 Jay Alammar 和 Maarten Grootendorst 联合开发。
该课程深入探讨了 Transformer 架构的主要组成部分,该架构是大语言模型(LLM)的核心。 Transformer 架构自 2017 年由 Vaswani 等人在论文《Attention Is All You Need》中提出以来,彻底改变了生成式 AI 的发展。 如今,OpenAI、Google、Meta、Cohere 和 Anthropic 等公司的 LLM 都基于该架构的变体。
在本课程中,你将学习 Transformer 网络架构的工作原理,建立 LLM 如何处理文本的直观理解,并通过代码示例来演示 Transformer 架构的关键组件。
1. 语言数值表示的演变:从词袋模型(Bag-of-Words)到 Word2Vec 嵌入,再到能够在上下文中捕捉词义的 Transformer 架构。
2. LLM 如何将输入分解为表示单词或片段的标记(tokens),然后将其发送到语言模型。
3. Transformer 的详细结构,包括三个主要阶段:标记化和嵌入、Transformer 块堆栈以及语言模型头。
4. Transformer 块的细节,包括计算相关性得分的注意力机制,以及结合训练中学习到的存储信息的前馈层。
5. 缓存计算如何加速 Transformer,以及自原始论文发布以来 Transformer 块如何演变并继续被广泛使用。
6. 在 Hugging Face Transformers 库中探索最新模型的实现。
完成本课程后,米将深入理解 LLM 如何处理语言,并能够阅读描述这些架构的模型论文,理解其中的细节。这种直觉将有助于改进您在构建 LLM 应用程序时的方法。
该课程适合任何对理解当今 LLM 所采用的 Transformer 架构内部工作原理感兴趣的人士。
课程为初级水平,时长约 1 小时 25 分钟,包括 12 个视频课程和 3 个代码示例。