这门课的两位讲师是《Hands-On Large Languag-20250206222256_黄建同学的专栏文章_微信文章

这门课的两位讲师是《Hands-On Large Language Models》的作者，这也是一本不错的书。代码集合在这里：

这门课不错！
DeepLearning.AI Andrew NG（吴恩达）推出了全新课程《Transformer 大语言模型的工作原理》，由《Hands-On Large Language Models》一书的作者 Jay Alammar 和 Maarten Grootendorst 联合开发。

该课程深入探讨了 Transformer 架构的主要组成部分，该架构是大语言模型（LLM）的核心。 Transformer 架构自 2017 年由 Vaswani 等人在论文《Attention Is All You Need》中提出以来，彻底改变了生成式 AI 的发展。如今，OpenAI、Google、Meta、Cohere 和 Anthropic 等公司的 LLM 都基于该架构的变体。

在本课程中，你将学习 Transformer 网络架构的工作原理，建立 LLM 如何处理文本的直观理解，并通过代码示例来演示 Transformer 架构的关键组件。

1. 语言数值表示的演变：从词袋模型（Bag-of-Words）到 Word2Vec 嵌入，再到能够在上下文中捕捉词义的 Transformer 架构。

2. LLM 如何将输入分解为表示单词或片段的标记（tokens），然后将其发送到语言模型。

3. Transformer 的详细结构，包括三个主要阶段：标记化和嵌入、Transformer 块堆栈以及语言模型头。

4. Transformer 块的细节，包括计算相关性得分的注意力机制，以及结合训练中学习到的存储信息的前馈层。

5. 缓存计算如何加速 Transformer，以及自原始论文发布以来 Transformer 块如何演变并继续被广泛使用。

6. 在 Hugging Face Transformers 库中探索最新模型的实现。

完成本课程后，米将深入理解 LLM 如何处理语言，并能够阅读描述这些架构的模型论文，理解其中的细节。这种直觉将有助于改进您在构建 LLM 应用程序时的方法。

该课程适合任何对理解当今 LLM 所采用的 Transformer 架构内部工作原理感兴趣的人士。

课程为初级水平，时长约 1 小时 25 分钟，包括 12 个视频课程和 3 个代码示例。

这门课的两位讲师是《Hands-On Large Languag-20250206222256

正文

2025-02-06 22:22
本条微博链接

请到「今天看啥」查看全文