讲透一个AI核心算法模型，Transformer ！！

深度之眼 · 公众号 · · 2024-11-28 20:42

正文

大家好，今天从头讲一个人工智能非常核心的架构——Transformer！

Transformer模型由 编码器（Encoder） 和 解码器（Decoder） 两部分组成。

其中，编码器和解码器各由 N 个相同的层叠加而成的。

编码器有两个子层。分别是 多头自注意力（multi-head self-attention） 和 基于位置的前馈网络（positionwise feed-forward network） 。

解码器有三个子层。除了多头自注意力和前馈网络外，解码器还在这两个子层之间插入了第三个子层，称为 编码器－解码器注意力（encoder-decoder attention） 层。

这里也分享我整理的 226篇Transformer顶会论文合集 ，包括训练transformer、卷积transformer、VIT等多个细分领域。 扫码即可无偿领取！

Transformer架构中的核心概念包括：

自注意力机制（Self-Attention）： Transformer模型的核心组成部分，允许模型在处理一个单词时同时考虑句子中的其他单词，从而捕获它们之间的上下文关系。相比传统的RNN和LSTM模型，Transformer使用自注意力机制在处理长序列和大规模数据时具有更高的并行性和计算效率。

多头注意力机制（Multi-Head Attention）： 模型对每个单词的注意力分为多个“头”，这样可以让模型在多个子空间中学习信息，增强了模型对不同位置的敏感性，能够捕获不同类型的上下文信息。

位置编码（Positional Encoding）： 由于Transformer不使用递归或卷积，位置编码是添加到输入单词的一种编码，提供了单词在序列中的位置信息。

残差连接与层归一化（Residual Connections & Layer Normalization）： 每个子层的输出都采用了残差连接和层归一化，提高了模型的训练稳定性和性能。

想要226篇Transformer顶会论文合集，欢迎扫码下载！