专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

Transformer：内部工作原理及拆解

新机器视觉 · 公众号 · · 2025-01-16 15:48

正文

Attention is all you need！

Transformer 是一种特定的神经网络架构，彻底改变了人工智能领域，尤其是在自然语言处理 (NLP) 中。它是大型语言模型（如 ChatGPT）的核心技术。

LLMs 是基于大量文本数据训练的 AI 系统，能够生成类似人类的文本、翻译语言、撰写不同类型的创意内容，以及回答问题。Transformer 架构使这些模型能够以全新的方式处理和理解语言，从而实现过去无法达到的效果。

Transformer 的架构

输入分词 (Input Tokenization)：

文本输入被分解为称为“token”的小单元，然后将其与表示意义的数值向量相关联。

嵌入矩阵 (Embedding Matrix)：

该矩阵将每个 token 映射为其在高维空间中的初始向量表示。语义相近的词通常在该空间中聚集在一起。模型在训练过程中通过调整权重来决定词语如何被嵌入为向量，最终会形成一个嵌入集，其中空间中的方向具有某种语义意义。

注意力模块 (Attention Blocks)：

这些模块使向量能够相互作用，并根据周围词语的上下文更新其语义。

注意力模块负责确定上下文中哪些词语与其他词语的语义更新相关，以及具体如何更新这些语义。

多层感知机模块 (MLP Blocks)：

这些模块对向量进行进一步处理，优化其表示。

输出生成 (Output Generation)：

序列中的最终向量用于预测下一个 token 的概率分布。

重复预测与采样 (Repetitive Prediction and Sampling)：

大型语言模型通过反复预测下一个词、从分布中采样并将其附加到现有文本中来生成文本。

词嵌入与上下文意义

几何表示 (Geometric Representation)：

词嵌入被可视化为高维空间中的点，其位置编码了语义关系。

上下文适配 (Contextual Adaptation)：

向量在经过 Transformer 的过程中，其初始语义会根据周围上下文被进一步优化。想想你对某个词的理解。这个词的意义显然是由周围的上下文决定的，有时这种上下文可能来自很远的距离。

点积相似性 (Dot Product for Similarity)：

向量之间的点积用于测量它们的对齐程度，以表明语义相似性。

训练与参数

权重矩阵 (Weight Matrices)：

Transformer 使用大量的权重矩阵，这些矩阵的值在训练过程中被调整以优化性能。

GPT-3 的规模 (GPT-3 Scale)：

GPT-3 具有 1750 亿个参数，这些参数被组织为成千上万个矩阵，展示了模型的复杂性。

反向传播算法 (Backpropagation Algorithm)：

这种算法被用来训练包括 Transformer 在内的深度学习模型。

Softmax 和温度参数

概率分布 (Probability Distribution)：

Softmax 函数将输出值归一化为概率分布，确保这些值介于 0 和 1 之间且总和为 1。

温度控制 (Temperature Control)：

温度参数可用于调整分布，使其更均匀或更集中特定值，从而影响输出的创造性。

上下文长度与限制

上下文限制 (Limited Context)：

Transformer 的上下文长度是固定的，这限制了它在预测中可以考虑的文本量。

语义丢失 (Loss of Thread)：

在长对话中，由于这一限制，一些聊天机器人可能会丢失上下文。

Transformer 处理文本的过程包括以下步骤：

1. 文本分词并将每个 token 转换为嵌入向量；

2. 向量经过一系列注意力模块和 MLP 模块流动：

注意力模块允许向量根据上下文相互作用并更新其语义，MLP 模块进一步优化向量的语义表示；

3. 最终的向量用于预测序列中的下一个 token。

通过大规模的文本和代码数据集进行训练，模型学习调整其嵌入矩阵、注意力模块和 MLP 模块中的参数，以准确预测序列中的下一个 token。

训练过程依赖反向传播算法（Backpropagation），该算法通过计算模型误差并调整参数以最小化误差。

一些常见问题

1. 注意力机制在 Transformer 模型中有何意义？

注意力机制是 Transformer 架构的一项关键创新。它使模型能够专注于输入文本中最相关的部分，从而更好地理解其含义。例如，在句子“The cat sat on the mat”中，注意力机制可以帮助模型理解“sat”与“cat”和“mat”密切相关。

这一过程使模型能够捕捉词语之间的长距离依赖关系，更好地理解句子的上下文，从而克服了之前语言模型的主要局限性。

2. “嵌入”在语言模型中是如何工作的？

词嵌入是一种将词语表示为数字向量的技术。这些向量从大规模数据集中学习，能够捕捉词语的语义含义。语义相似的词具有相似的向量，这使得模型能够理解词语之间的关系。

对于 Transformer 来说，嵌入过程至关重要。通过将词语转换为向量，模型可以进行数学运算并学习模式，而这些操作在原始文本上是难以实现的。

3. 嵌入矩阵和反嵌入矩阵的作用是什么？

嵌入矩阵 (Embedding Matrix)：

在处理开始时，将每个 token 转换为对应的向量表示。嵌入矩阵是一个大型矩阵，其中每一列表示模型词汇表中某个 token 的嵌入。

Transformer：内部工作原理及拆解

正文

请到「今天看啥」查看全文