专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心 · 公众号 · AI · 2025-03-14 15:30

主要观点总结

本文报道了关于去掉Transformer中的归一化层的研究，提出了一种名为Dynamic Tanh（DyT）的元素级运算来模拟归一化层的行为。该研究通过实证研究分析了归一化层的作用，并发现DyT可以在各种设置中稳定训练并获得较高的最终性能。此外，文章还介绍了DyT在不同任务领域中的实验表现，包括视觉监督学习、视觉自监督学习、扩散模型、LLM等。同时，文章还讨论了DyT的参数初始化及在不同模型架构中的表现。

关键观点总结

关键观点1: 研究背景

本文挑战了“归一化层对训练现代神经网络必不可少”这一观念，并提出了一种新的方法DyT来模拟归一化层的作用。

关键观点2: 归一化层的作用

通过实证研究，发现归一化层在优化方面具有实证优势，有助于加速和稳定收敛。此外，它还对输入张量进行非线性变换，类似于经过缩放的tanh函数。

关键观点3: Dynamic Tanh（DyT）的介绍

基于归一化层和扩展版tanh函数的相似性，研究团队提出了Dynamic Tanh（DyT），作为归一化层的直接替代。DyT旨在通过α学习适当的缩放因子并通过有界tanh函数压缩极值来模拟LN的行为。

关键观点4: DyT的实验表现

DyT在不同任务领域中的实验表现优秀，包括视觉监督学习、视觉自监督学习、扩散模型、LLM等。在ImageNet-1K分类任务上，DyT在Base和Large两种规模的Vision Transformer（ViT）和ConvNeXt模型上的表现优于LN。此外，在语音自监督学习和DNA序列建模任务中，DyT也展现了良好的性能。

关键观点5: α的初始化及模型宽度和深度的影响

研究发现，α的初始化对模型的性能有重要影响。较大的模型需要较小的α_0值。同时，模型宽度对确定最优α_0至关重要，而模型深度的影响则微乎其微。

正文

机器之心报道

机器之心编辑部

何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。

这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR 2025 会议接收。

Meta FAIR 研究科学家刘壮的推文

过去十年，归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化（batch normalization）的发明，它使视觉识别模型的收敛速度变得更快、更好，并在随后几年中获得迅速发展。从那时起，研究人员针对不同的网络架构或领域提出了许多归一化层的变体。

如今，几乎所有现代网络都在使用归一化层，其中层归一化（Layer Norm，LN）是最受欢迎之一，特别是在占主导地位的 Transformer 架构中。

归一化层的广泛应用很大程度上得益于它们在优化方面的实证优势。除了实现更好的结果之外，归一化层还有助于加速和稳定收敛。随着神经网络变得越来越宽、越来越深，归一化层的必要性变得越来越重要。因此，研究人员普遍认为归一化层对于有效训练深度网络至关重要，甚至是必不可少的。这一观点事实上得到了微妙证明： 近年来，新架构经常寻求取代注意力层或卷积层，但几乎总是保留归一化层。

本文中，研究者提出了 Transformer 中归一化层的一种简单平替。他们的探索始于以下观察：LN 层使用类 tanh 的 S 形曲线将其输入映射到输出，同时缩放输入激活并压缩极值。

受此启发， 研究者提出了一种元素级运算，称为 Dynamic Tanh（DyT），定义为：DyT (x) = tanh (αx) ，其中 α 是一个可学习参数。此运算旨在通过 α 学习适当的缩放因子并通过有界 tanh 函数压缩极值来模拟 LN 的行为。值得注意的是，与归一化层不同，DyT 可以实现这两种效果，而无需计算激活数据。

论文一作 Jiachen Zhu 为纽约大学四年级博士生、二作陈鑫磊（Xinlei Chen）为 FAIR 研究科学家，项目负责人为刘壮。

论文标题：Transformers without Normalization
论文地址：https://arxiv.org/pdf/2503.10622
项目主页：https://jiachenzhu.github.io/DyT/
GitHub 地址：https://github.com/jiachenzhu/DyT

DyT 使用起来非常简单，如下图 1 所示，研究者直接用 DyT 替换视觉和语言 Transformer 等架构中的现有归一化层。实证结果表明，使用 DyT 的模型可以在各种设置中稳定训练并获得较高的最终性能。同时，DyT 通常不需要在原始架构上调整训练超参数。

DyT 模块可以通过短短几行 PyTorch 代码来实现。

该工作挑战了「归一化层对训练现代神经网络必不可少」这一观念，并提供了有关归一化层属性的实证见解。此外，初步结果表明，DyT 可以提升训练和推理速度，从而成为以效率为导向的网络设计的候选方案。

刘壮发推称，对他而言，归一化层一直是深度学习中比较神秘的内容。这项工作让他对归一化层的作用有了更深的理解。另外，考虑到模型训练和推理需要数千万的算力需求，DyT 有潜力助力成本降低。他很期待接下来 DyT 的应用。

归一化层有什么作用？

要去掉 Transformer 中的归一化层，首先要做的当然是了解归一化层有什么用。

该团队通过实证研究对此进行了分析。为此，他们使用了三个不同的经过训练的 Transformer 模型：一个 Vision Transformer（ViT-B）、一个 wav2vec 2.0 Large Transformer 和一个 Diffusion Transformer（DiT-XL）。

他们使用这三个模型采样了一小批样本，并让其前向通过整个网络。然后，他们监测了其中归一化层的输入和输出，即归一化操作前后的张量。

由于 LN 会保留输入张量的维度，因此可以在输入和输出张量元素之间建立一一对应关系，从而可以直接可视化它们的关系。这个映射关系见图 2。

具有层归一化的类 tanh 映射。对于这三个模型，该团队发现，它们的早期 LN 层（图 2 第 1 列）的输入 - 输出关系基本上是线性的。但是，更深的 LN 层却有更有趣的表现。

可以观察到，这些曲线的形状大多与 tanh 函数表示的完整或部分 S 形曲线非常相似（见图 3）。

人们可能预期 LN 层会对输入张量进行线性变换，因为减去平均值和除以标准差都是线性运算。LN 以每个 token 的方式进行归一化，仅对每个 token 的激活进行线性变换。

由于 token 具有不同的平均值和标准差，因此这种线性并不对输入张量的所有激活都成立。尽管如此，该团队表示依然很惊讶：实际的非线性变换竟然与某个经过缩放的 tanh 函数高度相似！

对于这样一个 S 型曲线，可以看到其中心部分（x 值接近零的部分）仍然主要呈线性形状。大多数点（约 99%）都属于这个线性范围。但是，仍有许多点明显超出此范围，这些点被认为具有「极端」值，例如 ViT 模型中 x 大于 50 或小于 -50 的点。

归一化层对这些值的主要作用是将它们压缩为不太极端的值，从而与大多数点更加一致。这是归一化层无法通过简单的仿射变换层近似的地方。

该团队假设， 这种对极端值的非线性和不成比例的压缩效应正是归一化层的关键之处 。

前段时间的一篇论文《On the Nonlinearity of Layer Normalization》同样重点指出了 LN 层引入的强非线性，并且表明这种非线性可以增强模型的表征能力。

此外，这种压缩行为还反映了生物神经元对大输入的饱和（saturation）特性，这种现象大约一个世纪前就已经被观察到。

token 和通道的归一化。LN 层如何对每个 token 执行线性变换，同时以这种非线性方式压缩极端值呢？

为了理解这一点，该团队分别按 token 和通道对这些点进行可视化。图 4 给出了 ViT 的第二和第三个子图的情况，但为了更清晰，图中使用了采样的点子集。

在图 4 左边两个小图中，使用了同一颜色标记每个 token 的激活。可以观察到，任何单个 token 的所有点确实都会形成一条直线。但是，由于每个 token 都有不同的方差，因此斜率也不同。输入 x 范围较小的 token 往往具有较小的方差，并且归一化层将使用较小的标准偏差来除它们的激活，从而让直线有较大的斜率。

总的来说，它们形成了一条类似于 tanh 函数的 S 形曲线。在右侧的两个小图中，同样使用相同的颜色标记各个通道的激活。可以看到，不同通道的输入范围往往存在巨大差异，只有少数通道（例如红色、绿色和粉色）会表现出较大的极端值 —— 而这些通道正是被归一化层压缩得最厉害的。

Dynamic Tanh（DyT）

既知根本，正当创新。基于归一化层和扩展版 tanh 函数的相似性，该团队提出了 Dynamic Tanh（DyT），并且这可以作为归一化层的直接替代。

给定一个输入张量 x，DyT 层的定义如下：