何恺明LeCun联手改造Transformer！9行代码替代归一化层，性能不减还加速

量子位 · 公众号 · AI · 2025-03-14 15:22

主要观点总结

文章介绍了何恺明LeCun团队提出的DyT（Dynamic Tanh）技术，该技术能够替代神经网络中的归一化层，如Layer Norm或RMSNorm，达到或超过标准Transformer的性能。文章还介绍了该技术的实验验证、适用性和优势。此外，文章还介绍了团队成员的背景和论文的相关信息。

关键观点总结

关键观点1: DyT技术概述

DyT是一种替代神经网络中的归一化层的技术，通过简单的元素级运算实现，可应用于各种模态的神经网络。

关键观点2: 实验验证

团队对DyT进行了广泛的实验验证，在视觉、语言、语音和DNA序列模型等多个任务和模型架构中，DyT表现良好，达到或超过归一化层的性能。

关键观点3: 团队背景和论文信息

团队成员包括何恺明、LeCun、Jiachen Zhu、刘壮和陈鑫磊等。论文已入选CVPR2025，相关代码和实验数据已开源。论文地址、GitHub地址和项目主页也一并提供。

正文

梦晨克雷西发自凹非寺
量子位 | 公众号 QbitAI

何恺明LeCun联手： Transformer不要归一化了 ，论文已入选CVPR2025。

归一化长期以来一直被认为是必不可少的，在现代神经网络中无处不在。

但团队认为可以换用一种非常简单的技术，他们提出 DyT （ Dynamic Tanh) ，直接替代Layer Norm或RMSNorm，性能达到或超过标准Transformer。

DyT模块可以用几行PyTorch代码实现：

class DyT(nn.Module):    def __init__(self, num_features, alpha_init_value=0.5):        super().__init__()        self.alpha = nn.Parameter(torch.ones(1) * alpha_init_value)        self.weight = nn.Parameter(torch.ones(num_features))        self.bias = nn.Parameter(torch.zeros(num_features))
    def forward(self, x):        x = torch.tanh(self.alpha * x)        return x * self.weight + self.bias

从视觉的ViT/MAE，到语言模型的LLaMA，再到语音、DNA系列等模态都可以用，完整代码库已开源。