专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  Gemini ... ·  3 天前  
软件定义世界(SDX)  ·  厦门大学:大模型概念、技术与应用实践(140 ... ·  昨天  
数据派THU  ·  大模型的智能从哪里来? ·  4 天前  
数据派THU  ·  【CVPR2025】CarPlanner: ... ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

重磅论文!何恺明、Yann LeCun等改造Transformer,CVPR 2025已收录

大数据文摘  · 公众号  · 大数据  · 2025-03-15 18:00

正文

大数据文摘受权转载自头部科技
文丨丁灵波

对于如今的AI大模型而言,Transformer具有极其重要的影响。

作为一种基于注意力机制的深度学习架构,Transformer最初是由Ashish Vaswani等计算机科学家于2017年在NeurIPS(神经信息处理系统大会)上提出,逐渐成为NLP领域许多最先进模型的基础。


它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),在自然语言处理任务中取得了显著的效果,使得大规模预训练语言模型成为可能,间接推动了GPT等AI大模型的问世。

不过从今天开始,Transformer可能要迎来新变化。

“残差神经网络发明人”、麻省理工学院副教授何恺明与图灵奖得主、“卷积网络之父”Yann LeCun的最新合作论文提出“无需归一化的Transformer”,目前已入选CVPR 2025,该发现有望进一步改进AI模型性能,给开发者们带来新思路。

重新定义“归一化”


什么是无需归一化的Transformer?

简单来说,归一化层在现代神经网络中无处不在,长期以来一直被认为是必不可少的。

归一化层的主要作用是使网络的输入数据分布更加稳定,减少内部协变量偏移(Internal Covariate Shift),从而使得网络更容易训练,提高模型的泛化能力。不同的归一化层适用于不同的网络结构和任务场景,选择合适的归一化层对于构建高效的神经网络至关重要。


而这篇最新论文研究表明,通过一种极其简单的技术,无需归一化的Transformer模型能够达到相同甚至更好的性能,是不是有点不可思议?

研究人员引入了动态双曲正切函数(DyT),可以直接替代Transformer模型中的归一化层。

DyT的灵感来源于这样一个观察结果:Transformer模型中的层归一化常常会产生类似双曲正切函数的S形输入输出映射。通过整合DyT,无需归一化的Transformer模型能够达到甚至超过带有归一化层的Transformer模型的性能,而且在大多数情况下无需进行超参数调整。

论文作者在各种不同的场景中验证了带有 DyT 的 Transformer模型的有效性,涵盖了从识别到生成任务、从监督学习到自监督学习,以及从计算机视觉到语言模型等多个领域,这些发现挑战了传统观念中归一化层在现代神经网络中不可或缺的认知,并为深入理解归一化层在深度网络中的作用提供了新的视角。

Meta FAIR实验室研究科学家刘壮作为论文负责人,在社交平台分享了几点论文摘要。

1、发现了一个非常简单的标准化层替代方案:缩放的tanh函数,团队称之为动态Tanh,或DyT。

2、这实际上是由一个非常简单的观察驱动的:LayerNorm使用类似于tanh的S形曲线将其输入转换为输出,它压缩极端值,同时保持中心的线性形状。

3、用动态Tanh(DyT)层替换规范层。

4、将层归一化(LayerNorm)/旋转尺度归一化(RSMNorm)替换为动态双曲正切函数(DyT),并在以下的Transformer模型上进行测试:

涵盖了视觉领域的监督学习(ViT和ConvNeXt)、视觉领域的自监督学习(MAE和DINO)、扩散模型(DiT)、大型语言模型(LLaMA)、语音领域的自监督学习(wav2vec 2.0)和DNA序列建模(HyenaDNA和Caduceus),在每种情况下,采用DyT的Transformers都实现了与标准化Transformers相似或更好的性能。

5、在英伟达H100 GPU上,动态双曲正切函数(DyT)的运算速度比均方根归一化(RMSNorm,在前沿的大语言模型中较为常用)要快。

DyT旨在取代Transformers中的规范化层,使用DyT的模型可实现与经过规范化的模型相似或更好的性能。

论文负责人刘壮表示,鉴于模型训练和推理可能需要数千万的计算资源,DyT有可能进一步帮助行业降低成本,很期待看到它接下来会找到什么应用。

目前,该团队在GitHub上开源提供了完整代码库,开发人员可以进行测试一番:https://github.com/jiachenzhu/DyT

多次联手的学术小队







请到「今天看啥」查看全文