【博士论文】特征学习中的训练与适应理解：从两层网络到基础模型

数据派THU · 公众号 · 大数据 · 2025-03-03 17:00

正文

来源：专知
本文约1000字，建议阅读5分钟
本论文探讨了特征学习在神经网络训练中的出现，并展示了其在基础模型适应下游应用中的关键作用。

https://pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf

深度神经网络在人工智能各个领域取得了显著的成功。其成功的关键因素之一是它们从数据中学习有效特征表示的能力，这使得它们与传统的机器学习方法有所不同。本论文探讨了特征学习在神经网络训练中的出现，并展示了其在基础模型适应下游应用中的关键作用。

首先，我们提供了关于神经网络中特征学习出现的理论见解。我们展示了网络在早期训练阶段可以使用最小的参数有效地学习与类别相关的模式，从而避免了传统方法中常见的维度灾难。我们的分析揭示了这一能力来源于网络能够利用输入数据的固有结构。我们为通过梯度下降训练的两层网络开发了一个统一的分析框架，刻画了特征学习如何超越核方法进行发生。我们将研究扩展到Transformer架构，分析了单层Transformer中的傅里叶特征，并揭示了模型规模与上下文学习行为之间的关系。我们的研究发现，较大的模型覆盖了更多的隐藏特征，而较小的模型则强调重要特征，导致了不同的上下文学习行为。

基于这些理论见解，我们为基础模型开发了实际应用。我们引入了核范数正则化以提高领域泛化能力，展示了在各种任务中一致的性能提升。我们通过一种新型正则化方法解决了对比学习中普适性和标签效率之间的权衡问题。此外，我们提出了回环Transformer，用于实现多步梯度下降的上下文学习，并开发了GemFilter算法，利用早期层的注意力特征来加速大型语言模型推理。

本论文推动了我们对神经网络中特征学习的理解，并提供了改善基础模型性能的实际方法，从而开发出更高效、更有效的机器学习系统。**