专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  DeepSeek开源周压轴神器:3FS文件系 ... ·  昨天  
软件定义世界(SDX)  ·  AI视觉赋能工业质检应用实践 ·  3 天前  
CDA数据分析师  ·  【资料】腾讯&字节等大厂110道数据分析面试 ... ·  6 天前  
CDA数据分析师  ·  【干货】5分钟讲透数据分析之【对比分析】 ·  1 周前  
玉树芝兰  ·  新学期,给你自己配一个好用的 AI ... ·  2 天前  
51好读  ›  专栏  ›  数据派THU

【博士论文】特征学习中的训练与适应理解:从两层网络到基础模型

数据派THU  · 公众号  · 大数据  · 2025-03-03 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

本论文探讨了特征学习在神经网络训练中的出现,并展示了其在基础模型适应下游应用中的关键作用。


图片

https://pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf
深度神经网络在人工智能各个领域取得了显著的成功。其成功的关键因素之一是它们从数据中学习有效特征表示的能力,这使得它们与传统的机器学习方法有所不同。本论文探讨了特征学习在神经网络训练中的出现,并展示了其在基础模型适应下游应用中的关键作用。
首先,我们提供了关于神经网络中特征学习出现的理论见解。我们展示了网络在早期训练阶段可以使用最小的参数有效地学习与类别相关的模式,从而避免了传统方法中常见的维度灾难。我们的分析揭示了这一能力来源于网络能够利用输入数据的固有结构。我们为通过梯度下降训练的两层网络开发了一个统一的分析框架,刻画了特征学习如何超越核方法进行发生。我们将研究扩展到Transformer架构,分析了单层Transformer中的傅里叶特征,并揭示了模型规模与上下文学习行为之间的关系。我们的研究发现,较大的模型覆盖了更多的隐藏特征,而较小的模型则强调重要特征,导致了不同的上下文学习行为。
基于这些理论见解,我们为基础模型开发了实际应用。我们引入了核范数正则化以提高领域泛化能力,展示了在各种任务中一致的性能提升。我们通过一种新型正则化方法解决了对比学习中普适性和标签效率之间的权衡问题。此外,我们提出了回环Transformer,用于实现多步梯度下降的上下文学习,并开发了GemFilter算法,利用早期层的注意力特征来加速大型语言模型推理。
本论文推动了我们对神经网络中特征学习的理解,并提供了改善基础模型性能的实际方法,从而开发出更高效、更有效的机器学习系统。**

图片



关于我们







请到「今天看啥」查看全文