专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据与机器学习文摘  ·  26岁OpenAI举报人疑自杀!死前揭Cha ... ·  4 天前  
大数据分析和人工智能  ·  离谱!裁员裁出新高度了。。。 ·  6 天前  
CDA数据分析师  ·  【话题】知乎热帖:一个人为何会陷入社会底层? ·  6 天前  
开放知识图谱  ·  论文浅尝 | ... ·  6 天前  
开放知识图谱  ·  论文浅尝 | ... ·  6 天前  
数据派THU  ·  【WSDM2025】通过多教师知识蒸馏将推理 ... ·  1 周前  
51好读  ›  专栏  ›  数据派THU

【CMU博士论文】适应结构与利用结构进行适应:探索现代深度学习成功的原因

数据派THU  · 公众号  · 大数据  · 2024-12-19 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

本论文研究了深度学习的显著成功。


本论文研究了深度学习的显著成功。它提出了一种观点:与其开发黑箱式的泛化界限,更有成效的理解现代深度学习成功的方法,是通过神经网络在特定领域中灵活性与结构之间的精巧互动。在这些领域中,我们可以通过以下两个方面来理解现代深度学习:(1) 适应数据中的结构,(2) 利用其结构(如架构、预训练初始化等)进行适应。我们通过理论和实证相结合的方式建立这一观点。
我们首先审视传统的学习理论工具:泛化界限。具体而言,我们研究了算法稳定性作为解释梯度下降在过参数化神经网络中表现的可能框架。我们提供了实证证据,表明均匀稳定性并未以足够强度出现,因此无法解释神经网络的泛化表现。
接着,与其关注如何驯服深度学习的灵活性,我们将深度学习的灵活性重新定义为在结构足够时能够进行有效适应的强大能力。论文的剩余部分,我们仔细研究了三个关键场景——在图像数据上的卷积神经网络、在基本算法任务上的简单 Transformer,以及在自然语言数据上的预训练语言模型——这些场景展示了神经网络在数据中适应结构和利用其结构快速灵活地进行适应的卓越能力。通过这三种场景,回溯了过去六年训练方法和范式的演变。
与我们最初所讨论的黑箱式泛化方法所呈现的悲观图景不同,我们通过这些场景提倡一种更加机械化且细致入微的理解方式,探讨神经网络在特定领域中灵活性与结构之间的互动关系。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU