专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[80星]OSEA ... ·  昨天  
宝玉xp  ·  GitHub Copilot 现在也支持 ... ·  昨天  
爱可可-爱生活  ·  【Stanford CS236 Deep ... ·  2 天前  
黄建同学  ·  不得了了……Replit ... ·  3 天前  
宝玉xp  ·  Lex Fridman ... ·  3 天前  
51好读  ›  专栏  ›  新智元

神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同

新智元  · 公众号  · AI  · 2024-07-16 13:16

正文



新智元报道

编辑:乔杨
【新智元导读】 度神经网络有多种规模和架构,大家普遍认为这会影响到模型学习到的抽象表示。 然而,UCL两位学者发表在 ICML 2024上第一篇论文指出,如果模型的架构足够灵活,某些网络行为在不同架构间是广泛存在的。

自从AI跨入大模型时代以来,Scaling Law几乎成为了一个共识。

论文地址:https://arxiv.org/abs/2001.08361

OpenAI的研究人员在2020年的这篇论文中提出,模型的性能与三方面的指标呈幂律关系:参数量N、数据集规模D以及训练算力C。
除了这三方面外,在合理范围内,超参数的选择和模型的宽度、深度等因素对性能的影响很小。
而且,这种幂律关系的存在没有对模型架构做出任何规定。换言之,我们可以认为Scaling Law几乎适用于任何模型架构。
此外2021年发表的一篇神经科学领域的论文似乎也从另一个角度触碰到了这个现象。

论文地址:https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full
他们发现,为视觉任务设计的AlexNet、VGG、ResNet等网络,即使有较大的结构差异,但在同一数据集上进行训练后,似乎能学习到非常相似的语义,比如对象类别的层次关系。
但这背后的原因究竟是什么?如果超越表层经验,在本质层面上,各种网络架构究竟在多大程度上相似?
UCL的两位研究者在今年发表了一篇论文,从神经网络学习到的抽象表示方面切入,试图回答这个问题。

论文地址:https://arxiv.org/abs/2402.09142
他们推导出了一种理论,能够有效地概括复杂、大型模型架构中的表征学习动态,发现了其中「丰富」且「惰性」的特征。在模型足够灵活时,某些网络行为就能在不同架构中广泛存在。
这篇论文已经被ICML 2024会议接收。

建模过程

通用近似定理(universal approximation theorem)指出,给定足够参数,非线性神经网络可以学习并逼近任意平滑函数。
受到这个定理的启发,论文首先假定:从输入到隐藏表示的编码映射,以及从隐藏表示到输出的解码映射,都是任意平滑函数。
因此,在忽略网络架构的细节时,可以用以下方法对函数动态进行建模:
训练神经网络的过程可以被视为平滑函数 在特定数据集 𝒟 上的优化,不断改变网络参数 𝜃 以最小化MSE损失函数:
其中 ⟨⋅⟩𝒟 符号表示在整个数据集𝒟上的平均。
由于我们对研究表征空间的动态过程感兴趣,因此函数 𝑓 𝜃 可以被拆分为两个平滑映射的组合:编码映射 𝜃 :𝑋→𝐻 ,以及解码映射 𝑦 𝜃 :𝐻→𝑌 ,此时方程(1)中的损失函数可以写作:
接下来,使用梯度下降规则更新参数 𝜃 的过程可以写作:
其中, 𝜏 是学习率 𝜂 的倒数。
方程(4)虽然足够准确,但问题在于它显式地依赖于网络参数 𝜃 ,足够通用的数学表达需要忽略这种实现细节。
理想情况下,如果神经网络的表达能力足够丰富,对损失函数 𝐿 的优化,应该可以直接表达为关于两个映射 𝜃 𝑦 𝜃 的函数。
然而,如何从数学层面实现这一点仍不清楚。因此,我们先从更简单的情况入手——不考虑整个数据集,而是两个数据点。
训练期间,由于映射函数 𝜃 𝑦 𝜃 的变化,不同数据点的表示会在隐藏空间中 𝐻 移动,彼此靠近或交互。

比如,对于数据集中的两点 ,如果 𝜃 ⁢(𝑥 1 )和 𝜃 ⁢(𝑥 2 )足够接近且 𝜃 𝑦 𝜃 是平滑函数,那么可以利用两点的均值,对这两个映射函数进行线性近似:

其中 𝐷 𝐷 𝑦 分别是 𝜃 𝑦 𝜃 的雅可比矩阵。
假定神经网络有足够的表达性和自由度,线性化参数 𝐷 𝐷 𝑦 可以得到有效优化,那么梯度下降的过程就可以表示为:
方程(6)就描述了论文主要的建模假设,旨在作为大型复杂架构体系的等效理论,不受具体参数化方法的约束。
图1是上述建模过程的可视化表达,为了简化问题,假设两个数据点在隐藏空间中只会靠近或远离,但不发生旋转。
其中我们关心的主要指标是隐藏空间中的距离‖𝑑ℎ‖,可以让我们得知模型学习到的表征结构,以及模型输出的距离‖𝑑𝑦‖,有助于建模损失曲线。
此外,还引入了一个外部变量𝑤控制表征速度,或者可以被看作输出对齐,表示预测输出与真实输出的角度差异。
由此,我们得到了三个标量变量组成的一个独立系统:
其中,神经网络的实现细节已经被抽象化表达为两个常量:1/ 𝜏ℎ 和1/ 𝜏𝑦 ,表示有效学习率。

学习动态的一致性

建模完成后,论文在两点数据集上训练了不同架构的神经网络,并将实际的学习动态与等效理论的数值解进行比较,结果如图2所示。

默认结构指20层网络、每层500个神经元,使用leaky ReLU

可以看到,虽然只有两个常数需要拟合,但是刚才描述的等效性理论依旧可以较好地拟合各种神经网络的实际情况。
相同的方程可以准确描述多种复杂模型和架构在训练中的动态变化,这似乎可以说明,如果模型具有足够的表现力,最终都会收敛到共同的网络行为。
放到MNIST这样更大的数据集上,跟踪两个数据点的学习动态,等效理论依旧成立。

网络架构包括4个全连接层,每层包括100个神经元并采用leaky ReLU激活函数

然而值得注意的是,当初始权重逐渐增大时(图3),‖𝑑⁢ℎ‖、‖𝑑⁢𝑦‖和𝑤三个变量的变化模式会发生更改。
因为初始权重较大时,两个数据点在训练开始时就会相距较远,因此公式(5)进行的线性近似就不再成立,上述理论模型失效。






请到「今天看啥」查看全文