点击上方“
MLNLP
”,选择“星标”公众号
重磅干货,第一时间送达
编辑:忆臻
https://www.zhihu.com/question/338326164
本文仅作为学术交流分享,如果侵权,会删文处理
笔者在知乎上发现了一个叫“
模型训练多次后,最终得到的某层权重矩阵W之间有什么相似或者相关的特性吗?
”的问题,很有意思,下面与大家分享一些大佬们的见解,希望对你的研究有帮助。
问题备注:
确定超参下,模型训练多次,由于各种随机性,最终某层得到的权重矩阵W都不一样,但是最后模型的表现却相对很稳定,那么这几个最终的权重W之间有什么不变或者相似的特性吗?
知乎高质量回答:
作者:
郑华滨
https://www.zhihu.com/question/338326164/answer/772228405
抛个砖:神经网络不同次优化得到的多个局部最优解,可以想象成参数空间中散落的小坑,而这个研究的结论是,任意两个小坑之间都可以通过一条不会太过“扭曲”的“峡谷”相连通,这条“峡谷”路径上的loss最多比局部最优处的loss高一点点。
链接:http://www.offconvex.org/2019/06/16/modeconnectivity/
不过这个结论要成立还是有一些前提条件,大概意思是假设网络drop掉一半节点之后性能不会陡降,感觉一般的over-parameterized情形应该是满足的。
作者:
雨宫夏一
https://www.zhihu.com/question/338326164/answer/772257232
我也抛个砖:
一样的结构,一样的超级参数,重新train以后一样的层的权重可以互相线性表出(这么说可能不严谨,就是网络A,训练两次1和2 1和2之间可以求到一个loss很低的线性回归),这个在很早iclr有一篇文章做过实验。回头补论文。
论文题目:
CONVERGENT LEARNING: DO DIFFERENT NEURAL NETWORKS LEARN THE SAME REPRESENTATIONS?
作者:
匿名用户
https://www.zhihu.com/question/338326164/answer/772338680
个人理解,这个问题的一般结论是,权重之间没有关系。
我们可以做个类比,把深度网络的代价函数最小化类比于寻找一个量子系统的基态,我们都知道对于给定的汉密尔顿量的量子系统而言,基态可以是简并的,而这些简并的基态之间是没有什么确定的联系的。
即使单纯从深度学习的观点看,过参数化的网络的解是个网络配置的高维子空间,对于非线性网络,我们没有任何证据证明这个子空间的点之间会有什么确定的关系,除非两个点之间的距离很小。
前面答案中的Landscape Connectivity of Low Cost Solutions for Multilayer Nets,按照我的理解,对于一般的网络结构是不能成立的。对于线性网络,似乎过参数化的网络的解空间会形成一个联通的子空间,这个现象在多体量子系统(如MPS态)和D-CTC系统中会有相似的图像(分离的基态会通过过参数化变成连续的一个子空间),但是对于一般的非线性系统,应该没有这个结论。且不说这个子空间是否联通,即使是联通的,因为从维度分析,解空间的大小其实是和过参数网络的结构复杂度成正比的,其维度大致是网络的维度-问题本身的复杂度的维度,所以解空间的可能的解空间的体积是按照网络的维度的指数变化的,这样一个空间中任意两个点的距离也不会保证很小,哪怕将其扩展一下到允许通过一些基态附近的低能量态,也不保证距离可以很短。
这个问题可以和量子相变的问题有类比,所谓不太扭曲的连接路径,其实可以大致类比于量子系统中,不经过相变就可以从一个基态演化到另一个基态,这个结论对于一般的系统是不成立的,除非这些态是某些特定的简单或者低复杂度的量子态,这就需要对系统的汉密尔顿量进行一些限制,比如一维系统的local Hamiltonian的基态,这个结论是成立的。但是,如果网络结构固定,那么这又相当于对Hamiltonian进行了额外的限制,类似于增加了对称性的约束,这又有点类似SPT问题了,这种约束同样可以导致不连通。所以问题可能很复杂。
如果将CNN与MERA做类比,由于在D>1时,MERA表示了一类特殊的低复杂度的量子态(满足area law且支持对观测量的有效计算),其构造的时空结构也是特殊的AdS时空,这时候的类比有可能得到一些有关CNN结构的结论,这可能就是Landscape Connectivity of Low Cost Solutions for Multilayer Nets考察的内容吧。这个需要仔细看看这篇论文再补充。
当然,深度网络的本质也是表示简单的函数,真正复杂的函数也不可能靠有限参数的深度网络来表示,所以是不是对于用于表示’简单函数‘的深度网络可以有一般性的结论,是个值得考察的问题。这个就像量子计算中,我们其实一直是在低复杂度的态中运作,高复杂度的态是不能用于完成量子计算任务的,而所有这些低复杂度的态之间的距离都是小的。如果可以证明深度网络的解也构成一个低复杂度的子空间,那么这个子空间之间的点的距离很小的结论也可能可以成立。
这是个非常好的问题,暂且胡说这么多,先去看论文了,想一下,再来补充。
作者:
EthanMath
https://www.zhihu.com/question/338326164/answer/772228119
说一个不甚严谨的想法,抛砖引玉。
理想情况下,一个没有冗余的模型,同样的数据集,同样的超参,多次训练得到的模型应该是相同或者类似的。如果出现较大的差异,说明这个网络中存在冗余。
如果给定的数据集确实存在几条通向global min的路径,那么可以认为,对目标问题,有几种等价的不同的“理解”或者“观念”。我们也可以钦定只有其中某一种“看法”或者“观念”是最好的。那么,认为其他几种等价的路径是冗余的。
比如对蚂蚱大喊“跳”!蚂蚱跳了。把蚂蚱的腿拔了,大喊“跳”,它不跳了。对于这个问题,模型1认为/解释为,把蚂蚱腿拔了可以让它变成聋子。模型2认为/解释为,把蚂蚱腿拔了可以让它丧失跳的能力。
如果数据集有限,实验不多,可以认为模型1,模型2都work,都可以解释给定的数据集。但它们对应训练出来的模型参数确千差万别。
假设我们钦定任何问题都只有一种最佳理解方式,那么当存在多套差异较大的模型参数时,可以认为模型存在冗余,并且当前数据集不够多,不够多到足以排除其他解释。