专栏名称: 老齐Py
Data Science
目录
相关文章推荐
沪考一点通  ·  华二6人!2025信奥上海队名单公示! ·  昨天  
姑苏晚报  ·  官方点名通报 ·  昨天  
姑苏晚报  ·  官方点名通报 ·  昨天  
雪漠禅坛  ·  如何看待道德理想主义? ·  2 天前  
雪漠禅坛  ·  如何看待道德理想主义? ·  2 天前  
51好读  ›  专栏  ›  老齐Py

【译】用信息论剖析深度学习

老齐Py  · 掘金  ·  · 2020-04-10 02:22

正文

阅读 23

【译】用信息论剖析深度学习

作者:Lilian Weng

翻译:老齐

与本文相关书籍推荐:《数据准备和特征工程》


最近,我聆听了Naftali Tishby教授的演讲“深度学习中的信息论”,感觉很有意思。他在演讲中说明了如何将信息论用于研究深度神经网络的增长和转换,他利用IB(Information Bottleneck)方法,为深度神经网络(DNN)开创了一个新的领域,由于参数的数量成指数增长,导致传统的学习理论在该领域均行不通。另外的一种敏锐观察显示,在DNN训练中包含了两个迥异的阶段:首先,训练网络充分表示输入数据,最小化泛化误差;然后,通过压缩输入的表示形式,它学会了忘记不相关的细节。

基本概念

马尔科夫链

马尔科夫过程是一个“无记忆”(也称为“马尔科夫性质”)的随机过程,马尔科夫链是一类包含多个离散状态的马尔科夫过程,也就是说,过程的未来状态的条件概率仅由当前状态决定,而不取决于过去状态。

KL散度

KL散度用于度量一个概率分布 p 偏离另一个期望的概率分布 q 的程度,它是不对称的。

\begin{aligned}D_{KL}(p \| q) &= \sum_x p(x) \log \frac{p(x)}{q(x)} dx \\
 &= - \sum_x p(x)\log q(x) + \sum_x p(x)\log p(x) \\
&= H(P, Q) - H(P)\end{aligned}

p(x) == q(x) 时, D_{KL} 达到最小值零。

互信息

互信息度量两个变量之间的相互依赖程度,它把一个随机变量通过另一个随机变量所获得的“信息量”进行量化,互信息是对称的。

\begin{aligned}
I(X;Y) &= D_{KL}[p(x,y) \| p(x)p(y)] \\
 &= \sum_{x \in X, y \in Y} p(x, y) \log(\frac{p(x, y)}{p(x)p(y)}) \\
 &= \sum_{x \in X, y \in Y} p(x, y) \log(\frac{p(x|y)}{p(x)}) \\ 
 &= H(X) - H(X|Y) \\
\end{aligned}

数据处理不等式(DPI)

对于任意的马尔科夫链: X \to Y \to Z ,我们有 I(X; Y) \geq I(X; Z)

深度神经网络可以看作是一个马尔科夫链,因此当我们沿着DNN层向下移动时,层与输入之间的互信息只会减少。

再参数化不变性

对于两个可逆函数 \phi\psi ,互信息仍然是: I(X; Y) = I(\phi(X); \psi(Y))

例如,如果我们在DNN的一个层中调整权重,它不会影响这个层和另一个层之间的互信息。

马尔科夫链的深度神经网络

训练数据来自 XY 联合分布的抽样观测,输入变量 X 和隐藏层的权重都是高维随机变量。真实值 Y 和预测值 \hat{Y} 是分类设置中较小维度的随机变量。

图1:一个深度神经网络的结构,它包含标签 Y 、输入层 X 、隐藏层 h_1、…、h_m 和预测值 \hat{Y}

如果我们将DNN的隐藏层标记为 h_1,h_2,…,h_m ,如图1所示,我们可以将每一层看作是一个马尔科夫链的状态: h_i \to h_{i+1} 。根据DPI,我们有:

H(X) \geq I(X; h_1) \geq I(X; h_2) \geq \dots \geq I(X; h_m) \geq I(X; \hat{Y}) \\
I(X; Y) \geq I(h_1; Y) \geq I(h_2; Y) \geq \dots \geq I(h_m; Y) \geq I(\hat{Y}; Y)

DNN的设计目的是学习如何描述 X ,以便预测 Y ;最终,将 X 压缩成只包含与 Y 相关的信息。Tishby将这一过程描述为“相关信息的逐次细化”。

信息平面定理

DNN依次实现了 X 的内部表示,一组隐藏层 {T_i} 。根据信息平面定理,通过它的编码器和解码器信息来描述每一层,编码器即对输入数据 X 编码,而解码器则将当前层中的信息转换为目标输出 Y

准确地说,在一个信息平面图中:

  • X轴:样本 T_i 复杂度由编码器互信息 I(X;T_i) 决定,样本复杂度是指你需要多少个样本来达到一定的准确性和泛化。
  • Y轴:精度(泛化误差),由解码器互信息 I(T_i;Y) 决定。







请到「今天看啥」查看全文