专栏名称: 老齐Py
Data Science
目录
相关文章推荐
清廉蓉城  ·  镜头丨监督护航 民营经济阔步春光里 ·  2 天前  
成都本地宝  ·  成都多地新地标来了!最快今年完工→ ·  2 天前  
秋叶PPT  ·  DeepSeek50个超好用AI指令,强烈建 ... ·  3 天前  
成都发布  ·  正式发布!成都春糖季逛吃指南来了→ ·  3 天前  
51好读  ›  专栏  ›  老齐Py

【译】必须懂:深度学习中的信息论概念

老齐Py  · 掘金  ·  · 2020-04-03 04:04

正文

阅读 12

【译】必须懂:深度学习中的信息论概念

作者:Abhishek Parbhakar

翻译:老齐

与本文相关的图书推荐:《数据准备和特征工程》

本书已经发售,购买:【电子工业出版社天猫旗舰店】


信息论是对深度学习和AI有重大贡献的一个重要领域,当然,很多人对它知之甚少。如你所知,深度学习的基石是微积分、概率论和统计学,信息论可以视为是它们之间的复杂的融合。AI中的一些概念就来自于信息论或相关领域,例如:

  • 常见的交叉熵和损失函数
  • 基于最大信息熵的决策树
  • NLP和语音处理中的Viterbi算法
  • 循环神经网络和其他模型中的编码器概念

信息论简史

克劳德 香农,信息论之父

20世纪早期,科学家和工程师困惑于这样的问题:如何量化信息?有没有某个数学化的方法能够测量信息量?例如,以下两句话:

  • Bruno是一只狗。
  • Bruno是一只大个的有着棕色皮毛的狗。

不难看出,第二句告诉了我们更多的信息,狗是大的,毛是棕色的,而不仅仅告诉我们是一只狗。我们如何量化这两句话的差异?我们能用数学化的方法测量第二句比第一句有更多得信息吗?

科学家困惑于此问题。用语义或者语句的数量来衡量信息,只能让问题更麻烦。后来,数学家和工程师克劳德·香农提出了“熵”的思想,这种思想永远改变了我们的世界,标志着“数字信息时代”的开始。

香农提出“数据的语义相彼此无关”,即数据的类型和含义在涉及信息内容时则无关紧要,相反,他根据概率分布和“不确定性”对信息进行了量化。香农还引入了“位”(“bit”),并谦虚地归功于他的同事John Tukey。 这一革命性的思想不仅奠定了信息理论的基础,而且还为人工智能等领域的发展开辟了新的途径。

下面我们讨论深度学习和数据科学中4个流行的且广泛应用的、必须要知道的信息论概念:

也称为信息熵或者香农熵。

初步理解

熵是度量不确定性的量,让我们设想两个实验:

  1. 抛一枚均匀的硬币(P(H)=0.5),观察它的输出,假设H
  2. 投掷一枚有偏差的硬币(P(H)=0.99),观察它的输出,假设H

比较这两个实验,相对于实验1,实验2更容易预测到它的结果。那么,我们说实验1比实验2具有更强的不确定性,实验中的这种不确定性就用熵来度量。

因此,如果实验具有更多不确定性,熵的值越大,或者说,实验结果的可预测性越强,熵越小。实验的概率分布常常用熵计算。

实验结果确定,即完全可预测,就相当于抛出一门P(H)=1的硬币,此时熵为0。如果实验完全随机,例如掷骰子,可预测性最低,具有最大的不确定,其实验的熵也最高。

另一种对熵的理解是通过观测随机实验输出的平均获得信息。从一个实验结果所获得的信息可以定义为一个概率函数,输出越少,获得信息越多。

例如,一个确定性实验,我们都知道其结果,所以,就没有获得新信息,熵即为0。







请到「今天看啥」查看全文