专栏名称: 算法与数学之美
从生活中挖掘数学之美,在实践中体验算法之奇,魅力旅程,从此开始!
目录
相关文章推荐
51好读  ›  专栏  ›  算法与数学之美

从数学分析的角度来看SOFTMAX

算法与数学之美  · 公众号  · 算法  · 2017-06-27 22:18

正文

从数学分析的角度来看SOFTMAX

来源:36大数据

编辑:Gemini




Softmax是机器学习中最常用的输出函数之一,网上有很多资料介绍它是什么以及它的用法(http://ufldl.stanford.edu/wiki/index.php/Softmax回归),但却没有资料来介绍它背后的原理。本文首先简单地介绍一下Softmax,然后着重从数学分析的角度来分析一下它背后的原理。

分类问题是监督学习中最重要的问题之一,它试图根据输入

x "> x 来预测对应标签 y "> y 的概率。Softmax便是计算标签概率的重要工具之一:

p = s o f t m a x ( a ) p i = exp ( a i ) j exp ( a j ) ">

其中 a i "> a i 是模型对于第 i "> i 个分类的输出。接下来简单地证明一下:通过对数最大似然以及梯度下降方法可以使 p i "> p i 逼近第 i "> i 个分类的真实概率。对数最大似然中的损失函数为 L N L L ( p , y ) = log p y "> ,对它关于 a "> a 求导得:

a k L N L L ( p , y ) = a k ( log p y ) = a k ( a y + log j e a j ) ">

= 1 y = k + e a k j e a j = p k 1 y = k ">

a L N L L ( p , y ) = ( p e y ) ">

从收敛速度方面,对数最大似然与梯度下降在Softmax身上简直是绝配。对于一个输入为 x "> x 的样本,假设它的真实分类是 i "> i ,对于模型的第 j ( j i ) "> j ( j i ) 个输出有 a j L N L L ( p , y ) = p j ">







请到「今天看啥」查看全文