专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  通过在actor-critic递归架构中使用 ... ·  昨天  
爱可可-爱生活  ·  晚安~ #晚安# -20240928221919 ·  3 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20240926222756 ·  5 天前  
爱可可-爱生活  ·  【Mini-LLaVA:一款轻量级的多模态大 ... ·  6 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】梯度下降与反向传播(上)

机器学习研究会  · 公众号  · AI  · 2017-02-28 18:13

正文



点击上方“机器学习研究会”可以订阅哦

摘要
 

转自:张觉非

一、用到的概念

首先用“话”来描述几个将用到的概念。这里的描述是尽量形象但是不够精确的。精确的概念只能用公式把握,但是形象的描述有利于理解公式。看到下文中的公式时,回想这些文字描述,希望能帮助抓住概念的重点。

  • 仿射函数:仿射函数是线性函数,它们的图形是空间中一张超平面。

  • 函数可导:函数在某一点可导是指函数在这一点周围可以用一个仿射函数(超平面)来近似

  • 梯度:函数在某一点的梯度是一个向量,其方向是随着自变量变化函数上升最快的方向,其长度是函数在该方向上升的速率。梯度朝任一方向的投影长度是函数在该方向上的变化速率。

  • 梯度下降:一种优化算法,该算法从任一自变量点开始,朝该点梯度的反方向运动一段距离,再朝新位置的梯度反方向运行一段距离,如此迭代。解一直朝当前下坡最陡的方向运动,希望能运动到函数的全局最小值。

二、仿射函数

以二元函数为例。因为这样的函数其自变量空间是,函数图形所在空间是 ,便于可视化。以下凡是说到函数,都是指二元函数。其它维度可以类推。仿射函数,或者说线性函数,其图形是一个平面。如图 1 。

图 1

该函数的方程是:

式 2.1

第二个等号之后是向量形式。3 是该平面的截距:当 (x, y) 取 (0, 0) 时 z 的值为 3,即平面与竖直轴相交于 (0, 0, 4) 。该方程稍加变形:

式 2.2

第一个等号后面是向量形式。所有在平面上的点都满足该方程。其中 (-0.5, -0.2, 1) 是平面的法向量(norm)。任一条平面上的线段是它的两个端点向量 (x1, y1, z1) 和 (x2, y2, z2) 之差 (x2-x1, y2-y1, z2-z1) 。因为端点 (x1, y1, z1) 和 (x2, y2, z2) 都在平面上,所以该差向量与法向量 (-0.5, -0.2, 1) 正交:

式 2.3

可见平面上所有线段都与 (-2, -3, 1) 正交, (-2, -3, 1) 垂直于该平面。法向量指示一个方向,该方向确定了平面的倾向和倾角。法向量的长度(向量模的大小)是不重要的。例如上述方程如果将法向量和截距乘上因子 2 ,平面没有变化:

式 2.4

如果法向量第三个分量为 0 ,则平面是竖直的。例如下面的方程:

式 2.5

方程要求 x 和 y 满足 -2x-3y=3 ,z 值任意。该方程确定的是一个竖直平面。如果平面非竖直,则总可以通过缩放使 z 的系数为 1 。于是非竖直平面的法向量总可以写成 (a1, a2, 1) 的形式。a1 和 a2 绝对值越大,法向量越接近 x-y 平面上的向量,平面也就被“撬起”得越高;反之 a1 和 a2 绝对值越小,法向量越接近竖直,平面被 “放躺” 得越平。想象把法向量当作一个把手来回扳动,平面也就可以随意调整朝向。见图 2。

图 2

绿色平面的法向量是 (-0.5, -0.2, 1) 。蓝色平面的法向量是 (-5, -2, 1) 。 (-5, -2, 1) 更 “贴近” xy 平面,它将蓝色平面撬得比较竖直。借用地层学术语,(-5, -2) 确定的 xy 平面方向是蓝色平面的“倾向”。

提前点,先就仿射函数这种特殊情况来说。(-5, -2) 其实就是蓝色平面这个仿射函数的梯度反方向了。 (5, 2) 是蓝色平面在该任意点的梯度。想象你面朝一个斜坡。斜坡的坡面朝向你,这个方向是斜坡的梯度反方向。你脸朝的方向是斜坡的梯度方向,也就是你即将费力爬坡的方向。图 3 灵魂画作。

图 3

原文链接:

https://zhuanlan.zhihu.com/p/25387613?group_id=819934784259256320

“完整内容”请点击【阅读原文】
↓↓↓