专栏名称: 算法与数学之美
从生活中挖掘数学之美,在实践中体验算法之奇,魅力旅程,从此开始!
目录
相关文章推荐
九章算法  ·  湾区码二代,已经是next level了 ·  昨天  
算法爱好者  ·  工资12000,下家给15000,我说考虑下 ... ·  13 小时前  
算法爱好者  ·  DeepSeek ... ·  昨天  
九章算法  ·  硬核!一周刷爆LeetCode,算法大神耗时 ... ·  3 天前  
51好读  ›  专栏  ›  算法与数学之美

支持向量机通俗导论(理解SVM的三层境界)

算法与数学之美  · 公众号  · 算法  · 2017-01-30 22:15

正文

支持向量机通俗导论
理解SVM第三层境界(二)

来源:CSDN July

编辑 Gemini


支持向量机通俗导论:理解SVM的三层境界(一)


第二层、深入SVM


2.1、从线性可分到线性不可分

2.1.1、从原始问题到对偶问题的求解


接着考虑之前得到的目标函数:

由于求 的最大值相当于求 的最小值,所以上述目标函数等价于(w由分母变成分子,从而也有原来的max问题变为min问题,很明显,两者问题等价):



因为现在的目标函数是二次的,约束条件是线性的,所以它是一个凸二次规划问题。这个问题可以用现成的 QP (Quadratic Programming) 优化包进行求解。一言以蔽之:在一定的约束条件下,目标最优,损失最小。

此外,由于这个问题的特殊结构,还可以通过拉格朗日对偶性(Lagrange Duality)变换到对偶变量 (dual variable) 的优化问题,即通过求解与原问题等价的对偶问题(dual problem)得到原始问题的最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题。

那什么是拉格朗日对偶性呢?简单来讲,通过给每一个约束条件加上一个拉格朗日乘子(Lagrange multiplier) ,定义拉格朗日函数(通过拉格朗日函数将约束条件融合到目标函数里去,从而 只用一个函数表达式便能清楚的表达出我们的问题

然后令

容易验证,当某个约束条件不满足时,例如 ,那么显然有 (只要令 即可)。而当所有约束条件都满足时,则最优值为 ,亦即最初要最小化的量。

因此,在要求约束条件得到满足的情况下最小化 实际上等价于直接最小化 (当然,这里也有约束条件,就是 ≥0 , i =1 , …, n )   ,因为如果约束条件没有得到满足, 会等于无穷大,自然不会是我们所要求的最小值。

具体写出来,目标函数变成了:

这里用 表示这个问题的最优值,且和最初的问题是等价的。如果直接求解,那么一上来便得面对w和b两个参数,而 又是不等式约束,这个求解过程不好做。不妨把最小和最大的位置交换一下,变成:

交换以后的新问题是原始问题的对偶问题,这个新问题的最优值用 来表示。而且有 ,在满足某些条件的情况下,这两者相等,这个时候就可以通过求解对偶问题来间接地求解原始问题。

换言之,之所以从minmax的原始问题 ,转化为maxmin的对偶问题 ,一者因为 的近似解,二者,转化为对偶问题后,更容易求解。

下面可以先求L 对w、b的极小,再求L 对 的极大。


2.1.2、KKT条件


上文中提到“ 在满足某些条件的情况下,两者等价”, 这所谓的“满足某些条件”就是要满足KKT条件


勘误:经读者qq_28543029指出,这里的条件不应该是KKT条件,要让两者等价需满足strong duality (强对偶),而后有学者在强对偶下提出了KKT条件,且KKT条件的成立要满足constraint qualifications,而constraint qualifications之一就是Slater条件。所谓Slater 条件,即指:凸优化问题,如果存在一个点x,使得所有等式约束都成立,并且所有不等式约束都严格成立(即取严格不等号,而非等号),则满足Slater 条件。对于此处,Slater 条件成立,所以d*≤p*可以取等号。


一般地,一个最优化数学模型能够表示成下列标准形式:



其中,f(x)是需要最小化的函数,h(x)是等式约束,g(x)是不等式约束,p和q分别为等式约束和不等式约束的数量。


同时,得明白以下两点:


  • 凸优化的概念: 为一凸集 为一凸函数。凸优化就是要找出一点 使得每一 满足

  • KKT条件的意义:它是一个非线性规划(Nonlinear Programming)问题能有最优化解法的必要和充分条件。

而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件:

经过论证,我们这里的问题是满足 KKT 条件的(首先已经满足Slater条件,再者f和gi也都是可微的,即L对w和b都可导),因此现在我们便转化为求解第二个问题。


也就是说,原始问题通过满足KKT条件,已经转化成了对偶问题。而求解这个对偶学习问题,分为3个步骤:首先要让L(w,b,a) 关于 w 和 b 最小化,然后求对 的极大,最后利用SMO算法求解对偶问题中的拉格朗日乘子。


2.1.3、对偶问题求解的3个步骤


(1) 、首先固定 要让 L 关于 w b 最小化,我们分别对w,b求偏导数,即令 ∂L/∂ w ∂L/∂ b 等于零:

将以上结果代入之前的L:

得到


提醒:有读者可能会问上述推导过程如何而来?说实话,其具体推导过程是比较复杂的,如下图所示:


最后,得到:



如 jerrylead所说:“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算,由于ai和yi都是实数,因此转置后与自身一样。“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。


从上面的最后一个式子,我们可以看出,此时的拉格朗日函数只包含了一个变量,那就是 (求出了 便能求出w,和b,由此可见,上文第1.2节提出来的核心问题:分类函数 也就可以轻而易举的求出来了)。


(2) 、求对 的极大 即是关于对偶问题的最 优化问题。经过上面第一个步骤的求w和b,得到的拉 格朗日函数式子已经没有了变量w,b,只有 。从上面的式子得到:




这样,求出了 ,根据 即可求出w,然后通过



即可求出b, 最终得出分离超平面和分类决策函数。


(3) 在求得L(w, b, a) 关于 w 和 b 最小化,以及对 的极大之后,最后一步则可以利用SMO算法求解对偶问题中的拉格朗日乘子


上述式子要解决的是在参数 上求最大值W的问题,至于 都是已知数 。要了解这个SMO算法是如何推导的,请跳到下文第3.5节、SMO算法。


到目前为止,我们的 SVM 还比较弱,只能处理线性的情况,下面我们将引入核函数,进而推广到非线性分类问题。


2.1.5、线性不可分的情况


OK,为过渡到下节2.2节所介绍的核函数,让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ,对于一个数据点 x 进行分类,实际上是通过把 x 带入到 算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到


因此 分类函数 为:

这里的形式的有趣之处在于,对于新点 x 的预测,只需要计算它与训练数据点的内积即可( 表示向量内积),这一点至关重要,是之后使用 Kernel 进行非线性推广的基本前提。此外,所谓 Supporting Vector 也在这里显示出来——事实上,所有非Supporting Vector 所对应的系数 都是等于零的,因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

为什么非支持向量对应的 等于零呢?直观上来理解的话,就是这些“后方”的点——正如我们之前分析过的一样,对超平面是没有影响的,由于分类完全有超平面决定,所以这些无关的点并不会参与分类问题的计算,因而也就不会产生任何影响了。

回忆一下我们2.1.1节中通过 Lagrange multiplier得到的 目标函数

注意到如果 是支持向量的话,上式中红颜色的部分是等于 0 的(因为支持向量的 functional margin 等于 1 ),而对于非支持向量来说,functional margin 会大于 1 ,因此红颜色部分是大于零的,而 又是非负的,为了满足最大化, 必须等于 0 。这也就是这些非Supporting Vector 的点的局限性。

从1.5节到上述所有这些东西,便得到了一个maximum margin hyper plane classifier,这就是所谓的支持向量机(Support Vector Machine)。当然, 到目前为止,我们的 SVM 还比较弱,只能处理线性的情况 ,不过,在得到了对偶dual 形式之后,通过 Kernel 推广到非线性 的情况就变成了一件非常容易的事情了(相信,你还记得本节开头所说的:“ 通过求解对偶问题得到最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题” )。


2.2、核函数 Kernel


2.2.1、 特征空间的隐式映射:核函数


事实上, 大部分时候数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在。在上文中,我们已经了解到了SVM处理线性可分的情况,那对于非线性的数据SVM咋处理呢? 对于非线性的情况,SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。

具体来说,在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。如图7-7所示,一堆数据在二维空间无法划分,从而映射到三维空间里划分:


而在我们遇到核函数之前,如果用原始的方法,那么在用线性学习器学习一个非线性关系,需要选择一个非线性特征集,并且将数据写成新的表达形式,这等价于应用一个固定的非线性映射,将数据映射到特征空间,在特征空间中使用线性学习器,因此,考虑的假设集是这种类型的函数:



这里 ϕ :X->F是从输入空间到某个特征空间的映射,这意味着建立非线性学习器分为两步:


  1. 首先使用一个非线性映射将数据变换到一个特征空间F,

  2. 然后在特征空间使用线性学习器分类。

而由于对偶形式就是线性学习器的一个重要性质,这意味着假设可以表达为训练点的线性组合,因此决策规则可以用测试点和训练点的内积来表示:


如果有一种方式可以 在特征空间中直接计算内积〈φ(x i · φ(x) ,就像在原始输入点的函数中一样,就有可能将两个步骤融合到一起建立一个非线性的学习器, 这样直接计算法的方法称为核函数方法:

核是一个函数K,对所有x,z(-X,满足,这里φ是从X到内积特征空间F的映射。


2.2.2、核函数:如何处理非线性数据


来看个核函数的例子。如下图所示的两类数据,分别分布为两个圆圈的形状,这样的数据本身就是线性不可分的,此时咱们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图)?

事实上,上图所述的这个数据集,是用两个半径不同的圆圈加上了少量的噪音生成得到的,所以,一个理想的分界应该是一个“圆圈”而不是一条线(超平面)。如果用 X 1 X 2 来表示这个二维平面的两个坐标的话,我们知道一条二次曲线(圆圈是二次曲线的一种特殊情况)的方程可以写作这样的形式:

注意上面的形式,如果我们构造另外一个五维的空间,其中五个坐标的值分别为 Z 1 = X 1 , Z 2 = X 2 1 , Z 3 = X 2 , Z 4 = X 2 2 , Z 5 = X 1 X 2 ,那么显然,上面的方程在新的坐标系下可以写作:

关于新的坐标 Z ,这正是一个 hyper plane 的方程!也就是说,如果我们做一个映射 ϕ : R 2 R 5 ,将 X 按照上面的规则映射为 Z ,那么在新的空间中原来的数据将变成线性可分的,从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。

再进一步描述 Kernel 的细节之前,不妨再来看看这个例子映射过后的直观例子。当然,你我可能无法把 5 维空间画出来,不过由于我这里生成数据的时候就是用了特殊的情形,具体来说,我这里的超平面实际的方程是这个样子(圆心在 X 2 轴上的一个正圆):

因此我只需要把它映射到 这样一个三维空间中即可,下图即是映射之后的结果,将坐标轴经过适当的旋转,就可以很明显地看出,数据是可以通过一个平面来分开的(pluskid:下面的 gif 动画, 先用 Matlab 画出一张张图片,再用 Imagemagick 拼贴成):

核函数相当于把原来的分类函数:

映射成:

而其中的 可以通过求解如下 dual 问题而得到的:

这样一来问题就解决了吗?似乎是的:拿到非线性数据,就找一个映射 ,然后一股脑把原来的数据映射到新空间中,再做线性 SVM 即可。不过事实上没有这么简单!其实刚才的方法稍想一下就会发现有问题:在最初的例子里,我们对一个二维空间做映射,选择的新空间是原始空间的所有一阶和二阶的组合,得到了五个维度;如果原始空间是三维,那么我们会得到 19 维的新空间,这个数目是呈爆炸性增长的,这给 的计算带来了非常大的困难,而且如果遇到无穷维的情况,就根本无从计算了。所以就需要 Kernel 出马了。


不妨还是从最开始的简单例子出发,设两个向量 ,而 即是到前面说的五维空间的映射,因此映射过后的内积为:



(公式说明:上面的这两个推导过程中,所说的前面的五维空间的映射,这里说的前面便是文中2.2.1节的所述的映射方式,回顾下之前的映射规则,再看那第一个推导,其实就是计算x1,x2各自的内积,然后相乘相加即可,第二个推导则是直接平方,去掉括号,也很容易推出来)


另外,我们又注意到:



二者有很多相似的地方,实际上,我们只要把某几个维度线性缩放一下,然后再加上一个常数维度,具体来说,上面这个式子的计算结果实际上和映射



之后的内积 的结果是相等的,那么区别在于什么地方呢?


  1. 一个是映射到高维空间中,然后再根据内积的公式进行计算;

  2. 而另一个则 直接在原来的低维空间中进行计算,而不需要显式地写出映射后的结果


(公式说明:上面之中,最后的两个式子,第一个算式,是带内积的完全平方式,可以拆开,然后,通过凑一个得到,第二个算式,也是根据第一个算式凑出来的)


回忆刚才提到的映射的维度爆炸,在前一种方法已经无法计算的情况下,后一种方法却依旧能从容处理,甚至是无穷维度的情况也没有问题。


我们把这里 的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) ,例如,在刚才的例子中,我们的核函数为:



核函数能 简化映射空间中的内积运算 ——刚好“碰巧”的是,在我们的 SVM 里需要计算的地方数据向量总是以内积的形式出现 的。对比刚才我们上面写出来的式子,现在我们的 分类函数 为:


其中 α 由如下 dual 问题计算而得:


这样一来计算的问题就算解决了, 避开了直接在高维空间中进行计算 ,而结果却是等价的!当然,因为我们这里的例子非常简单,所以我可以手工构造出对应于 的核函数出来,如果对于任意一个映射,想要构造出对应的核函数就很困难了。


2.2.3、几个核函数


通常人们会从一些常用的核函数中选择(根据问题和数据的不同,选择不同的参数,实际上就是得到了不同的核函数),例如:


多项式核,显然刚才我们举的例子是这里多项式核的一个特例(R = 1,d = 2 。虽然比较麻烦,而且没有必要,不过这个核所对应的映射实际上是可以写出来的,该空间的维度是 ,其中 是原始空间的维度。

高斯核 ,这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过,如果 选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果 选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数 ,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。下图所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间:


线性核 ,这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了( 意思是说,咱们有的时候,写代码,或写公式的时候,只要写个模板或通用表达式,然后再代入不同的核,便可以了,于此,便在形式上统一了起来,不用再分别写一个线性的,和一个非线性的)







请到「今天看啥」查看全文