专栏名称: 算法与数学之美

从生活中挖掘数学之美，在实践中体验算法之奇，魅力旅程，从此开始！

统计学习方法概论

算法与数学之美 · 公众号 · 算法数学 · 2016-10-01 22:21

正文

出自csdn博客 Liam Q的专栏原文地址：http://blog.csdn.net/qll125596718/article/details/8351337

1.统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

统计学习的对象是数据，它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。

统计学习的目的就是考虑学习什么样的模型和如何学习模型。

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。实现统计学习的步骤如下：

（1）得到一个有限的训练数据集合；

（2）确定包含所有可能的模型的假设空间，即学习模型的集合；

（3）确定模型选择的准则，即学习的策略；

（4）实现求解最优模型的算法，即学习的算法；

（5）通过学习方法选择最优模型；

（6）利用学习的最优模型对新数据进行预测或分析。

2.监督学习

监督学习从训练数据中学习模型，对测试数据进行预测，训练集通常表示为

人们根据输入、输出变量的不同类型，对预测任务给予不同的名称：输入变量和输出变量均为连续变量的预测问题称为回归问题；输出变量为有限个离散变量的预测问题称为分类问题；输入变量与输出变量均为变量序列的预测问题称为标注问题。

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)，P(X,Y)表示分布函数，或分布密度函数。统计学习假设数据存在一定的统计规律，X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示，随具体学习方法而定。

监督学习分为学习和预测两个过程，由学习系统与预测系统组成，如下图：

学习过程中，学习系统利用给定的训练数据集，通过学习得到一个模型，表示为条件概率分布P(Y|X)或决策函数Y=f(X)。预测过程中，预测系统对于给定的测试样本集中的输入

3.统计学习三要素

统计学习=模型+策略+算法

3.1 模型

统计学习中，首先要考虑学习什么样的模型，在监督学习中，模型就是所要学习的条件概率分布或决策函数，由决策函数表示的模型为非概率模型，由条件概率分布表示的模型为概率模型。

3.2 策略

有了模型的假设空间，统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏，模型每一次预测的好坏用损失函数来度量。

监督学习问题就是从假设空间F中选择模型f作为决策函数，对于给定的输入X，由f(X)给出相应的输出Y，这个输出的预测值f(X)与真实值Y可能一致也可能不一致，用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。常用的损失函数有以下几种：

3.3 算法

统计学习问题归结为以上的最优化问题，这样，统计学习的算法就是求解最优化问题的算法。如果最优化问题有显示的解析解，这个最优化问题就比较简单，但通常这个解析解不存在，所以就需要利用数值计算的方法来求解。统计学习可以利用已有的最优化算法，也可以开发独自的最优化算法。

4. 模型评估与模型选择

当损失函数给定时，基于损失函数的模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。

训练误差是模型Y=f(x)关于训练数据集的平均损失：

下图给出了M=0，M=1，M=3，M=9时的多项式函数拟合的情况，其中绿色曲线为真模型，红色为预测模型。

其中，M=0和M=1模型简单，拟合不足，训练误差较大；M=9模型复杂，过拟合，训练误差为0，但基本不具备推广性；M=3模型复杂度适中，泛化能力强，效果最好。