基础准备
在实际的多元线性回归模型应用中,随着自变量数目的增多,会遇到很多导致回归模型拟合效果不佳的问题,其中,自变量的多重共线性问题可以算是一个根源性问题。解决自变量多重共线性问题的方法还是比较多的,例如,自变量筛选、主成分回归、岭回归和偏最小二乘回归等方法,其中主成分回归和偏最小二乘回归是比较相似的方法。偏最小二乘法的英文缩写为PLS(Partial Least Squares)。
主成分回归,草堂君在前面其实已经介绍过,就是首先用主成分分析进行降维(存在共线性问题的多个自变量浓缩成少数几个主成分),然后再用提取的主成分对因变量建立多元回归模型,大家可以点击下方文章链接进行回顾:
主成分回归与偏最小二乘回归
随着自变量数目的增多,经常会出现自变量个数大于观测数据数目的情况,例如,自变量个数有5个(5列),而观测数据数目只有4条(4行),如下表所示:
![](http://mmbiz.qpic.cn/mmbiz_png/YJotEuBMe47ib19xosd1Wl63RpCiaQC6NDHxkvvTXCfDrFMD5wsxZddNC06up2GNUZAXCSicCEJme0QkBICicJpvIQ/640?wx_fmt=png)
当自变量个数大于观测数据数目时,是无法使用最小二乘法建立回归模型的,大家可以自己用上述数据进行线性回归分析,看看是否能够跑出结果。
主成分回归和偏最小二乘回归能够解决这个问题,因为它们都首先提取主成分(多个自变量浓缩成少数几个具有代表性的主成分),一般情况下,主成分数目少于观测数据数目,这样就能够建立主成分(自变量)与因变量的多元线性回归模型。
偏最小二乘回归
偏最小二乘回归的分析思路其实与主成分回归是一致的,都是先提取主成分,然后用提取的主成分与因变量建立回归模型,但是偏最小二乘回归与主成分回归又有比较大的区别。两者的区别主要在于主成分的提取方法。
主成分回归在提取主成分时,是不考虑自变量与因变量之间相关关系的,完全根据自变量之间的相关关系(相关系数矩阵或协方差矩阵),提取对自变量具有代表性的主成分。而偏最小二乘回归在提取主成分时,除了考虑自变量之间的相关关系以外,还充分考虑每个自变量与因变量的相关性,提取出与因变量相关性较强,又能代表自变量的主成分。
偏最小二乘回归在从自变量中提取主成分时,因为既要考虑自变量之间的相关性,又要考虑自变量与因变量之间的相关性。基于这个目的,偏最小二乘回归不是从所有自变量中提取主成分,而是只选取与因变量有相关性的自变量,对这些自变量提取主成分。因为这些自变量与因变量有相关性,偏向因变量,所以称为偏最小二乘回归。
SPSS软件的PLS功能
SPSS 22以上版本软件,在分析菜单中有设置最小二乘回归(PLS)的选项,如下图所示,选择安排在菜单【分析】-【回归】-【部分最小平方】中。不过这个功能不能直接使用,需要安装一些软件来实现功能。
![](http://mmbiz.qpic.cn/mmbiz_png/YJotEuBMe47ib19xosd1Wl63RpCiaQC6NDWh2Ificnn4769uEqxpHzT33WpHGuWfJ19BicGZk9KGRN8YBH2ibMiboedw/640?wx_fmt=png)
对于 Windows 和 Mac操作系统的用户,首先需要安装Python2.7版本的Python软件,软件可以从链接:https://www.python.org/downloads/下载。Python2.7已经更新到Python2.7.15版本了。需要注意,软件最好安装在C盘上,便于查找和提高运算速度。
Python软件安装好后,然后将NumPy和SciPy两个软件包安装到Python2.7中,注意,这两个软件包都要下载安装匹配Python2.7的版本。两个软件包的下载链接为:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 。
以上所有的软件,包括32位和64位版本,草堂君都已经下载并分享到qq群(577312904或134373751)中,大家可以前往下载。如下图所示:
![](http://mmbiz.qpic.cn/mmbiz_png/YJotEuBMe47ib19xosd1Wl63RpCiaQC6NDT0f7zFBqlGicmgubv0qg2TMOic3BR0HOhW57FogjW5zicyMJ8v39lkOpQ/640?wx_fmt=png)
以上所有软件都安装完毕以后,需要打开SPSS软件,选择菜单【编辑】-【选项】,跳出下方对话框,选择【文件位置】页面,然后在Python2.7位置处,选择Python2.7的其它安装版本,主目录需要选择刚才Python2.7的安装目录。设置好后,确定即可使用SPSS的偏最小二乘回归功能了。
![](http://mmbiz.qpic.cn/mmbiz_png/YJotEuBMe47ib19xosd1Wl63RpCiaQC6ND7xdeWoiabZoibXFz5FMOfvdFanMK911xVXonx9eEaRHphGsXibJtQssDA/640?wx_fmt=png)
如果对于Python软件、NumPy和SciPy软件包的安装过程不清楚的朋友,可以查看IBM的PLS安装使用说明:http://www-01.ibm.com/support/docview.wss?uid=swg22007874,或者前往qq群下载草堂君录制的教学视频。
最小二乘回归应用
限于篇幅,草堂君将在下篇文章中,用一个具体案例来说明,如何使用SPSS的最小二乘回归功能进行特殊数据情况的分析,并对结果进行解释说明。比较最小二乘回归与其它回归方式的区别与联系。
SPSS软件安装包已经同步分享到QQ群中,需要的朋友可以前往下载。QQ群号见下方温馨提示。文章的案例数据文件都会分享到QQ群。
温馨提示: