基础准备
主成分分析和因子分析的模型理论部分已经详细介绍过,大家可以点击下面的链接回顾:
通过上面这篇文章,我们可以了解到主成分分析的功能其实完全可以被因子分析涵盖,但是在某些不需要具体解释主成分/公因子现实含义(主成分分析的缺陷)的地方,主成分分析还是有速战速决优势的,因此常被用作某些分析的中间步骤,例如下面这两个用途:
主成分评价:在进行包含多个指标的综合评价时,客观且全面是对综合评价结果的必然要求。可惜的是,多个评价指标之间往往存在信息重叠的情况,此外还会存在量纲(计量单位)不统一、权重很难确定等问题。主成分分析方法能够解决以上问题。
主成分回归:在线性回归模型中,自变量之间的多重共线性是个让人头痛的问题,它的存在导致拟合出来的线性回归模型结果不尽如人意。这时可以考虑将主成分分析得到的主成分代入到回归模型进行拟合。主成分既保留原来自变量的绝大部分信息,互相之间还是相互对立的,此时再用最小二乘法拟合回归模型,得到的回归系数就能解决“估计不稳定”的缺陷。
主成分分析常被用于经济领域和管理领域的国家经济实力,公司运营情况的综合排名。近来也被广泛应用于体育科学研究领域的综合素质评价。下面我们用一个具体的案例来介绍主成分分析在体育科学研究领域的应用。
案例分析
开始案例分析之前,先讲个段子。近两年,NBA的当红炸子鸡---史蒂芬库里的表现异常优秀,连续获得两次常规赛MVP,其所在的金州勇士队连续三年进入总决赛并获得两次总冠军,与此同时,库里瘦弱的身材让这些成绩显得不可思议。据他的队友爆料,库里的核心力量非常出色,卧推成绩在勇士队是数一数二的。核心力量指的是肩关节以下、髋关节以上,包括骨盆在内区域内的29块肌肉的综合指标。因为是综合指标,难以量化评价,所以库里的选秀报告现在就成了笑话。
体育研究中,主成分分析其实已经开始被广泛应用。例如,通过测试一批年轻体校学员在百米,跳远,跳高,400米,1500米,标枪等10个项目的成绩,将这些成绩进行主成分分析,得到互不相关的几个主成分(公因子),这些主成分可以根据与原项目的相关性,被解释为运动员的耐力,爆发力,弹跳等完全不同的身体核心能力,然后根据这些年轻学员在这些主成分上的得分,专项教练就可以判断这些学员是否适合成为职业运动员以及选择哪个项目作为它们的主项。要知道,刘翔最开始是练跳高的,如果他没有改练跨栏……
省体工大队打算从一批青年运动员里选择优秀苗子。现在对这批运动员做10个项目的测试,这10个都是田径项目。34个运动员的10个项目的成绩如下。用主成分分析方法对这些运动员的核心能力进行说明。
(例题数据文件已经上传到QQ群中,需要的朋友可以前往下载)
分析步骤
选择菜单【分析】-【降维】-【因子分析】,打开对话框。将所有运动项目成绩变量选入到变量栏中。将10个变量选入变量。点击得分按钮,选中保存为变量和显示因子得分系数矩阵,计算因子得分的方法为回归。其它设置保持系统默认状态即可。点击确定,输出主成分分析的结果。
需要注意:SPSS软件没有为主成分分析设计独立的分析模块,而是将其整合进入因子分析的模块当中。以上设置输出的结果大部分为主成分分析结果,也有少数因子分析结果,下面的结果解释中,我们只介绍主成分分析结果。
结果解释
1、总方差解释表格,显示提取的主成分的总方差解释量。原来有10的变量(10个运动项目),通过矩阵的正交变换,产生10个新变量,每个新变量能够解释原始数据的方差比例不同,但是所有10个新变量的解释比例之和为100%。在这里,只提取特征值大于1的前两个新变量作为主成分,解释了71.034%的总方差,这个方差贡献率不是很高。当然分析者也可以根据自己的判断点击【提取】按钮选择任意数量新变量作为主成分。
2、成分载荷矩阵;该矩阵可以说明各主成分在各原始变量上的载荷。
根据载荷矩阵表,可以得到各主成分的表达式:
主成分表达式中的相关系数绝对值越大,表示该主成分对原始变量的代表性越大。可以看出,第一主成分与撑杆跳高的相关系数最大;第二主成分与1500米的相关系数最大。从这个表格中会有一个有趣的发现,第一主成分可以解释为与跳跃和爆发力有关的能力,例如,跳远,跳高,铅球,撑杆跳的相关系数为正,第二主成分可以解释为与跑动和耐力有关的能力,例如四百米,1500米等运动的相关系数较大。当然这个解释与因子分析相比是模糊的,这也是主成分分析的缺陷所在,例如,100米也需要强大的爆发力。
有个知识点需要和大家解释一下。严格意义上说,不能直接用主成分载荷矩阵写成主成分表达式,而应该用主成分载荷除以主成分特征值的平方根(主成分系数)作为上面式子的回归系数,这是矩阵变换的过程。但是一般情况下,直接用载荷替代系数也是可以的,这不改变主成分的结构和性质。
3、主成分得分矩阵;通过得分矩阵就可以计算每个个案在2个主成分上的得分。这里的得分数值等于上面的载荷数值除以主成分的特征根(-0.160 = -0.804/5.204)。
得分系数矩阵展示的是每个项目在新变量中的得分系数,可以得出下面的得分函数:
只需将每个运动员在各个项目上的运动成绩进行标准化,然后代入到得分函数中,就可以得到每个运动员在每个新变量上的得分。每个运动员的在每个项目上的得分将会自动计算被保存在新生成的变量FAC1_1和FAC2_1中,如下图所示:
通过每个运动员在两个主成分上的得分,可以大概知道自己是否适合称为职业运动员,以及适合那些类型的项目,是需要速度和爆发力的运动,还是需要耐力的运动。还能分别对这两个得分变量进行降序排列,看看年轻运动员在这两个主成分上的得分排名。
4、主成分综合得分排名;
如果想同时考虑两个主成分得分,对运动员进行综合能力的排名,那么就需要考虑两个主成分的权重,计算综合得分的公式为:
通过上面的加权计算公式就可以得到每个运动员在这两个主成分上的综合得分,然后再根据综合得分就能获得综合排名。这个方法在很多中文文献中都有应用。
但是综合得分的加权计算方法还存在很多质疑,认为其没有实际的现实意义,有很多统计工作者发表过文献做过完整的推倒性论证。编者认为这个还是需要根据实际情况来看待这种综合得分排名的方法,如果这种方法能够很好的解释现实问题(例如上市公司综合排名),那么这种方法还是具有实用意义的。如果不能很好解释现实问题,引起巨大的争议,那么就应该另寻它法。这也是统计数据分析的魅力所在:没有最好,只有更好。
所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。生活统计学不仅有各种数据分析方法,更有容易被大家忽视的生活常识。
温馨提示: