基础准备
前面介绍了聚类分析的基本分析逻辑以其常用的几种类型:
下面我们将逐篇介绍如何使用SPSS软件进行层级聚类分析、K-均值聚类分析、两步聚类分析和决策树分析。
层次聚类原理
层次聚类法的运算原理都是基于事物(个案)之间的距离,它的运算过程可以总结成下面两个步骤:
从以上层次聚类分析的运算过程可知:层次聚类可以对个案(事物)进行聚类。因为层次聚类提供的距离测量方法非常丰富,所以能够用于计算的个案(事物)的指标数据可以是连续型数据,也可以是分类型数据。它的缺点也非常明显,那就是计算量很大,当需要聚类的个案(事物)数量很大时,层次聚类的运算速度没有优势。
在以上聚类过程中,还涉及到类别起点的选择,可以思考一下,当两个个案(事物)被并为一类后,下一次计算距离时,该类别的起点坐标如何确定?以不同的类别起点计算类别之间的距离,会得到不同的距离结果。根据类别距离的不同确定方式,层次聚类法可以分为以下几种类型,如下图所示:
-
组间联接
:用两个类别间各个事物(个案)两两之间距离的平均值来表示两个类别之间的距离,这是SPSS默认的方法,也是最为稳健的聚类方法。
-
组内联接
:除了考虑上面组间联接的距离之外,还需要综合考虑类别内部在合并之前的类别距离。也就是充分考虑所有数据点之间的距离关系。
-
最短距离法
:也称为最近邻元素聚类,用两个类别中各个事物(个案)之间最短的那个距离来表示两个类别之间的距离。
-
最长距离法
:也称为最远邻元素聚类,用两个类别中各个事物(个案)之间最长的那个距离来表示两个类别之间的距离。
-
重心法
:也称为质心聚类,用两个类别重心之间的距离来表示两个类别之间的距离。重心就是类别中所有事物(个案)指标数据的平均值。
-
中位数聚类
:也称为中间距离聚类。类与类之间的距离既不采用最近距离,也不采用最远距离,而是将两者的平均值作为两个类别的距离。
-
离差平方和法
:也称为瓦尔德(Wald)法。该聚类方法是使各类别中的离差平方和较小,而不同类别之间的离差平方和较大,将两个类别合并后增加的离差平方和作为两类之间的距离。
案例分析
我们国家是一个自然地质灾害频发的国家。6月24日四川茂县叠溪镇新磨村突发山体垮塌,造成全村100余人被掩埋,截止6月25日14时,已经确认10人遇难,仍有93人失联。面对突发的自然灾害,正确的应急救灾程序尤为重要,这决定是否能够最大限度的减少伤亡,而应急物资的分类、储备和物流是重要组成部分。
应急物资的种类繁多,涉及到衣食住行的各个方面,各种物资的价格也不尽相同,库存条件、数量等都存在差别,这些问题都给应急物资管理带来困难。面对品种繁多的应急物资,对所有品种都给予相同程度的重视是不合理的,要达到有限资源的作用最大化,就必须对应急物资进行分类管理。在应急物资管理领域,物资的分类主要依据物资的性质进行定性分类,然后制定优先级,并没有定量的评定标准,不能很好的表明某类物资的重要性。因此有些学者提出基于聚类分析的应急物资储备分类方法。
首先选取20种常用应急物资:防护服、安全帽、止血绷带、担架、红外探测仪、生命探测仪、输液设备、输氧设备、急救药品、防疫药品、瓶装水、压缩食品、帐篷、棉衣、棉被、消毒杀菌药品、蓄电池、灭火器、探照灯、帆布。从以下四个一级指标对它们进行评价,每个一级指标下面还有3到4个二级指标,如下图所示:
通过问卷调查的形式,咨询专家和储备工作相关人员对以上各项指标进行打分,然后采用模糊评价的形式,得到以上20种物资的综合评价值。综合评价值的计算过程这里不做描述,有兴趣的朋友可以添加草堂君联系方式咨询。综合评价值输入SPSS如下图所示:
(例题数据文件已经上传到QQ群中,需要的朋友可以前往下载)
分析步骤
选择菜单【分析】-【分类】-【系统聚类】,在跳出的对话框中作如下操作。将物资成本、采购难易程度、物资储存寿命和物资仓储要求选为聚类变量;将应急物资选为个案标注依据。点击方法,聚类方法选择稳妥的组间联接,距离的测量公式选择平方欧式距离。因为四项综合评价指标采用的测量尺度都是一致的,所以不需要转换变量,直接输出结果。
结果解释
1、层次聚类步骤。第1列列出聚类步骤号,第2列和第3列出某一步骤哪些物资参与合并,例如,在第1步中,第9条记录(急救药品)和第11条记录(瓶装水)首先被合并在一起。第4列列出某一步骤的聚类系数,该数值表示合并的两个类别之间的距离大小。第5列和第6列表示合并后的类别将会在第几步再次出现,数值0代表该记录是第一次出现。例如,从第1步可以看出,该步骤中参与合并的第9条记录(急救药品)将会出现在第5步,而第5步的9代表的是第一步中9和11合并后的新类别。
2、谱系图;谱系图显示了上方聚类步骤的综合情况。我们以距离20为切点,将20种物资分类3大类。然后根据每类物资的特点对它们进行描述。
3、类别特点描述及对待措施。
-
第一类为高物资成本、高储存要求的物资。尤其对仓储条件的要求很严,例如,生命探测仪对于仓库的存储容量和温湿度都要求很高,必须要重点管理,与此同时,该类物资的采购难度和物资储存寿命较低。综上所述,对于该类物资的管理重点在于提高仓库储存水平。
-
第二类为高物资成本、低仓储要求的物资。该类物资的特点是物资成本相对较高(低于第一类物资的物资成本),但对仓储条件的要求不高。例如,蓄电池的采购成本相对较高,但对储存条件的要求不高,只需保持仓库合理的温湿度,防止受潮即可。对于此类应急物资在储备管理方面应侧重于降低物资存储量的管理,避免高库存,进行中度管理即可。
-
第三类为低物资成本、易采购物资。例如,瓶装水的物资成本低,市场供应充足,生产厂商较多,在灾害发生时即使储备不充足,也容易在市场上快速购买获得。同时,该类物资的储存寿命较长,对仓储条件的要求不高,在储备管理方面进行一般管理即可。
所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。
生活统计学不仅有各种数据分析方法,更有容易被大家忽视的生活常识。
温馨提示: