实验设计及其数据分析蕴含了严谨的分析思维,如果你经常遇事手足无措,那么学习一下,必然获益良多。----------草堂君寄
前面草堂君给大家介绍了2k析因设计的基本原理、运用场景,以及具体的2^2析因设计和2^3析因设计,大家可以点击下方文章链接回顾:
从前面的介绍可知,对于需要分析因素(因子)之间交互作用的析因设计的数据分析(方差分析),需要在每个实验上进行重复实验,获取重复实验数据,才能分析交互作用,否则会因为自由度不足,而无法得到分析结果。例如,某个化学产品在生成过程中,工程师发现产品中杂质的含量可能会受到反应压力和反应温度的影响。为了验证这个推测,工程师需要设计实验进行验证。工程师分别在反应压力和反应温度两个因素上分别取5个(25,30,35,40,45)和3个(100,125,150)实验水平,然后进行单次重复的全因子实验,如下表所示,每个实验组合单元格内只进行一次杂质统计。
草堂君在前面介绍过如何利用Tukey(1949a)法分析二因子单次重复析因设计的交互作用,大家可以点击下方文章链接回顾:
需要注意,Tukey(1949a)法只能用于二因子单次重复析因设计的交互作用数据分析,不适用于多因子析因设计的情况,这是有比较大局限的。本篇文章将介绍2k单次重复因子设计的交互作用分析方法,这里的2k指的是因子数大于3,每个因子只有两个水平的情况。
在2k析因设计中,虽然每个因子只有两个水平,但是随着因子数k的增大,k个因子的实验水平组合数也是极大的,如果在每个实验水平组合上进行多次实验,那么总实验次数将非常惊人,需要耗费非常多的人力和物力。例如,以上面的案例进行说明,如果反应温度和反应压力分别取两个水平(100度和125度,25Mpa和30Mpa),那么2^2析因设计只有4个水平组合;如果分别取3个水平,2^3析因设计有8个水平组合;2^5析因设计有32个水平组合。如果在每个实验水平组合上进行两次实验,总实验次数分别为4次,16次和64次,工作量非常大。除非资源非常充裕,否则在多个因子情况下的2^k析因设计,每个实验水平组合上只进行1次实验,也就是单次重复。
单次重复2k析因设计必然会带来比较大的问题,这需要分析者注意。1、采集的数据包含噪声,可能导致错误的结论。2、无法进行全模型分析,也就是无法同时分析所有的主效应和交互效应,下面我们具体来描述这两个问题。在每个处理组合上进行实验,获取实验结果,数据结果中必然会包括随机误差,如下图所示,真实的实验结果(真实的因子效应)会在上下两条线内波动。如果是下方左图的情况,两个因子水平比较接近,同时结果数据的数值波动区间较大,那么高因子水平结果和低因子水平结果对应的响应值(y值)可能非常接近,可能得出该因子对响应没有影响的结论,但是实际上两个因子水平对应的响应真实值之间是有显著性差异的,因子对响应有显著性影响。因此,在确定因子水平时,需要尽量拉大因子水平之间的距离,这样就能够比较好避免上述问题,如上方右图所示。
析因设计的全模型分析指的是分析结果中包含所有主效应和交互效应检验。例如,某工厂先提高生产线的产品合格率,考虑改进三个实验因子:时间、浓度和压力,每个实验因子设计两个水平,那么全模型分析结果中,会有3个主效应的检验结果(时间、浓度和压力)、3个二因子交互效应检验结果(时间*浓度、时间*压力、浓度*压力)和1个三因子交互效应检验结果(时间*浓度*压力)。单次重复2k析因设计因为自由度的原因,无法进行全模型分析,也就是不能同时得到3个主效应,3个二因子交互效应和1个三因子交互效应的检验结果。一般情况下,对于单次重复2k析因设计,会有针对性的放弃考虑某个或某些效应,才能得到其它效应的检验结果。前面提到了,单次重复2k析因设计,因为实验数据的自由度不足,无法进行全模型分析,只能放弃检验某些效应,而放弃不是随机放弃,分析者肯定希望放弃没有显著性的效应,保留有显著性的效应。很多人会说这个是个死局,不检验怎么知道各种效应有没有显著性呢?不知道显著性又怎么选择需要放弃的效应呢?统计学家根据经验总结出一个原理,效应稀疏原理(Sparsity Of Effect Principle):很多影响系统中,主效应和低阶的交互效应占据影响因变量(响应)的主要位置,而很多高阶交互效应对因变量(响应)的影响可以忽略不计。现实生活中,很多原理都是这个意思,比如二八法则,抓住主要矛盾等等。通过放弃高阶交互效应的检验,那么就能够空出自由度,进行其它效应的显著性检验。那么如何比较准确快速的筛选出不重要的高阶交互效应或者其它不显著的低阶交互效应和主效应呢?统计学家提出了通过正态概率图、半正态概率图、条件推断图等方法来帮助分析者比较准确快速的确定可以放弃检验的不重要效应。它们的核心思想都是一样的,既然是不重要的效应,那么它们对因变量(响应)的影响是很小且随机的,它们会基本服从正态分布;而对因变量(响应)有显著性影响的效应,它们对因变量(响应)的影响很大,不会服从由不重要效应组成的正态分布,从而可以识别出这些效应。在接下来的文章中,草堂君将会介绍如何利用Minitab软件,通过正态概率图、半正态概率图、条件推断图等方法进行不重要效应的筛选,进而对单次重复2k析因设计的实验数据进行分析,获得效应的检验结果。
公众号的文章都是一文一例,所有例题的数据文件及minitab软件也都已上传到QQ群(群号:577312904或134373751),需要对照练习数据分析技术的朋友可以前往下载。
温馨提示: