专栏名称: 生活统计学
平台致力于将统计学基础与生活实例联系起来,带大家走进生活统计学的世界。介绍统计软件SPSS/SAS/Minitab的生活统计运用技巧。
目录
相关文章推荐
新北方  ·  2300000000+! ·  22 小时前  
新北方  ·  一家人为喝酒提前吃药,结果进抢救室 ·  3 天前  
新北方  ·  2025春节档同期电影票房创新高 ·  4 天前  
51好读  ›  专栏  ›  生活统计学

实验分析技术:重复测量和重复实验的区别,用Minitab说明两者混用可能出现的后果

生活统计学  · 公众号  ·  · 2019-11-17 23:58

正文

实验设计及其数据分析蕴含了严谨的分析思维,如果你经常遇事手足无措,那么学习一下,必然获益良多。----------草堂君寄
基础准备
草堂君前面给大家介绍了关于2k析因设计及其数据分析的内容,大家可以点击下方文章链接进行回顾:
今天草堂君给大家介绍一个在实验设计中非常重要的知识点和难点,那就是重复测量和重复实验的区别,以及如何采用正确的分析这两类数据,避免得到误导性或错误的结论。
 
重复测量和重复实验
在介绍重复测量和重复实验的区别前,我们用一个具体的例子引入。某半导体硅片工厂的精益工程师设计了一个2^4析因设计,希望通过这个实验设计得到最佳工艺条件,尽量减少硅片上附着氧化物厚度。


工程师根据生产经验,考虑四个主要的影响因素温度(A)、时间(B)、压强(C)和气流(D),每个因素(因子)设置两个实验水平(高水平和低水平),那么总共有16种实验条件组合:


如果在每个实验组合上进行一次实验,每次实验使用相同的制备炉,每次实验制备炉内放置4片相同的硅片,制备结束后,测量每片硅片表面的氧化物厚度,得到四个氧化物厚度数据,这四个数据就称为4次重复测量数据。如果每个实验组合安排四次实验,总共安排64次实验,每次实验,相同的制备炉中只放置1片硅片,那么每个实验组合的四次实验同样可以得到四个硅片的氧化物厚度数据,这四个厚度数据称为重复实验数据。
 
很容易想到,重复测量的四个数据对比重复实验的四个数据,前者的方差或者标准差(数据波动)是小于后者的,这是因为重复测量的数据是在同一个实验中完成的,数据波动只包含了同个实验内的变异信息,称为实验内变异;而重复实验的数据,是在不同次实验中获得的,数据波动反应的是实验间的差异。
 
通过上面的描述,大家判断实验数据是重复测量数据还是重复实验数据,可以根据这些数据是一次实验获得的还是相同条件但不同次实验获得的来区分。


误用的后果
大家很容易将重复测量数据和重复实验数据相互误用,这可能会导致分析结果的错误,这是因为方差分析中,判断一种效应是否显著,使用的是F统计量,如下所示:


如果将重复测量数据错误用成重复实验数据,那么随机误差均方差就等于实验内误差,也就是说随机误差均方差被低估了,F值变大,有可能会造成有些原本不显著的效应变成显著,得到错误的结论。


案例分析
继续沿用上方的案例,某半导体硅片工厂的精益工程师设计了一个2^4析因设计,希望通过这个实验设计得到最佳工艺条件,尽量减少硅片上附着氧化物厚度。他进行的实验是重复测量实验,也就是在一个炉子中放置4片硅片,数据应该整理成下面的形式:


如果是分析者错误的将重复测量数据当作重复实验数据,那么数据就变成下面的形式,总共进行64次实验,每次实验后面有一个数据,如下图所示(只截取部分数据):


我们将上述数据导入minitab软件中,可以得到下面两个文件,如下图所示,是重复测量数据的存储形式,事先计算出四个重复测量数据的均值和标准差;
(可前往qq群:577312904和134373751下载案例数据)


下图是重复实验数据,重复实验数据不需要事先计算平均值和标准差。这是因为重复实验的误差可以被当作随机误差,而重复测量的误差是实验内误差比随机误差小,不能当作随机误差,可以通过平均值去除。
(可前往qq群:577312904和134373751下载案例数据)


分析思路
对于重复测量数据,可以通过重复测量方差分析进行分析,但是本文主要介绍重复测量数据和重复实验数据的差异,以及如果将重复测量数据误用成重复实验数据,将做成错误的结论,所以本文对于重复测量数据,我们首先做平均值,然后采用前面介绍过的单次重复2k析因分析方法进行分析。
 
分析步骤-重复测量
1、打开重复测量数据(事先计算了平均值的数据),选择菜单【统计】-【DOE】-【因子】-【分析因子设计】,在跳出的对话框中,将四次重复测量的平均值选入响应框中。


点击【项】按钮,在分析效应的所选项里面将所有效应都选中,代表考虑所有效应,包括4个主效应、6个二阶交互项、4个三阶交互项和1个四阶交互项,总共15个效应。点击【图形】按钮,将效应图中的Pareto和正态概率图选中。
2、点击【确定】,输出结果。


结果解释-重复测量
1、方差分析结果。如下图所示,左图是方差分析结果,右图是效应显著性检验结果,所有的F值、t值和p值都是*号,表示没有分析结果,这是因为将四个重复测量的平均值作为响应,就相当于单次重复的2k析因分析了,所以是不能得到全模型方差分析结果的(这部分内容可以回顾:实验分析技术:单次重复的2k析因设计及其数据分析基础)。


2、效应正态概率图。虽然无法得到方差分析结果,然后对效应的显著性做出判断,但是可以通过效应的正态概率图进行判断,如下图所示,效应A、B、C、AB和AC效应是显著的,其它的效应不显著(左下角注释,通过Lenth法判断效应显著性,如果想了解这个判断过程,可以联系草堂君微信possitive2),正态概率图的作用机制可以回顾文章:实验分析技术:Minitab的正态概率图用于单次重复的2k析因分析 。


3、选择菜单【统计】-【DOE】-【因子】-【分析因子设计】,如下方左图所示,将正态概率图中有显著性的效应留下构建模型,点击确定,输出结果如下方右图所示,方差分析结果显示,留下的效应都是显著的,并且误差均方为17.61。


4、以上是重复测量方差分析的结果,接下来我们用重复实验数据进行分析,对比这两种数据的分析结果差异,让大家对误用重复测量和重复实验数据导致的结果有直接的了解。


分析步骤-重复实验
打开重复实验数据,选择菜单【统计】-【DOE】-【因子】-【分析因子设计】,将氧化物厚度选为响应;点击【图形】,按钮,将正态概率图选中,点击确定输出结果。


结果解释-重复实验
从下方左图方差分析结果可知,有显著性的效应数大大多于重复测量数据的结果,这是因为重复实验数据将重复测量数据中的实验内数据变异当作随机误差,只有6.1,远远小于上方重复测量数据分析中的17.61,造成有显著性的效应增多。下方右图是效应的正态概率图,可以了解到,有显著性的效应有9个,而方法重复测量有显著性的效应只有5个。


总结一下
重复测量和重复实验是有本质区别的两种实验方法,如果将两种实验的数据混用处理,会导致错误的结论。将重复测量数据误用为重复实验数据,分析的随机误差会偏小,导致有显著性的效应增多,浪费很多进一步分析的资源;反之,则会增大随机误差,有显著性的效应减少,使分析者忽略某些重要的效应。


公众号的文章都是一文一例,所有例题的数据文件及minitab软件也都已上传到QQ群(群号:





请到「今天看啥」查看全文