基础准备
草堂君在前面介绍了二项总体比率(成功率、有效率、治愈率、转化率等)比较的统计基础以及如何使用Minitab软件进行单样本比率比较,大家可以点击下方文章链接回顾:
下面草堂君继续介绍如何使用Minitab进行两样本比率比较,包括直接使用二项分布计算精确检验概率和使用Z分布计算近似检验概率两种方法。
两样本比率比较
比率比较是生活和工作中非常常用的数据分析方法。例如,比较某个国家的食道癌死亡率与世界平均死亡率是否存在显著差异;比较两个网店的流量转化率是否存在显著差异等。第一个例子中,某种疾病的世界平均死亡率通常为已知信息,是常数,因此采用单样本比率假设检验进行比率比较;而后一个例子是两个网店的流量转化率比较,应该采用两样本比率假设检验进行比率比较。
在单样本比率比较中,我们是通过从一个总体中抽取随机样本,然后通过该样本比较样本来自的总体比率是否与某个比率常数(具体数值)存在显著性差异(点击文章链接回顾:实验分析技术:单样本比率比较;生物学家如何判断物种性别比例(比率))。以此类推,两样本比率比较是从两个总体中分别抽取随机样本,然后通过两个样本的信息比较两个总体比率是否存在显著性差异。
回顾上方二项总体比率比较的文章,当np>=5且nq>=5时,二项分布(二项比率分布)会近似于正态分布。因为样本比率会服从二项分布(二项比率分布),所以可以使用二项分布(二项比率分布)进行假设检验,以验证样本来自的总体比率是否等于某个比率常数(单样本比率检验);或验证两个样本来自的两个总体比率是否相等(两样本比率检验)。用一个具体的案例介绍如何使用二项分布(二项比率分布)和Z分布(标准正态分布)进行两样本比率的假设检验。
案例分析
现在有两枚硬币,想要比较两枚硬币的质量分布是否相同。如果两枚硬币的质量分布相似,那么抛掷时,两枚硬币正面朝上的概率相同。现在将两枚硬币各抛掷8次,其中第一枚硬币A正面朝上的次数为4次,第二枚硬币B正面朝上的次数达到6次,试问这两枚硬币正面朝上的概率,在0.05的显著性水平下是否存在显著性差异?下面分别使用手算和Minitab计算精确检验和正态近似检验的检验概率,比较两者是否相同。
分析思路
如果两枚硬币的质量分布相同,那么抛掷它们获得正面的概率不会存在显著性差异。硬币A抛掷8次,正面4次;硬币B抛掷8次,正面6次,看起来貌似硬币B正面朝上的概率更大,事实真是如此吗?综合两枚硬币的抛掷实验结果,总共抛掷16次,出现10次正面,我们可以通过对10次正面进行重新分配,计算极端分配的概率,从而判断两枚硬币正面朝上的概率是否存在显著性差异。
精确检验的手算过程
正态近似的手算过程
Minitab的计算过程
1、点击菜单【统计】-【基本统计量】-【双比率】。如下左图所示,因为没有原始数据,所以选择汇总数据;然后如下右图所示,样本1填写第一枚硬币的投掷结果;样本2填写第二枚硬币的投掷结果。
2、点击【选项】按钮,出现下方图片对话框,置信度和假设差分保持默认值即可;备择假设中,可以根据需要选择单侧或是双侧检验,草堂君在这里会输出三种备择假设的结果,以对比上方手算结果;检验方法中选择正态近似的比率差异的抽样分布标准差,如上面手算中阐述的,可以分为合并计算比率,也可以通过两个样本比率估计总比率。
3、点击确定,输出结果。
通过上面的操作,可以分别输出估计比率的三种假设检验结果和合并估计比率的三种备择假设检验结果,结果如下所示:
1、当选择分别估计比率时,三种备择假设情况的结果如下。可以发现,下面三个结果与上方手算的结果完全相同。
2、当选择使用合并的比率估计值时,三种备择假设的结果如下。可以发现,下面三个结果与上方手算的结果也完全一致。
3、从上面结果可知。如果使用正态近似计算检验概率,需要注意总体比率的计算是通过合并计算还是通过两个样本比率计算,两者是由差异的。对于小样本,结果中会提示,使用正态近似得到的检验结果可能不精确,应该以Fisher精确检验的结果为准。Fisher精确检验的概率值计算是通过超几何分布计算的极端概率值,因此在小样本时,Fisher精确检验是更加保守和精确的。
总结一下
草堂君通过三篇文章,分别介绍了比率比较的理论基础,Minitab用于单样本比率比较和Minitab用于两样本比率比较。比率比较的难点在于,可以使用两种抽样分布进行假设检验和区间估计,分别是二项比率分布和正态近似(Z分布),当大样本时(np>=5且nq>=5),正态近似的结果与二项比率分布的结果接近,而小样本时(np<5且nq<5),正态近似的结果是不准确的,Minitab输出的结果种会进行提示。大家要在理解比率比较理论的基础上,灵活选择合适的检验方法,避免得到错误的分析结果。
平台的文章都是一文一例,所有例题的数据文件及Minitab软件都已上传到QQ群(群号:577312904),需要对照练习数据分析技术的朋友可以前往下载。
温馨提示:
数据分析私人定制,一对一辅导,添加草堂君微信(possitive2)咨询!
生活统计学QQ群:577312904或134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。
生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。
数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!