当前位置：文档之家› 《商务统计分析》课件—07分类数据分析

《商务统计分析》课件—07分类数据分析

• 对于两个分类变量的分析，主要是判断两个分类变量是否独立。比如学生存在逃课与否的情况，学生又有性别之分。是否逃课和性别就是两个分类变量。我们关心两者是否有关联，是不是某个性别的学生逃课更加频繁。
• 独立性检验（test of independence）：对于两个分类变量的分
析，主要是判断两个分类变量是否有关联。
0.05的临界值为7.815，所以未落入拒绝域。同样可以得到p=0.532＞α=0.05，
所以不能拒绝 H0，即观察频数和期望频数之间的差异可能归因于随机因素，
顾客在四种主食之间是没有明显偏好的。
• 注意拟合优度检验除了可以处理期望频数相同的数据，同样可以处理期望频数不同的分类数据。
7
7.2 两个分类变量的独立性检验
第7章分类数据分析
1
第7 章分类数据分析——目录
7.1 一个分类变量的拟合优度检验 7.2 两个分类变量的独立性检验 7.3 卡方检验中需要注意的地方
2
7.1 一个分类变量的拟合优度检验
• 当只研究一个分类变量时，利用检验来判断各类别的观察频数与期望频数是否一致。比如，各年度的汽车销售量是否符合均匀分布、不同高校的就业率是否有显著差异。
8
7.2 两个分类变量的独立性检验
➢ 独立性检验的原假设和备择假设的一般形式如下：
H0：变量A和变量B独立 H1：变量A和变量B不独立
➢ 独立性检验的检验统计量如下：
2
( f0 fe )2 . fe
式中，f0表示观察频数，fe表示期望频数，该统计量服从自由度为 (r-1)(c-1)的分布，r为行数，c为列数。
女性
合计
甜葡萄酒
51
39
90
半干葡萄酒
56
21
77
干葡萄酒
25
8
33
合计
132
68
200
解：首先提出如下假设：
H0 ：饮酒者性别与葡萄酒偏好独立 H1：饮酒者性别与葡萄酒偏好不独立
11
7.2 两个分类变量的独立性检验
SPSS输出的结果如表7-5和表7-6所示：
表7-5 饮酒者性别与葡萄酒偏好的频数分布饮酒者性别 * 葡萄酒偏好交叉制表
表7-1 120人样本中最爱点的主食
最爱点的主食
频数
杂粮
24
面条
29
米饭
32
馒头
35
合计
120
解：首先提出如下假设：
H0 ：观察频数与期望频数一致（无明显偏好） H1：观察频数与期望频数不一致（有明显偏好）
6
7.1 一个分类变量的拟合优度检验
SPSS输出的结果如表7-2和表7-3所示：
表7-2 顾客主食偏好的拟合优度检验（一）人数
表7-3 顾客主食偏好的拟合优度检验（二）检验统计量
杂粮面条米饭馒头总数
观察数 24 29 32 35 120
期望数 30.0 30.0 30.0 30.0
剩余残差 -6.0 -1.0 2.0 5.0
卡方
df 渐近显著性
主食偏好
2.200 3
.532
表7-3给出的检验统计量
，查临界值表确定自由度为3、显著水平α为
验统计量的样本观察值得出的原假设可被拒绝的最小显著性水平，
若p值≤α，则在显著性水平α下拒绝H0；若p值＞α，则在显著性水平 α下不能拒绝H0。
5
7.1 一个分类变量的拟合优度检验
例：B连锁餐厅老板想要了解顾客在餐厅就餐时最喜欢的主食，对120位顾客进行调查，结果如表7-1所示。试评价顾客在这四种主食中选择时是否存在明显偏好。
表7-6 饮酒者性别与葡萄酒偏好的 χ2独立性检验卡方检验
Pearson 卡方似然比有效案例中的 N
值 6.447 6.461 200
渐进 Sig.
df (双侧)
2
.040
2
.040
表7-6给出的检验统计量2 6.447，查临界值表确定自由度为2、显著水平α 为0.05的临界值为5.991，所以落入拒绝域。同样可以得到p=0.04＜α=0.05，所以拒绝H0，即饮酒者性别与葡萄酒偏好不独立，男性和女性饮酒者的葡萄酒偏好不同。
葡萄酒偏好甜葡萄酒半干葡萄酒干葡萄酒
合计
计数期望的计数
计数期望的计数
计数期望的计数
计数期望的计数
饮酒者6
25
8
21.8 11.2
56
21
50.8 26.2
132 68
132.0 68.0
合计 90 90.0 33 33.0 77 77.0 200 200.0
1
90
92
2
10
8
表7-8 准则2说明表
12
7.3 卡方检验中需要注意的地方
卡方检验中需要注意的地方有：
• 单元数量为2，各单元的期望频率需大于5，如表7-7；
• 单元数量大于2，期望频率小于5的单元比例不超过20%，如表7-8。
特殊情况该如何处理：
• 扩大样本量； • 将期望频数小于5的类别合并。
表7-7 准则1说明表
单元
fo
fe
2
( f0 fe )2 . fe
式中，f0表示观察频数，fe表示期望频数，该统计量服从自由度为k-1的分布，k为类别的个数。
4
7.1 一个分类变量的拟合优度检验
拟合优度检验的具体步骤为：
• 第一步：提出检验假设，建立检验标准； • 第二步：计算检验统计量；
• 第三步：用p值法进行判断，做出决策。假设检验问题的p值是由检
9
7.2 两个分类变量的独立性检验
独立性检验的具体步骤为：
• 第一步：提出检验假设，建立检验标准； • 第二步：计算期望频数和检验统计量；
• 第三步：用p值法进行判断，做出决策。若p值≤α，则在显著性水平 α下拒绝H0；若p值＞α，则在显著性水平α下接受H0。
10
7.2 两个分类变量的独立性检验
例：葡萄酒行业协会想要了解饮酒者性别与葡萄酒偏好是否有关联，对 200名饮酒者进行调研，其中男性132人、女性68人，共三种葡萄酒类型：甜葡萄酒、半干葡萄酒、干葡萄酒，样本资料见表7-4。试评价饮酒者性别与葡萄酒偏好是否独立。
表7-4 男性与女性饮酒者葡萄酒偏好的样本资料
葡萄酒偏好
饮酒者性别
男性
• 拟合优度检验（goodness of fit test）：当只研究
一个分类变量时，利用检验来判断各类别的观察频数与期望频数是否一致。
3
7.1 一个分类变量的拟合优度检验
➢ 拟合优度检验的原假设和备择假设的一般形式如下：
H0：观察频数与期望频数一致 H1：观察频数与期望频数不一致
➢ 拟合优度检验的检验统计量如下：

e商务文档

《商务统计分析》课件—07分类数据分析

相关文档推荐：