当前位置:
文档之家› 《商务统计分析》课件—07分类数据分析
《商务统计分析》课件—07分类数据分析
• 对于两个分类变量的分析,主要是判断两个分类变量是否独立。 比如学生存在逃课与否的情况,学生又有性别之分。是否逃课和 性别就是两个分类变量。我们关心两者是否有关联,是不是某个 性别的学生逃课更加频繁。
• 独立性检验(test of independence):对于两个分类变量的分
析,主要是判断两个分类变量是否有关联。
0.05的临界值为7.815,所以未落入拒绝域。同样可以得到p=0.532>α=0.05,
所以不能拒绝 H0,即观察频数和期望频数之间的差异可能归因于随机因素,
顾客在四种主食之间是没有明显偏好的。
• 注意拟合优度检验除了可以处理期望频数相同的数据,同样可以处理 期望频数不同的分类数据。
7
7.2 两个分类变量的独立性检验
第7章 分类数据分析
1
第7 章 分类数据分析——目录
7.1 一个分类变量的拟合优度检验 7.2 两个分类变量的独立性检验 7.3 卡方检验中需要注意的地方
2
7.1 一个分类变量的拟合优度检验
• 当只研究一个分类变量时,利用 检验来判断各类别的 观察频数与期望频数是否一致。比如,各年度的汽车 销售量是否符合均匀分布、不同高校的就业率是否有 显著差异。
8
7.2 两个分类变量的独立性检验
➢ 独立性检验的原假设和备择假设的一般形式如下:
H0:变量A和变量B独立 H1:变量A和变量B不独立
➢ 独立性检验的检验统计量如下:
2
( f0 fe )2 . fe
式中,f0表示观察频数,fe表示期望频数,该统计量服 从自由度为 (r-1)(c-1)的 分布,r为行数,c为列数。
女性
合计
甜葡萄酒
51
39
90
半干葡萄酒
56
21
77
干葡萄酒
25
8
33
合计
132
68
200
解:首先提出如下假设:
H0 :饮酒者性别与葡萄酒偏好独立 H1:饮酒者性别与葡萄酒偏好不独立
11
7.2 两个分类变量的独立性检验
SPSS输出的结果如表7-5和表7-6所示:
表7-5 饮酒者性别与葡萄酒偏好的频数分布 饮酒者性别 * 葡萄酒偏好 交叉制表
表7-1 120人样本中最爱点的主食
最爱点的主食
频数
杂粮
24
面条
29
米饭
32
馒头
35
合计
120
解:首先提出如下假设:
H0 :观察频数与期望频数一致(无明显偏好) H1:观察频数与期望频数不一致(有明显偏好)
6
7.1 一个分类变量的拟合优度检验
SPSS输出的结果如表7-2和表7-3所示:
表7-2 顾客主食偏好的拟合优度检验(一) 人数
表7-3 顾客主食偏好的拟合优度检验(二) 检验统计量
杂粮 面条 米饭 馒头 总数
观察数 24 29 32 35 120
期望数 30.0 30.0 30.0 30.0
剩余残差 -6.0 -1.0 2.0 5.0
卡方
df 渐近显著性
主食偏好
2.200 3
.532
表7-3给出的检验统计量
,查 临界值表确定自由度为3、显著水平α为
验统计量的样本观察值得出的原假设可被拒绝的最小显著性水平,
若p值≤α,则在显著性水平α下拒绝H0;若p值>α,则在显著性水平 α下不能拒绝H0。
5
7.1 一个分类变量的拟合优度检验
例:B连锁餐厅老板想要了解顾客在餐厅就餐时最喜欢的主食,对120位顾 客进行调查,结果如表7-1所示。试评价顾客在这四种主食中选择时是否 存在明显偏好。
表7-6 饮酒者性别与葡萄酒偏好的 χ2独立性检验 卡方检验
Pearson 卡方 似然比 有效案例中的 N
值 6.447 6.461 200
渐进 Sig.
df (双侧)
2
.040
2
.040
表7-6给出的检验统计量2 6.447,查 临界值表确定自由度为2、显著水平α 为0.05的临界值为5.991,所以落入拒绝域。同样可以得到p=0.04<α=0.05, 所以拒绝H0,即饮酒者性别与葡萄酒偏好不独立,男性和女性饮酒者的葡萄 酒偏好不同。
葡萄酒偏好 甜葡萄酒 半干葡萄酒 干葡萄酒
合计
计数 期望的计数
计数 期望的计数
计数 期望的计数
计数 期望的计数
饮酒者6
25
8
21.8 11.2
56
21
50.8 26.2
132 68
132.0 68.0
合计 90 90.0 33 33.0 77 77.0 200 200.0
1
90
92
2
10
8
表7-8 准则2说明表
12
7.3 卡方检验中需要注意的地方
卡方检验中需要注意的地方有:
• 单元数量为2,各单元的期望频率需大于5, 如表7-7;
• 单元数量大于2,期望频率小于5的单元比例 不超过20%,如表7-8。
特殊情况该如何处理:
• 扩大样本量; • 将期望频数小于5的类别合并。
表7-7 准则1说明表
单元
fo
fe
2
( f0 fe )2 . fe
式中,f0表示观察频数,fe表示期望频数,该统计量服 从自由度为k-1的 分布,k为类别的个数。
4
7.1 一个分类变量的拟合优度检验
拟合优度检验的具体步骤为:
• 第一步:提出检验假设,建立检验标准; • 第二步:计算检验统计量 ;
• 第三步:用p值法进行判断,做出决策。假设检验问题的p值是由检
9
7.2 两个分类变量的独立性检验
独立性检验的具体步骤为:
• 第一步:提出检验假设,建立检验标准; • 第二步:计算期望频数和检验统计量 ;
• 第三步:用p值法进行判断,做出决策。若p值≤α,则在显著性水平 α下拒绝H0;若p值>α,则在显著性水平α下接受H0。
10
7.2 两个分类变量的独立性检验
例:葡萄酒行业协会想要了解饮酒者性别与葡萄酒偏好是否有关联,对 200名饮酒者进行调研,其中男性132人、女性68人,共三种葡萄酒类型: 甜葡萄酒、半干葡萄酒、干葡萄酒,样本资料见表7-4。试评价饮酒者性 别与葡萄酒偏好是否独立。
表7-4 男性与女性饮酒者葡萄酒偏好的样本资料
葡萄酒偏好
饮酒者性别
男性
• 拟合优度检验(goodness of fit test):当只研究
一个分类变量时,利用 检验来判断各类别的观察频数 与期望频数是否一致。
3
7.1 一个分类变量的拟合优度检验
➢ 拟合优度检验的原假设和备择假设的一般形式如下:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
➢ 拟合优度检验的检验统计量如下: