当前位置：文档之家› 多总体比例、列联表和拟合优度的卡方检验

多总体比例、列联表和拟合优度的卡方检验

Not significant
23
80
125
200
Honda Accord 123 52 175
e11
=

Row 1 Total Total Sample Size

Column
1
Total

312 500
125

(0.624)125

78
Total 312 188 500
i行之和 j列之和
2 7.89
12
1.期望频数eij
这是一个单侧检验，Why?
上侧面积 = a
2
0

2 a
Reject H0
13
3.查表求P值
2 7.89
Degrees of Freedom
.10
.05
.025
.01
.005
1
2.706
3.841
5.024
6.635
7.879
2
4.605
5.991
其中x是由观测数据构成的向量或矩阵，y是数据向量（当x为矩阵时，y无效）。correct是逻辑变量，表明是否用于连续修正，TRUE（缺省值）表示修正，FALSE表示不修正。P是原假设落在小区间的理论概率，缺省值表示均匀分布，rescale.p是逻辑变量，选择FALSE（缺省值）时，要求输
m
入的p满足 pi 1，选择TRUE时，并不要求这一点，程序将重新计算p i 1
CVij
a2
pi (1 pi ) pj(1 pj)
ni
nj
其中：

2 a
为显著性水平a，自由度k-1的卡方分布统计量值
pi pj 分别为总体i和总体j的样本比例
ni n j 分别为总体i和总体j的样本容量
21
5.多重比较（ Marascuilo procedure ）
通过查卡方分布表或者软件运算，我们可以求出自由度为2，a=0.05的卡方分布统计量值：
两者之差
ij eij )
-9.0 -4.8 13.8 9.0 4.8 -13.8
ij eij )2
81.00 23.04 190.44 81.00 23.04 190.44
ij eij)2 / eij
1.04 0.18 1.74 1.72 0.31 2.89 2 7.89
.10 4.605
.05 5.991
.025 7.378
.01 9.210
2 7.89
可见，P值一定介于0.025到0.01之间。
.005 10.597
R软件计算的P值：
Pchisq（7.89，2，lower.Tail=FALSE） [1] 0.01935122
15
3.查表求P值
Reject H0 if p-value < .05 or c0.052 > 5.991
18
5.多重比较（ Marascuilo procedure ）
5%的显著性水平下，三种汽车品牌的顾客忠诚度确实存在差异具体的差异在哪些品牌？
(1)计算三个总体的样本比例
Chevrolet Impala p1 69 /125 .5520
Ford Fusion
p2 120 / 200 .6000
2
1.理解期望频数与实际频数的差异，这是本章的核心内容 2.由此构建卡方分布的统计量 3.定性变量之间的关系
3
本章目录 01 多个总体比例的统计推断 02 使用列联表进行独立性检验 03 拟合优度检验
4
多个总体比例的统计推断
H0: p1=p2
Ha: p1 p2
正态分布（第1章）
H0: p1=p2 = =pk k 3
56
80
125
200
Honda Accord 123 52 175
Total 312 188 500
样本频数观测值fij与期望频数eij有多大差异？
H0成立时重复购买的期望频数eij
全部车主
Chevrolet Impala
Ford Fusion
Honda Accord
Total
重复购买意愿 Yes
78
11
2. 检验统计量
重复购买意愿
车主
Yes
Impala
Yes
Fusion
Yes
Accord
No
Impala
No
Fusion
No
Accord
Total
观测频数
ij )
69 120 123 56 80 52 500
期望频数
eij )
78.0 124.8 109.2 47.0 75.2 65.8 500
| p1 p3 || .5520 .7029 | .1509
Ford Fusion 与 Honda Accord
| p2 p3 || .6000 .7029 | .1029
20
5.多重比较（ Marascuilo procedure ）
(3)计算每一组样本比例偏差的临界值（Critical Value）
7.378
9.210
10.597
3
6.251
7.
12.838
4
7.779
9.488
11.143
13.277
14.860
5
9.236
11.070
12.832
15.086
16.750
6
10.645
12.592
14.449
16.812
18.548
7
12.017
14.067
16.013
125
175
Ford Fusion and Honda Accord
CV23
5.991
.6000(1.6000) .7029(1.7029) .1198
200
175
22
5.多重比较（ Marascuilo procedure ）
Pairwise Comparison Chevrolet Impala vs.Ford Fusion Chevrolet Impala vs.Honda Accord
Total 312 188 500
i行之和 j列之和
eij 全部样本容量 i 1, 2; j 1, 2,3
9
2. 检验统计量
重复购买的样本频数观测值fij
重复购买意愿
Yes No Total
全部车主
Chevrolet Impala
Ford Fusion
69
120
124.8
109.2
312
No
47
75.2
65.8
188
Total
125
200
175
500
10
2. 检验统计量
2 (ij eij )2
ij
eij
其中： fij = i行j列位置的频数观测值
eij = i行j列位置的期望频数
当每个期望频数都不低于5时，统计量近似地服从自由度为 k – 1的卡方分布，k为总体（类别）的个数
eij 全部样本容量
i 1, 2; j 1, 2,3
8
1.期望频数eij
H0成立时重复购买的期望频数eij
重复购买意愿
Yes No Total
全部车主
Chevrolet Impala
Ford Fusion
78
124.8
47
75.2
125
200
Honda Accord 109.2 65.8 175
Ford Fusion vs.Honda Accord
| pi pj |
.0480 .1509 .1029
存在显著差异的判断标准：
CVij
.1380 .1379 .1198
| pi pj | CVij
Significant if
| pi pj | CVij
Not significant Significant
第3章多总体比例、列联表和拟合优度的卡方检验
故事背后的统计
某酒厂生产三种不同口味的啤酒：清淡啤酒、普通啤酒和黑色啤酒。为了解消费者偏好，厂家抽样调查了200名消费者对这三种啤酒的评价。调查同时也搜集到了消费者的性别信息。我们现在关心的问题是：不同性别的消费者对啤酒口味的偏好是否不同？
值。simulate.p.value是逻辑变量（缺省值为FALSE），为TRUE时，将用
仿真的方法计算P-值，B表示仿真的次数。
17
4. R实现
x<-matrix(c(69,56,120,80,123,52),2,3) #生成2行3列的矩阵x chisq.test(x)
Person′s Chi-squared test data:x X-squared=7.891,df=2,p-value=0.01934
18.475
20.278
8
13.362
15.507
17.535
20.090
21.955
9
14.684
16.919
19.023
21.666
23.589
10
15.987
18.307
20.483
23.209
25.188
11
17.275
19.675
21.920
24.725
26.757
12

e商务文档

多总体比例、列联表和拟合优度的卡方检验

相关文档推荐：