当前位置:文档之家› 多总体比例、列联表和拟合优度的卡方检验

多总体比例、列联表和拟合优度的卡方检验

Not significant
23
80
125
200
Honda Accord 123 52 175
e11
=

Row 1 Total Total Sample Size


Column
1
Total


312 500
125

(0.624)125

78
Total 312 188 500
i行 之 和 j列 之 和
2 7.89
12
1.期望频数eij
这是一个单侧检验,Why?
上侧面积 = a
2
0

2 a
Reject H0
13
3.查表求P值
2 7.89
Degrees of Freedom
.10
.05
.025
.01
.005
1
2.706
3.841
5.024
6.635
7.879
2
4.605
5.991
其中x是由观测数据构成的向量或矩阵,y是数据向量(当x为矩阵时,y无 效)。correct是逻辑变量,表明是否用于连续修正,TRUE(缺省值)表 示修正,FALSE表示不修正。P是原假设落在小区间的理论概率,缺省值 表示均匀分布,rescale.p是逻辑变量,选择FALSE(缺省值)时,要求输
m
入的p满足 pi 1,选择TRUE时,并不要求这一点,程序将重新计算p i 1
CVij
a2
pi (1 pi ) pj(1 pj)
ni
nj
其中:

2 a
为显著性水平a,自由度k-1的卡方分布统计量值
pi pj 分别为总体i和总体j的样本比例
ni n j 分别为总体i和总体j的样本容量
21
5.多重比较( Marascuilo procedure )
通过查卡方分布表或者软件运算,我们可以求出自由度为2,a=0.05的卡方 分布统计量值:
两者之差
ij eij )
-9.0 -4.8 13.8 9.0 4.8 -13.8
ij eij )2
81.00 23.04 190.44 81.00 23.04 190.44
ij eij)2 / eij
1.04 0.18 1.74 1.72 0.31 2.89 2 7.89
.10 4.605
.05 5.991
.025 7.378
.01 9.210
2 7.89
可见,P值一定介于0.025到0.01之间。
.005 10.597
R软件计算的P值:
Pchisq(7.89,2,lower.Tail=FALSE) [1] 0.01935122
15
3.查表求P值
Reject H0 if p-value < .05 or c0.052 > 5.991
18
5.多重比较( Marascuilo procedure )
5%的显著性水平下,三种汽车品牌的顾客忠诚 度确实存在差异 具体的差异在哪些品牌?
(1)计算三个总体的样本比例
Chevrolet Impala p1 69 /125 .5520
Ford Fusion
p2 120 / 200 .6000
2
1.理解期望频数与实际频数的差异,这是本章的核心内容 2.由此构建卡方分布的统计量 3.定性变量之间的关系
3
本章目录 01 多个总体比例的统计推断 02 使用列联表进行独立性检验 03 拟合优度检验
4
多个总体比例的统计推断
H0: p1=p2
Ha: p1 p2
正态分布(第1章)
H0: p1=p2 = =pk k 3
56
80
125
200
Honda Accord 123 52 175
Total 312 188 500
样本频数观测值fij与期望频数eij有多大差异?
H0成立时重复购买的期望频数eij
全部车主
Chevrolet Impala
Ford Fusion
Honda Accord
Total
重复购买意愿 Yes
78
11
2. 检验统计量
重复购买意 愿
车主
Yes
Impala
Yes
Fusion
Yes
Accord
No
Impala
No
Fusion
No
Accord
Total
观测频数
ij )
69 120 123 56 80 52 500
期望频数
eij )
78.0 124.8 109.2 47.0 75.2 65.8 500
| p1 p3 || .5520 .7029 | .1509
Ford Fusion 与 Honda Accord
| p2 p3 || .6000 .7029 | .1029
20
5.多重比较( Marascuilo procedure )
(3)计算每一组样本比例偏差的临界值(Critical Value)
7.378
9.210
10.597
3
6.251
7.
12.838
4
7.779
9.488
11.143
13.277
14.860
5
9.236
11.070
12.832
15.086
16.750
6
10.645
12.592
14.449
16.812
18.548
7
12.017
14.067
16.013
125
175
Ford Fusion and Honda Accord
CV23
5.991
.6000(1.6000) .7029(1.7029) .1198
200
175
22
5.多重比较( Marascuilo procedure )
Pairwise Comparison Chevrolet Impala vs.Ford Fusion Chevrolet Impala vs.Honda Accord
Total 312 188 500
i行 之 和 j列 之 和
eij 全 部 样 本 容 量 i 1, 2; j 1, 2,3
9
2. 检验统计量
重复购买的样本频数观测值fij
重复购买意愿
Yes No Total
全部车主
Chevrolet Impala
Ford Fusion
69
120
124.8
109.2
312
No
47
75.2
65.8
188
Total
125
200
175
500
10
2. 检验统计量
2 (ij eij )2
ij
eij
其中: fij = i行j列位置的频数观测值
eij = i行j列位置的期望频数
当每个期望频数都不低于5时,统计量近似地服从自由 度为 k – 1的卡方分布,k为总体(类别)的个数
eij 全 部 样 本 容 量
i 1, 2; j 1, 2,3
8
1.期望频数eij
H0成立时重复购买的期望频数eij
重复购买意愿
Yes No Total
全部车主
Chevrolet Impala
Ford Fusion
78
124.8
47
75.2
125
200
Honda Accord 109.2 65.8 175
Ford Fusion vs.Honda Accord
| pi pj |
.0480 .1509 .1029
存在显著差异的判断标准:
CVij
.1380 .1379 .1198
| pi pj | CVij
Significant if
| pi pj | CVij
Not significant Significant
第3章 多总体比例、列联表和 拟合优度的卡方检验
故事背后的统计
某酒厂生产三种不同口味的啤酒: 清淡啤酒、普通啤酒和黑色啤酒。 为了解消费者偏好,厂家抽样调 查了200名消费者对这三种啤酒 的评价。调查同时也搜集到了消 费者的性别信息。我们现在关心 的问题是:不同性别的消费者对 啤酒口味的偏好是否不同?
值。simulate.p.value是逻辑变量(缺省值为FALSE),为TRUE时,将用
仿真的方法计算P-值,B表示仿真的次数。
17
4. R实现
x<-matrix(c(69,56,120,80,123,52),2,3) #生成2行3列的矩阵x chisq.test(x)
Person′s Chi-squared test data:x X-squared=7.891,df=2,p-value=0.01934
18.475
20.278
8
13.362
15.507
17.535
20.090
21.955
9
14.684
16.919
19.023
21.666
23.589
10
15.987
18.307
20.483
23.209
25.188
11
17.275
19.675
21.920
24.725
26.757
12
相关主题