当前位置:文档之家› 贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

第9章 分类数据分析
一、思考题
1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2
根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。

可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3 各组的期望值计算表
所以222
2
(2017)(4033)(7058)9.821173358
χ---=
+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得
20.01(4)13.277χ=。

由于22
0.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与
厂家生产是独立的。

3.说明计算2
χ统计量的步骤。

答:计算2
χ统计量的步骤:
(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2
)(e o f f -除以e f ;
(4)将步骤(3)的结果加总,即得:2
2
()o e e
f f f χ-=∑。

4.简述ϕ系数、c 系数、V 系数的各自特点。

答:(1
)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为:ϕ,式中,∑-=e
e o
f f f 2
2)(χ;n 为列联表中的总频数,也即样本量。

说ϕ系数适合2×2列联表,是因为对于2×2列联表中的数据,计算出的ϕ系数可以控制在0~1这个范围。

(2)列联相关系数又称列联系数,简称c 系数,主要用于大于2×2列联表的情况。

c 系数的计算公式为:
n
c +=
22χχ当列联表中的两个变量相互独立时,系数c =0,但它不可能大于1。

c 系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。

(3
)克莱默提出了V 系数。

V 系数的计算公式为:
V =
当两个变量相互独立时,V =0;当两个变量完全相关时,V =1。

所以V 的取值在0~1之间。

如果列联表中有一维为2,即min[(R -1),(C -1)]=1,则V 值就等于
ϕ值。

5.构造下列维数的列联表,并给出2
χ检验的自由度。

a .2行5列
b .4行6列
c .3行4列答:i 行j 列联表,如表9-4所示。

项目单位1
单位2
…单位j
态度1
x 11x 12

x 1j
态度
而2χ检验的自由度=(行数-1)(列数-1),所以
a.当i=2,j=5时,表9-4即为2行5列的列联表,其2χ检验的自由度=(2-1)×(5-1)=4;
b.当i=4,j=6时,表9-4即为4行6列的列联表,其2χ检验的自由度=(4-1)×(6-1)=15;
c.当i=3,j=4时,表9-4即为3行4列的列联表,其2χ检验的自由度=(3-1)×(4-1)=6。

二、练习题
1.欲研究不同收入群体对某种特定商品是否有相同的购买习惯,市场研究人员调查了四个不同收入组的消费者共527人,购买习惯分为:经常购买,不购买,有时购买。

调查结果如表9-4所示。

表9-4 调查结果
项目低收入组偏低收入组偏高收入组高收入组
经常购买不购买有时购买25
69
36
40
51
26
47
74
19
46
57
37
要求:
(1)提出假设;(2)计算2χ值;(3)以α=0.1的显著性水平进行检验。

解:(1)提出假设:0H :1234ππππ===(即不同收入群体对某种特定商品的购买习惯相同),1H :1234ππππ,,,不完全相等(即不同收入群体对某种特定商品的购买
习惯不完全相同)。

(2)计算得各组的期望值,如表9-5所示(表中括号内的数值为期望值)。

表9-5 各组的期望值计算表
项目低收入组偏低收入组偏高收入组高收入组总计经常购买不购买有时购买25(39)69(62)36(29)40(35)51(56)26(26)47(42)74(67)19(31)46(42)57(67)37(31)158251118总计
130
117
140
140
527
表中各项的期望值的计算方法为:
1111130158
39527n n E n ⨯⨯=
==g g 2112117158
35527n n E n ⨯⨯=
==g g 3113140158
42527n n E n ⨯⨯=
==g g 4114140158
42527n n E n ⨯⨯=
==g g 1221130251
62527n n E n ⨯⨯=
==g g 2222117251
56527n n E n ⨯⨯=
==g g 3223140251
67527
n n E n ⨯⨯=
==g g
4224140251
67527n n E n ⨯⨯=
==g g 1331130118
29527n n E n ⨯⨯=
==g g 2332117118
26527n n E n ⨯⨯=
==g g 3333140118
31527n n E n ⨯⨯=
==g g 4334140118
31527
n n E n ⨯⨯=
==g g 所以222
2
(2539)(6962)(3731)17.67396231
χ---=
+++=…。

(3)调查结果是3行4列的列联表,其自由度=(3-1)×(4-1)=6,当α=0.1
时,20.1(6)10.64χ=,由第(2)问计算出的2
χ值为17.67>10.64=2
0.1(6)χ,故拒绝原假
设,即不同收入群体对某种特定商品的购买习惯不完全相同。

2.从总体中随机抽取了n =200的样本,调查后按不同属性归类,得到如下结果:
1n =28,2n =56,3n =48,4n =36,5n =32
依据经验数据,各类别在总体中的比例分别为:
1π=0.1,2π=0.2,3π=0.3,4π=0.2,5π=0.2
以α=0.1的显著性水平进行检验,说明现在的情况与经验数据相比是否发生了变化(用P 值)。

解:提出假设:H 0:现在情况与经验数据相比没有发生变化,H 1:现在情况与经验数据相比发生了变化。

由已知条件可得2
χ值为:。

相关主题