当前位置：文档之家› 高级社会统计学第九部分列联表

高级社会统计学第九部分列联表

2 临界值 0 .05 ( 4) 9.49
86.22 9.49 以认为子辈职业与父辈职业是有关系的
第九部分列联表
四、列联强度 (一)变量间的相关 2 上节谈到通过统计量值检验列联表变量间是否存在关系.在确定了存在关系之后,进一步要问的问题将是关系的程度如何.相关程度的度量方法根据变量层次不同而有所不同.具体来说,由于列联表研究对象仅是定类变量,因此列联表中的频次分布情况,不仅是检验是否存在关系的依据,同时也是度量变量间关系强弱的依据. 相关程度越高,说明变量间的关系越密切.
四、列联表的检验（一）列联表检验的原假设
H 0 : pij pi p j , 其中i 1,2, c; j 1,2, r 由于pi和p j 是总体的边缘分布, 一般都是未知的,因此可以用样本中的边缘频率分布作为它的点估计值 : ni ˆ pi Pi , i 1,2, c n n j ˆ p j P j , j 1,2, r n ˆ、 P ˆ 表示样本的频率分布 P i j
第九部分列联表
二、列联表中变量的分布
(二)边缘分布同理, 关于x的边缘分布是把联合分布中的概率按列加总起来, 就得到关于x的边缘分布 : p ( x x1 ) p11 p12 p1r p1 p ( x x2 ) p21 p22 p2 r p2 p ( x xc ) pc1 pc 2 pcr pc
四、列联强度
例, 对下表求系数和Q系数
未感冒患感冒
解 :
新药 50 0
安慰药 28 22
50 22 0.53 (50 28)(0 22)(50 0)( 28 22)
22 50 0 Q 1 22 50 0 由于我们更关注新药对预防感冒是否有效,因此从列联表上的频次看, Q系数应更有效.
父辈职业子辈职业脑力体力农业边缘和
脑力 20 10 5 35
体力 5 30 5 40
农业 5 10 50 65
边缘和 30 50 60 n=140
解 : H 0 : 子辈职业与父辈职业无关, H1 : 子辈职业与父辈职业有关. 根据H 0以及样本的边缘和, 计算期望频次的列联表
父辈子辈脑力体力农业 35×30/140=7.5 35×50/140=12.5 35×60/140=7.5 40×30/140=8.57 40×50/140=14.29 40×60/140=8.5 7 65×30/140=13.93 65×50/140=2321 65×63/140=13.93 脑力体力农业

xc N cr N r
第九部分列联表
二、列联表中变量的分布例,求上述上网目的表频次的联合分布,求概率的联合分布,边缘分布和条件分布.
解 : 为了求得分布, 必须求出总数N N ij以及边缘和N i N ij , i 1,2,, c
i 1 j 1 j 1 c r r
y1 N 21 N 2 y1 N c1 N c y2 N 22 N 2 y2 Nc2 N c y1 N11 N1 y2 N12 N1 yr N1r N1 yr N 2r N 2

yr N cr N c
(三)条件分布类似地, 如果控制y值, 也可研究x的条件分布（行比例） :
y y1 : x p( x) y y2 : x p( x) y yr : x p( x)
x1 N12 N 2 x1 N12 N r x2 N 22 N 2 x2 N 2r N r x1 N11 N 1 x2 N 21 N 1

xc N r1 N 1 xc Nc2 N 2
一、什么是列联表
y
y1 y2 y3
x
x1 N11 N12 N1r
x2 N 21 N 22 N 2r
x3 N 31 N 32 N 3r

xc N c1 Nc2 N cr
其中N ij是x xi , y y j时所具有的频次
一、什么是列联表例如，对某单位网民进行了抽样调查，根据不同年龄档和上网类型进行了如下的统计分类：

p11 p21 p12 p22 p1r p2 r p1 p2

xc pc1 pc 2 pcr pc

i
p1 p2 pr 1
第九部分列联表
二、列联表中变量的分布
(二)边缘分布如果对联合分布进行简化研究, 只研究其中某一变量的分布, 而不管另一变量的取值, 这样就得到边缘分布.边缘分布共有两个 : 关于y的边缘分布 : 把联合分布中的概率按行加总起来, 就得到关于y的边缘分布 : p ( y y1 ) p11 p21 pc1 p1 p ( y y2 ) p12 p22 pc 2 p2 p ( y yr ) p1r p2 r pcr pr
四、列联表的检验 2 （二）列联表检验的统计量——
首先根据列联表的原假设H 0 : pij pi p j , 用样本的边缘和求出 ni ˆ pi Pi , i 1,2, c n n j ˆ p j P j , j 1,2, r n 然后求出列联表中合格的期望频次 n 可以想象, 如果总体中H 0为真的话, 那么实测频次与期望频次相差不多的可能性较大.反之差距很大的话, H 0 很可能不反映真实情况. E ij npij npi p j ni n j
讨论的,同时也都是把关系强度的取值范围定义为 1,1 ad bc 1, 系数 (a b)(c d )( a c)(b d )
0, 当两变量相互独立 1, b, c同时为零或a, d同时为零 1, 一般情况 2, Q系数(较适合配对样本) ad bc Q , 对于Q系数, 只要a, b, c, d中有一个是0, 则 Q 1 ad bc
四、列联表的检验 2 （二）列联表检验的统计量——
计算 2值
2 2 2 2 ( 20 7 . 5 ) ( 5 8 . 57 ) ( 5 13 . 93 ) ( 50 27 . 86 ) 2 7.5 8.57 13.93 27.86 86.22
自由度k (r 1)(c 1) (3 1)(3 1) 4
显然,如果选择不同上网目的的比例,对于三代人都是一样的话,那就表示变量“上网目的”和变量”代际”之间是没有关系的，这种情况，称变量之间是相互独立的。
第九部分列联表
三、列联表中变量的相互独立性可以证明的是，如果列联表的二变量相互独立的话，联合分布与边缘分布存在如下关系式：
pij pi p j
高级社会统计学
闵学勤 minxueqin@
第九部分列联表(定类-定类变量)
一、什么是列联表
设定类变量x可以分作c类, 定类变量y可分为r类 : 定类变量x : x1 , x2 , , xc 定类变量y : y1 , y2 , , yr 为了研究y之分类是否与x之分类有关, 我们可以将数据先按x分类, 然后分别统计当x x1 , x x2 , , x xc 情况下y的分类.这样就得到了数据按两个定类变量进行交叉分类的频次分配表.即二维的列联表, 简称列联表(crosstab table)
四、列联强度
一般情况下, 如何选择系数和Q系数取决于研究对象.当自变量的不同取值都会影响因变量时, 则应选用系数.例如研究性别对报考文理科之间的关系, 除非男生全报考理科, 否则两者对选科都有影响, 适合选用系数.类似实验性研究, 配对研究, 选用Q系数
(三)r c列联表对于r c列联表, 有两类讨论方法, 一类是以 2值为基础来讨论变量的相关性; 另一类是以减少误差比例( PRE )为准则来讨论变量间的相关性,由于后者PRE 的准则可以把各种层次的变量的相关统一起来进行研究,因此更具有普遍意义.
四、列联表的检验 2 （二）列联表检验的统计量——
上述讨论可以用以下的统计量来表示 :
2
i 1 j 1
c
r
( nij E ij ) 2 E ij
~ 2 ( r 1)( c 1)
例，某乡镇研究职业代际流动。调查了共140人，其结果如下：问父辈职业与子辈职业是否有关？
青年中年老年边缘和看新闻 20/55=0.36 26/47=0.55 10/14=0.71 56/116=0.48 交友 23/55= 0.42 15/47=0.32 3/14=0.22 41/116=0.35 网游 12/55=0.22 6/47=0.13 1/14=0.07 19/116=0.17 边缘和 55/116=0.47 47/116=0.41 14/116=0.12 1
频次联合分布表
青年看新闻 20 交友 23 网游 12 边缘和( N i ) 55
中年 26 15 6 47
老年 10 3 1 14
边缘和( N j )
56 41 19 N=116
概率联合分布表
看新闻交友网游
y p( y )
老年 20/116 23/116 12/116
中年 26/116 15/116 6/116
当集合对中的最后一项表示的是概率pij , 则其列列联表就是联合概率分布表 . c r N ij 其关系为pij , N N ij N i 1 j 1
二、列联表联合概率分布表
p
i 1 j 1
c
r
ij
1
y
y1 y2 y3
j
x
x1
x2
x3 p31 p32 p3 r p3
青年 10/116 3/116 1/116

e商务文档

高级社会统计学第九部分列联表

相关文档推荐：

e商务文档

高级社会统计学第九部分 列联表

相关文档推荐：

高级社会统计学第九部分列联表