当前位置:
文档之家› 高级社会统计学第九部分 列联表
高级社会统计学第九部分 列联表
2 临界值 0 .05 ( 4) 9.49
86.22 9.49 以认为子辈职业与父辈职业是有关系的
第九部分 列联表
四、列联强度 (一)变量间的相关 2 上节谈到通过统计量 值检验列联表变量间是否 存在关系.在确定了存在关系之后,进一步要问的问题将 是关系的程度如何.相关程度的度量方法根据变量层次 不同而有所不同.具体来说,由于列联表研究对象仅是定 类变量,因此列联表中的频次分布情况,不仅是检验是否 存在关系的依据,同时也是度量变量间关系强弱的依据. 相关程度越高,说明变量间的关系越密切.
四、列联表的检验 (一)列联表检验的原假设
H 0 : pij pi p j , 其中i 1,2, c; j 1,2, r 由于pi和p j 是总体的边缘分布, 一般都是未知的,因此可以用 样本中的边缘频率分布作为它的点估计值 : ni ˆ pi Pi , i 1,2, c n n j ˆ p j P j , j 1,2, r n ˆ、 P ˆ 表示样本的频率分布 P i j
第九部分 列联表
二、列联表中变量的分布
(二)边缘分布 同理, 关于x的边缘分布是把联合分布中的概率按列加总起来, 就得到关于x的 边缘分布 : p ( x x1 ) p11 p12 p1r p1 p ( x x2 ) p21 p22 p2 r p2 p ( x xc ) pc1 pc 2 pcr pc
四、列联强度
例, 对下表求系数和Q系数
未感冒 患感冒
解 :
新药 50 0
安慰药 28 22
50 22 0.53 (50 28)(0 22)(50 0)( 28 22)
22 50 0 Q 1 22 50 0 由于我们更关注新药对预防感冒是否有效,因此从 列联表上的频次看, Q系数应更有效.
父辈职业 子辈职业 脑 力 体 力 农 业 边缘和
脑力 20 10 5 35
体力 5 30 5 40
农业 5 10 50 65
边缘和 30 50 60 n=140
解 : H 0 : 子辈职业与父辈职业无关, H1 : 子辈职业与父辈职业有关. 根据H 0以及样本的边缘和, 计算期望频次的列联表
父辈 子辈 脑 力 体 力 农 业 35×30/140=7.5 35×50/140=12.5 35×60/140=7.5 40×30/140=8.57 40×50/140=14.29 40×60/140=8.5 7 65×30/140=13.93 65×50/140=2321 65×63/140=13.93 脑力 体力 农业
xc N cr N r
第九部分 列联表
二、列联表中变量的分布 例,求上述上网目的表频次的联合分布,求概率的联合分布,边 缘分布和条件分布.
解 : 为了求得分布, 必须求出总数N N ij以及边缘和N i N ij , i 1,2,, c
i 1 j 1 j 1 c r r
y1 N 21 N 2 y1 N c1 N c y2 N 22 N 2 y2 Nc2 N c y1 N11 N1 y2 N12 N1 yr N1r N1 yr N 2r N 2
yr N cr N c
(三)条件分布 类似地, 如果控制y值, 也可研究x的条件分布( 行比例) :
y y1 : x p( x) y y2 : x p( x) y yr : x p( x)
x1 N12 N 2 x1 N12 N r x2 N 22 N 2 x2 N 2r N r x1 N11 N 1 x2 N 21 N 1
xc N r1 N 1 xc Nc2 N 2
一、什么是列联表
y
y1 y2 y3
x
x1 N11 N12 N1r
x2 N 21 N 22 N 2r
x3 N 31 N 32 N 3r
xc N c1 Nc2 N cr
其中N ij是x xi , y y j时所具有的频次
一、什么是列联表 例如,对某单位网民进行了抽样调查,根据不同 年龄档和上网类型进行了如下的统计分类 :
p11 p21 p12 p22 p1r p2 r p1 p2
xc pc1 pc 2 pcr pc
i
p1 p2 pr 1
第九部分 列联表
二、列联表中变量的分布
(二)边缘分布 如果对联合分布进行简化研究, 只研究其中某一变量的分布, 而不管另一 变量的取值, 这样就得到边缘分布.边缘分布共有两个 : 关于y的边缘分布 : 把联合分布中的概率按行加总起来, 就得到关于y的 边缘分布 : p ( y y1 ) p11 p21 pc1 p1 p ( y y2 ) p12 p22 pc 2 p2 p ( y yr ) p1r p2 r pcr pr
四、列联表的检验 2 (二)列联表检验的统计量——
首先根据列联表的原假设H 0 : pij pi p j , 用样本的边缘和求出 ni ˆ pi Pi , i 1,2, c n n j ˆ p j P j , j 1,2, r n 然后求出列联表中合格的期望频次 n 可以想象, 如果总体中H 0为真的话, 那么实测频次与期望频次 相差不多的可能性较大.反之差距很大的话, H 0 很可能不反映 真实情况. E ij npij npi p j ni n j
讨论的,同时也都是把关系强度的取值范围定义为 1,1 ad bc 1, 系数 (a b)(c d )( a c)(b d )
0, 当两变量相互独立 1, b, c同时为零或a, d同时为零 1, 一般情况 2, Q系数(较适合配对样本) ad bc Q , 对于Q系数, 只要a, b, c, d中有一个是0, 则 Q 1 ad bc
四、列联表的检验 2 (二)列联表检验的统计量——
计算 2值
2 2 2 2 ( 20 7 . 5 ) ( 5 8 . 57 ) ( 5 13 . 93 ) ( 50 27 . 86 ) 2 7.5 8.57 13.93 27.86 86.22
自由度k (r 1)(c 1) (3 1)(3 1) 4
显然,如果选择不同上网目的的比例,对于三代人都是一样的话,那就 表示变量“上网目的”和变量”代际”之间是没有关系的,这种情 况,称变量之间是相互独立的。
第九部分 列联表
三、列联表中变量的相互独立性 可以证明的是,如果列联表的二变量相互独立 的话,联合分布与边缘分布存在如下关系式:
pij pi p j
高级社会统计学
闵学勤 minxueqin@
第九部分 列联表(定类-定类变量)
一、什么是列联表
设定类变量x可以分作c类, 定类变量y可分为r类 : 定类变量x : x1 , x2 , , xc 定类变量y : y1 , y2 , , yr 为了研究y之分类是否与x之分类有关, 我们可以将数据先按x分类, 然后分别统计当x x1 , x x2 , , x xc 情况下y的分类.这样就得到了 数据按两个定类变量进行交叉分类的频次分配表.即二维的列联表, 简称列联表(crosstab table)
四、列联强度
一般情况下, 如何选择系数和Q系数取决于研究对象.当自变量 的不同取值都会影响因变量时, 则应选用系数.例如研究性别对 报考文理科之间的关系, 除非男生全报考理科, 否则两者对选科 都有影响, 适合选用系数.类似实验性研究, 配对研究, 选用Q系数
(三)r c列联表 对于r c列联表, 有两类讨论方法, 一类是以 2值为基础来讨论 变量的相关性; 另一类是以减少误差比例( PRE )为准则来讨论 变量间的相关性,由于后者PRE 的准则可以把各种层次的变量 的相关统一起来进行研究,因此更具有普遍意义.
四、列联表的检验 2 (二)列联表检验的统计量——
上述讨论可以用以下的统计量来表示 :
2
i 1 j 1
c
r
( nij E ij ) 2 E ij
~ 2 ( r 1)( c 1)
例,某乡镇研究职业代际流动。调查了共140人, 其结果如下:问父辈职业与子辈职业是否有关?
青年 中年 老年 边缘和 看新闻 20/55=0.36 26/47=0.55 10/14=0.71 56/116=0.48 交 友 23/55= 0.42 15/47=0.32 3/14=0.22 41/116=0.35 网 游 12/55=0.22 6/47=0.13 1/14=0.07 19/116=0.17 边缘和 55/116=0.47 47/116=0.41 14/116=0.12 1
频次联合分布表
青年 看新闻 20 交 友 23 网 游 12 边缘和( N i ) 55
中年 26 15 6 47
老年 10 3 1 14
边缘和( N j )
56 41 19 N=116
概率联合分布表
看新闻 交 友 网 游
y p( y )
老年 20/116 23/116 12/116
中年 26/116 15/116 6/116
当集合对中的最后一项表示的是概率pij , 则其列 列联表就是联合概率分布表 . c r N ij 其关系为pij , N N ij N i 1 j 1
二、列联表 联合概率分布表
p
i 1 j 1
c
r
ij
1
y
y1 y2 y3
j
x
x1
x2
x3 p31 p32 p3 r p3
青年 10/116 3/116 1/116