第4章 二维列联表
不完备列联表期望频数的ML估计除上述迭代法外, 还可以通过对数线性模型法,借助统计软件进行 估计。
不完备列联表的检验
对拟独立的不完备列联表的ML估计后,需要进行 拟独立性检验;同时,考虑不完备子集的拟独立 性也是研究完备表的一种方法。
原假设应为:
H0 : 存在i (i 1, , r)和 j ( j 1, , c),使得mij i j
对独立性的期望频数定义公式可以通过取对数将 乘法转换为加法,即:
ln mij ln i ln j
这就是对数线性模型(第7章)。
不完备列联表
当某些nij=0时,称这些格为空格;有空格的列联 表称为不完备的列联表。
对于一般完备列联表讨论独立性,对不完备列联 表讨论拟独立性。
属性A方向的同分对,即行等级或顺序相同的 r
数据对,记为TA
;TA
C2 ni
属性B方向的同分对,即i1 列等级或顺序相同的 c
数据对,记为TB
; TB
C2 n j
属性A与B的同分对,即i行1 顺序与列顺序相等的
数据对,记为TAB ;TAB r
c
C2 nij
相合性的度量与检验
在四格表中,用来判断属性A与B关联情况 (相合性检验)的统计量U、χ2均包含一个 共同因子:
n11n22-n12n21>0时,四格表正相合; n11n22-n12n21<0时,四格表负相合;
有序属性数据相合关系的度量:
Pearson的矩相关系数 Spearman的等级相关系数 Kendall的τ相关系数——使用最多
对不完备列联表中元素的估计,可以在假定完全 随机泊松分布的基础上,得到似然方程组:
ii ni , i 1, , r j j n j , j 1, , c
在保持边缘和不变的前提下,解出期望频数。 有的情况下期望频数的极大似然估计难以直接得
到,需要通过迭代算法求解。 迭代算法就是在保持边缘和不变时,寻找 i j放入
检验统计量为:
2
(nij mˆ ij )2 ~ 2 ((r 1)(c 1) m)
(i, j )S
mˆ ij
G2
2
(i, j )S
nij
ln
mˆ ij nij
二维列联表的独立性检验
二维列联表独立性检验实质上是带参数的 分类数据的检验问题。
二维列联表的独立性检验
【例4.1】为了解男性和女性对三种啤酒的偏 好差异分别调查了1353个男性和636个女性, 结果见表:
问男性与女性对啤酒的偏好是否有显著差异。
二维列联表的独立性检验
通过计算检验统计量的值得到:
mˆ i(j2)
mˆ i(j1)
mˆ i(j1)
n j
{i:(i, j )S}
迭代估计法
4、将第二次迭代得到的值作为初始估计,重复前面的 步骤2和步骤3;
5、直至相邻两次迭代得到的估计仅有比较小的差别, 最后得到的迭代估计就是期望频数的极大似然估计。
以上步骤可以在表格上完成,每次估计所有非空 格的迭代值,直到精度符合要求即可。
因此有, i1 i1
Cn2
n(n 1) 2
G
H
TA
TB
TAB
相合性的度量与检验
从τ系数的计算公式可知,在属性A与B正相 合时,G 比较大而H 比较小;反之在A与B 负相合时, G 比较小而H 比较大。因此, (G-H)的方向决定了相合性的方向。
在存在同分对的情况下,需要对相合性的 度量进行修正。
其中,mij为期望频数(证明见P96)。 主要用来描述完全随机泊松分布变量的抽样方式
下,属性A与B的相互独立问题,即:
nij ~ P(mij ) P(i j )
完全随机泊松分布情况下,属性A与B独立性检验 与带参数的分类数据检验完全相同。
独立性的期望频数定义
公式 mij i 可j 以理解为: 在A和B相互独立时, i 和 j是与 mij 有关的两 个量。 由 nij ~ P(mij )可知,E(nij ) mij i j ,因此,可 以认为 i 和 j分别是属性A和B的效应。
当从左上角到右下角的对角线元素外的其余元素 都等于0时,为完全正相合;
当从右上角到左下角的对角线元素外的其余元素 都等于0时,为完全负相合;
Gamma系数
除肯德尔的τ外,相合性度量还有伽马系数 Gamma: G H
GH
伽马的取值在[-1,1]之间,越接近1说明越趋向正 相合,越接近-1说明为负相关。
很明显,原假设不成立,即不是偶然一致。
独立性的期望频数定义
对于二维表,独立性的定义除基本的联合概率等 于边缘概率乘积的方法外,还可以用期望频数。
若存在 i (i 1, , r)和 j ( j 1, ,, c)使任意的 i 和 j 都有:mij i j ,则称属性A和B相互独立。
独立性与齐性
如果对任意的i和j,都有:pi j pi p j,则称 属性A与B独立。
如果A与B独立,则对任意j都与i无关
p1 j p1
prj p1 j pr p1
prj pr
p j
如果A与B独立,则对任意i都与j无关
pi1 p1
pic pi1 pc p1
相合性的度量与检验
τ相关系数基本思路:
认为二维列联表均可定义为有序表; 对有序变量的赋值可以确定由小到大的顺序关
系,但不影响相合关系的度量;最简单的赋值 方法就是令 x i,i 1, , r
y j, j 1, , c
在二维表中,
数据对
x y
一致性的检验
一般认为,计算的Kappa小于0时,属于偶然一致, 即期望一致率大于观测一致率;
只有在Kappa大于0时,才进行一致性检验;
在计算kappa系数的方差基础上,可以构造检验统
计量:
U ~ N (0,1) D( )
经计算,例4.3的kappa=0.361,kappa的标准误 =0.0844,故U=4.277
相合性的度量与检验
相合性用来描述属性变量之间的相关情况,包括 关联的方向和强度。
二维列联表根据属性的类型分为三类:
双向无序列联表 一向无序、一向有序列联表 双向有序列联表
实际上即使无序也可以定义为有序,或假设有序。 这样,相合关系有两类:
正相合:属性A大的个体,属性B也往往较大; 负相合:属性A大的个体,属性B往往较小;
i j
,
如数据对11
有n11对, cr
有nrc
对
相合性的度量与检验
在不考虑同分对的情况下,τ系数以数据对中同 序对与异序对的差为分子,以样本容量n可能 形成的总数据对数为分母;即
ns nd Cn2
2 n(n 1) (ns
nd )
其中:在二维表的任意两个单元格之间,若:
2 90.685,p P( 2 (2) 90.685) 0 G2 90.065,p P( 2 (2) 90.065) 0
说明男性与女性对啤酒的偏好有显著差异 可见,独立性问题的讨论仅仅是说明属性A
与B有无关系,或是否相互独立,但不能给 出关系的方向与强弱。
果见表:
问:他们的检验结果是否一致?
一致性的度量
在二维列联表的相合性度量中,当除从左上角到 右下角的对角线元素外其余都为0时,两种属性完 全正相合。
在方表中,一致性可以理解为:从左上角到右下 角的对角线元素表示结果一致,其值越大,表示 一致性越高。因此,q1 可以反映一致性的大小, 称为观测一致率:
令 z G H,于是有:
U z N (0,1)
(z)
2
U2
z2 2 (z)
2 (1)
由于其标准误计算较为复杂,通常使用统
计软件进行计算。
方表的一致性检验
二维表中当r=c时,形成方表。 方表有一致性检验问题。 【例4.3】两位检验员分别对72件产品进行检验的结
GH
[n(n 1) / 2 TA][n(n 1) / 2 TB ]
相合性的度量与检验
τ系数的取值范围为[-1,1]之间
当H=0,且TA=TB=TAB时,完全正相合;
当r=c时,τ=1;
当G=0,且TA=TB=TAB时,完全负相合;
当r=c时, τ=-1;
当TA=TB=TAB时,说明每一行、每一列只有一个非 零值;
不完备列联表的非空格中,也就是满足以上方程 组成立。
迭代估计法
迭代算法的步骤:
1、令非空格上的期望频数估计的初始值为1,
mˆ i(j0) 1, (i, j) S
2、调整该估计值,令:
mˆ i(j1)
mˆ i(j0)
mˆ i(j0)
ni
{ j:(i, j )S}
3、继续调整以上估计值,令:
q1 (n11 n22 nrr ) / n
但这一度量值存在平均值为正的缺陷,由Cohen 于1960年提出了Kappa系数。
一致性度量
一致性的检验
Kappa 系数中的π0就是q1 , πe是π0的期望或均值,
称为期望一致率,即两次试验结果由于偶然机会所 造成的一致率; 当方表中左上到右下对角线以外元素均为0时, Kappa 系数达到最大值1,即完全一致;当完全不 一致时, Kappa 等于0; Kappa 系数的取值在[0,1]之间; Kappa <0.4时,认为一致性较差; Kappa >0.8时,认为一致性较好; 0.4>Kappa <0.8时,认为一致性一般。