当前位置:文档之家› 社会统计学 第四章 相关测量法与变量层次

社会统计学 第四章 相关测量法与变量层次


求下表G系数
工厂 A B C D
E
G
积极性等级 5 3 4 1.5
1.5
Ns Nd Ns Nd
产量等级 5 3 1 3
3
4-3 0.14 43
G系数是属于对称相关测量法。如果是非对称,即一个是 自变量,一个是因变量,则适宜于简化不对称关系的萨默 斯dy系数。
萨默斯dy系数
回归与相关
线性回归方程不仅具有简化资料的作用,而且可 以推广应用于预测或估计样本之外个案的数值。
回归系数(b)表示X对Y的影响有多少,指每增加一个单 位的X值时Y值的变化有多大。 B值是表示自变量对因变量的影响的大小与方向,它是不 对称关系的统计法。 回归方程不具有消减误差比例作用,一般在计算回归方 程时须进行相关系数测量。如果相关系数比较小,消减 误差比例太少,则不适合作线性回归方程。

图12-5(p.338)
社会统计学 卢淑华 北京大学出版社
计算公式
( x x )( y y ) n( xy ) ( x )( y ) 斜率 b ( x x ) n( x ) ( x )
2 2 2
y b( x ) 截距 a y bx n
E1的定义:
λ系数
E2的定义: 当已知y与x有关之后,如果再去预测y值,则可借 助x预测y。即用各类x条件下,y的条件分布中的 众值去预测y,可能性最大。 E2 = n —∑max(nij) 分析: 1)E2 = 0 (即∑max(nij) = n,即各类x条件下的 众值皆为最大值) 2)E2 = n (即∑max(nij) = 0,即各类x条件下的 众值皆为最小值)
肯德尔的tau系数
tau系数的基本逻辑是计算同序对数与异序对数之 差在全部的可能对数中所占的比例。公式如下:
Ns Nd tau - a 1 n(n 1) 2 tau - b Ns Nd N s N d Tx N s N d Ty
其中m是列联表中行数与列 数中的较小者。
求斯皮尔曼rho系数
参赛人 A B 2 2 0 0 C 4 3 1 1 D 3 4 -1 1 E 5 5 0 0 F 8 6 2 4 G 7 8 -1 1 H 6 7 -1 1 I 9 9 0 0 J 10 10 0 0
评判员1 1 评判员2 1 等级差 d d平方 0 0
6(8) 48 rs 1 1 1 0.95 2 2 10(10 1) 990 n(n 1)
My
nMy
(90 90) - 100 80 0.8 200 - 100 100
λ系数的缺点
Lambda相关测量法的特点是以众值作为预测的准则,不理会 众值以外的次数分布。因此,如果全部众值集中在条件次数 表的同一列或同一行中,则Lambda系数便会等于0.
南方
面食 米食 边缘次数 5 45 50
第四章
相关测量法与测量层次
1
相关测量的六种情况
两个定类变量 两个定序变量 两个定距变量 一个定类变量与定序变量 一个定类变量与定距变量 一个定序变量与定距变量
第一节 两个定类变量
Lambda 相关测量法
基本逻辑是计算以一个定类变量的值来预测另一个 定类变量的值时,如果以众值作为预测的准则,可 以减除多少误差。消减的误差在全部误差中所占的 比例愈大,就表示这两个变量的相关越强。 Lambda 相关测量法有两种形式。一种是对称形式 ,简写是λ系数,即不分自变量与因变量。另一种 是不对称形式,简写是λy系数,即要求一个是自变 量,一个是因变量。
其中X是自变量值, X 是自变量的均值,Y是因变 量值, Y 是因变量的均值,n是全部个案数目。
例1:计算回归方程
妇女 教育年期 劳动小时 XY 10 4 25
A
B C D E F G H I 总数
2
2 3 3 4 4 4 6 8 36
5
4 4 3 1 1 0 0 0 18
8
12 9 4 4 0 0 0 47
y
My
nMy
(28 41 7) - 50 26 0.52 100 - 50 50
λ系数与尤拉Q系数
爱好 篮球 跳绳 男 90 10 女 10 90
ad bc Q ad bc
m
y
90 90 - 10 10 8000 0.976 90 90 10 10 8200
2 m( N s N d ) tau - c n 2 (m 1)
斯皮尔曼rho系数
斯皮尔曼rho系数的特点是计算每个个案在两个变量上的 等级时,不仅要区别两者的高低差异,而且还要计算二者 差异的确切数值。
rs 1
n( n 2 1)
6 D 2
其中D表示每个个案在两列级序上的差异值,n表示全部 个案数目。D平方可以避免正负值抵消 rho系数是对称相关测量法,要求同分情况不多,统计值 在-1至1之间。其平方值可以有消减误差比例的意义。
工厂
A B 积极性 等级 5 3 产量等 级 5 3
C
D E
4
1.5 1.5
1
3 3
Gamma系数
Gamma系数的计算公式如下:
Ns Nd G Ns Nd
其中:Ns 是同序对数,Nd异序对数。 G的绝对值越大,就表示所犯的错误可能性越小 ,G是负值,则如果知道一对个案在某个变量的 相对等级,就应该估计他们在另一个变量上的相 对等级是相反的。反之亦然。
E1 E2 37.5 33 tau - y 0.12 E1 37.5
练习题1
题:以下是某高校对高、低年级学生求职意愿的抽 样调查。问:(1)计算不对称Lambda系数;(2) 计算tau-y系数;(3)建立条件百分表。
高年级 学校 10
低年级 10
企业 机关
20 10
10 20
第二节 两个定序变量
Gamma系数
级序相关法的基本逻辑是要求出;根据任何两个 个案在某变量上的等级来预测他们在另一个变量 上的等级时,可以减少的误差是多少。 同序对与异序对:假设样本的全部个案数目是n ,就会组成1/2n(n-1)对个案。某对个案在两个变 量上的相对等级时相同,则成为同序对;如果是 不相同,则成为异序对。


n2
n3
n5
n6
n8
n9
同分对: Tx=n1(n2+n3)+n2(n3)+n4(n 5+n6)+n5(n6)+n7(n8+n9)+ n8(n9)
同分对:
n9 (n9 1) n ( ) 1 n1 1 Txy 2 2
例:计算G系数与dy系数
文化程度 婚姻美满
大学
中学
小学
美满

( n Fy ) Fy
其中: n=全部个案书目, f=某条件次数 Fy=Y变量的某个边缘次数 Fx=X变量的某个边缘次数
再以饮食习惯表为例:
(100 25) 25 (100 75)75 E1 37.5 100 100
(50 5)5 (50 45)45 (50 20)20 (50 30)30 E2 33 50 50
同序对与异序对
x x1 x2 x3 x4 x x1 x2 x3 x4 y y1 y2 y3 y4 y y1 y2 y3 y4 x x1 x2 x3 x4 x x1 x2 x3 x4 y y1 y2 y3 y4 y y1 y2 y3 y4
同分对
两个个案在某变量上 次序相对,无法分高 低,即同分对。通常 以Tx代表只在X变量上 同分的对数,以Ty代 表只在Y变量上同分的 对数,而以Txy代表在 两个变量上都是同分 的对数。
λ系数计算公式
m
x
2n ( M x M y )
my (M x M y )
E1 E2 (n M y ) (n m y ) m y M y y E1 (n M y ) nMy
其中,My=Y变量的众值次数, Mx=X变量的众值次数 my=X变量的每个值(类别)之下Y变量的众值次数 mx=Y变量的每个值(类别)之下X变量的众值次数


n2
n3
n5
n6
n8
n9
同序对: n1(n5+n6+n8+n9)+n2(n6+ n8)+n4(n8+n9)+n5(n9)
异序对: n7(n2+n5+n3+n6)+n4(n2 +n3)+n8(n3+n6)+n5(n3)
计算列联表的同分对
高 高 中 低 n1 n2 n3 中 n4 n5 n6 低 n7 n8 n9 高 高 n1 中 n4 低 n7



未知y与x有关之前,如果预测y值,唯一可资依据的就是y本 身的分布。由于y与x无关,所以只能根据y的行边缘和(与x 无关)去预测y,也即由y的行边缘和中最大者——众值,去 预测y,可能性最大。 E1 = n – max(n*j) (即总频次n减去y的行边缘和中最大者) 分析: (1)E1 = 0 (E1最小)当 max(n*j) = n 时,E1 = 0。也即众 值极大,异众比率为0,此时众值代表性最高,故E1为0。 (2)E 1 = n (E1最大)当 max(n*j) = 0 时,E1 = n。也即 众值为0,异众比率最大,此时众值代表性最低,故E1为n。
6 D
2
第三节 两个定距变量
简单线性回归分析法
简单线性回归时根据一个直线方程式,以一个自变量X的 数值来预测一个因变量Y的数值。目的是要找出一个错误 最小的方法来预测因变量的数值。
相关主题