当前位置:文档之家› 交叉汇总与关联分析Crosstabs的应用

交叉汇总与关联分析Crosstabs的应用

第六讲交叉汇总与关联分析(Crosstabs的应用)主要用于研究两个变量之间是相互独立还是存在某种关系,有没有关系,关系程度怎么样。

最适合于分析两个定类变量之间的关系,但是通过对变量的处理,也可以适合于分析测量层次更高级别的变量。

一、变量及其测量层次变量:被操作化了的概念,是可以直接观察的,在经验研究中,在不同的状态下有不同的属性,科学研究一定要使用变量的语言,一定要有操作化。

变量从它测量的层次上看,可以区分为四种类型:定类变量(Nominal ):区分现象、事物的不同性质,而不能从规模大小等方面进行区分,=≠性别(男,女)收入(有收入,无收入)、民族等定序变量(Ordial):当变量不仅区分了对象的属性、特征,还区分出大小、强弱、高低次序时,就是定序变量。

=≠< >如社会地位、文化水平、社会态度、收入等定距变量(Interval):除了类别、次序属性以外,取值之间的距离还可以用标准化的距离去测量,可以进行加减的运算。

年龄定比变量(Ratio):除了以上三类变量提到的属性,定比变量取值可以构成一个有意义的比率。

如智商。

各个变量之间的关系及其测量:定类——定类——列联表、交互分析定序——定序——等级分析定距——定距——回归与相关(简单与多元)定类——定距——方差分析定类——定序——非参数检验二、交叉汇总表的一般形式及其特点的上面,因变量放在表的旁边条件分布:将其中一个变量控制起来,再看另外一个变量的分布,可以得到条件分布,如可以对自变量的同一取值作条件分布,进行分析。

三、如何获得交叉汇总表Analyze-----Descriptives----Crosstabs----出现对话框:●ROWS这个框中的变量作为交互表中的行变量(一般放因变量Y,y1, y2,y3--)●Column框,这个框中的变量作为交互表中的列变量(一般放自变量X,x1,x2,x3…)●Layer框:框中的变量作为控制变量,决定交互表的层,可以多个控制变量。

●Display Clustered bar chats选中这个框,将显示每一组中各个变量的分类条形图●Suppress tables选中这个框,只输出统计量,不输出多维列联表●Statistics 统计量●Cell display对话框——确定要输出的列联表——观测量数、百分比、残差以自变量作为计算百分率的方向,是社会学研究的常规,当然,也有例外的情况:如果因变量在样本内的分布不能代表其在总体内的分布,则百分率的计算要根据因变量的方向(见李沛良书P74。

)比较时采用行百分比还是列百分比?原则上是没有自变量与因变量的区分。

如看职业流动表中的流出率,选Row百分比,得行的百分比,行加起来为100%若选column——列百分比,列若是儿子职业,则列百分比可以看某一职业类别到底由什么人构成,职业流动表中的流入率。

做目前职业身份与父亲从事职业的关系交互表Rows――父亲从事工作Columns――目前身份Cells――row――问:父亲是农民的那些被调查者,他们目前的身份与父亲是高级管理人员者比有什么特点?如果cells-column――问目前身份是一线工人的人,他们的父亲都是干什么的?四、如何看一张交叉汇总表(一)Cell功能键observed:观察值的实际数expected:如果行和列在统计上是独立的或不相关的,那么会在单元格中输出期望的观察值的数量。

Row:行百分比Column:列百分比Unstandardized:计算非标准化残差,残差是观察值与期望值之差,正的残差意味着在行列变量相互独立时,单元格中的观察值比期望值大。

Standardized:标准化残差, 它的值是残差除于标准差,其均值是0,标准差等于1。

Adj standardized调整后的残差。

以社会统计学教材P295表10-2为例1.联合分布、边缘分布与条件分布Analyze-----Descriptives----Crosstabs--- Cells ――Total――OK2.列联表中变量的相互独立性――社会统计学教材表10-15分析,可以通过SPSS的如下程序进行操作Analyze-----Descriptives----Crosstabs--- Cells ――Column(求列百分比)――OKAnalyze-----Descriptives----Crosstabs--- Cells ――Column(求行百分比)――OK期望分布―――Analyze-----Descriptives----Crosstabs--- Cells ――expected――Column(求列百分比)――OK五.定类——定类——列联表交互分析――是否相关 (一)交互表的检验——两个变量之间是否相关一般用x 2来检验,检验的原来假设是:两个变量之间没有关系,研究假设或称为备择假设是两个变量之间有关系。

检验的方法是: Pearson Chi-Squarex 2 的自由度是(r-1)(c-1)n ij 是观察的样本频次 如果x 2 检验sig <.05,拒绝原假设,即认为两个变量之间相关 如果x 2 检验sig >.05,接受原假设,即认为两个变量之间不相关 注意:对于2×2的列联表,格数过少,为减少偏差,对x 2 进行修正,x n E E ij ij ijj ri c 221105=--==∑∑(.)x 2检验适合于单变量二项总体或者多项总体的检验。

例子:看子辈职业与父辈职业之间是否相关1.数据2.检验结论:由于sig.小于.05,所以,子辈职业与父辈职业之间是相关的注意:在这些检验结果中,我们一般用Pearson Chi-SquareLikelihood Ratio对数似然比方法计算的卡方;Linear-by-Linear Association:线性相关的卡方值。

六、两个定类变量之间相关的强度(一)相关系数1.Phi系数描述2×2数据相关程度最常用的一种相关系数Φ=x n 2对于一个具体的2×2维列联表X1 X2Y1 a bY2 c dΦ=-++++ad bca b c d a c b d ()()()()2.列联系数当一张表格超过2维时,Phi的值不一定是在0---1之间,为了获得0≤Phi≤1,皮尔逊建议用列联系数Cxx N =+22C 的最高限取决于行数和列数,一般达不到上限1,对于一个4×4表格,最高限为0.873.Cramer’s V 系数)1(),1min[(2--Φ=c r VV 的最高上限可以达到1,但是不是很直观4.Lambda, Tau-y 系数(具有PRE 性质的系数)PRE 数值的意义:就是用一个现象(如变量X )来预测另一个现象(如变量Y )时能够减除百分之几的误差。

PRE=(E1—E2)/E1E1:当不知道X 变量去估计Y 变量时所产生的误差(全部误差) E2:知道X 变量再去估计Y 变量产生的误差 E1—E2为剩余的误差如果两个变量都是定类测量层次,可以用Lambda, Tau-y 系数 [1] Lambda 相关测量法这种相关测量法也叫做Cuttman’s coefficient of predictability ,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。

消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。

Lambda 系数有两种形式: 对称形式(symmetrical version ):特点是两个变量之间的关系是对称的,也就是不分自变量与因变量λ =每列与每项最高频次之和边缘和边缘和中最高频次观察总数边缘和与边缘和中最高频次-⨯-X Y X Y 2(见李沛良书P81)不对称形式(asymmetrical version ):要求一个是自变量(X ),另一个是因变量(Y )。

λy Y Y =--每列最高频次之和边缘和中最高频次观察总数边缘和中最高频次当自变量与因变量位置互换时,Lambda 的值会不一样。

SPSS 给出的是不对称的Lambda 系数,有两个。

分子就是根据X 值来预测Y 的众值所能够消减的误差(E1-E2)分母就是在不知道X 值的情况下来预测Y 的众值时所产生的全部误差 Lambda 的取值是(0,1)Lambda 系数是以众值作为预测的准则,不理众值以外的次数的分布,如果全部众值集中在条件次数表的同一列或同一行,那么Lambda 系数可能等于0——而这往往并不表示两个变量之间没有关系,实际上我们发现是有关系的,当我们把频次转换为百分比计算的时候,可以清楚地看出他们之间的关系。

因此,Lambda 系数的敏感性有时候实际上是有问题的,因此社会学研究中有时采用Goodman 和 Kruskal 的 Tau-y 系数 [2] Goodman and Kruskal 的 Tau-y 系数这个系数的敏感度高于Lambda 系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量,Tau-y 系数的值是界于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数Tau-y=E E E n nnn n nn ij ji i 12111222-=--∑∑∑∑***E nF F ny y1=-∑()E F f fF x x2=-∑() ()n F ny -表示如果不知道变量值(男或女),那么每次预测某个Y 变量的错误机率,再乘上F y ,表示预测这个Y 值的错误总数,Y 变量有多个值,把各个值的预测错误总数加起来,就是E1F y ——Y 变量的某个边缘次数F x ——X 变量的某个边缘次数f 某条件次数在那么多相关系数中,在进行研究时,一般选择哪一个比较好?在定类——定类关系中,如果是不对称关系,最好选择用的是 Tau-y ,如果是对称的关系,择最好选择用的是Lambda 系数,Phi 、C 、V 系数没有消减误差比例的意义,而且假定两个变量之间的关系是对称的。

在这三个系数中,由于V 不受表的大小的影响,因此用得比较多,也比较适合于进行社会学研究。

不确定系数:uncertainty coefficient :表示用一个变量来预测其他变量时降低误差的机率。

如不确定系数在83%时,表示已知一个变量知识在预测其他变量时,可以减少85%的误差。

是一个具有消减误差比例意义的系数。

SPSS 中给出的相关系数:Phi 系数、列联系数、Cramer V 系数、Lambda, Tau-y 系数(有两个)、uncertainty coefficient例子:社会统计学教材表10-34,求各类系数(二)对相关系数进行检验看相关系数的显著性就可以,如果显著性小于.05,则有统计意义,如果大于.05,则没有统计意义(三)统计意义与实际意义七、定序——定序列联表、交互分析(一)相关系数1. Kendall 的 tau 系数——适合于分析对称关系tau 系数的基本逻辑是计算同序对数与异序对数的差在全部可能对数中所占比例。

相关主题