第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表(人)(1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r ×c。
这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表(%)在计算条件百分表时,最好能依据下列准则:(1)每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。
(2)绘表时所用的线条,要尽可能简短。
舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。
(3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。
如果表内每个数值都附有%符号,就太繁复了。
(4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。
如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。
如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。
(5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。
写出这些数值,可以使我们知道各列百分率的基础,同时也使我们可以随时将百分率数值变回原来的次数值。
(6)表内百分率数值的小数位要保留多少,视乎研究的需要,但最好是有一致性。
例如上表既然用6.5与73.5,就要用20.0而不是20,这个小数点后的0是有意义的,它表示全部百分率的计算都是以保留一位小数作准则。
二、相关分析(一)统计相关的性质1、所谓相关,是指一个变量的值与另一个变量的值有连带性。
也就是一个变量的值发生变化,另一个变量的值也发生变化,则两个变量就是相关的了。
2、两个变量之间的相关程度有强弱之分,可用统计法予以测量。
大多数统计0代表无相关,1代表完全相关,介于0和1之间的数值越大,表示相关程度越强。
3、另一种值得注意的性质是相关方向,也可用统计法予以测量。
变量之间的关系可以分为正与负两个方向。
所谓正相关表示当一个变量的值增大时,另一个变量的值也增大;所谓负相关则表示当一个变量的值增加时,另一个变量的值却减少。
这里要注意,相关方向的分析只限于定序以上层次的变量,因为这些变量的值有高低或多少之分。
至于定类变量,则没有相关方向的问题。
4、虽然相关系数可以描述变量间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的联系,是很难说的,在统计学中需要大于0.7以上,但社会现象间很少有这样密切的联系,所以研究人员一般要结合定性分析来断定事物内在的、本质的联系。
5、数据所显示的相关(或无关)关系,实际上也可能并不反映变量间存在(或不存在)有意义的关系。
(二)相关测量法1、相关测量法就是以一个统计值表示变量与变量间的关系,这个统计值称为相关系数。
相关测量法有很多种,我们在选择时首先要注意变量的测量层次,不同层次的变量要用不同的相关测量法。
其次,要注意两个变量之间的关系是否对称。
对称关系是指两个变量X与Y,我们不确定或不区分两变量之间影响的方向。
反之,如果我们认为X影响Y,而Y不会影响X,这种情况称为不对称关系。
有些相关测量法假定变量之间具有对程关系,有些则假定是不对称关系。
另一项选择标准,就是统计值的意义。
有些相关测量法所计算出来的统计值除相关程度外,还含有其它意义,我们最好选择统计值有意义的相关测量法。
在统计学中有一组相关测量法,其统计值具有消减误差比例的意义,称为PRE测量法。
这组测量法常用在社会学研究中。
2、消减误差比例社会学研究的主要目标是预测或解释社会现象的变化。
比如有一种社会现象是Y(例如工资收入),我们就要预测或理解其变化的情况。
预测或解释时,难免会有误差(即错误)。
假定另一种社会现象X(例如文化水平)是与Y有关系的,如果我们根据X的值来预测Y的值(例如根据文化来估计其工资水平),理应可以减少若干误差。
而且,X与Y的关系愈强,所能减少的预测误差就会愈多。
换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。
现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1。
如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差的总数是E2,则以X值来预测Y值时所减少的误差就是:E1—E2。
这个数值(E1—E2)与原来全部误差(E1)相比,就是消减误差比例。
可用下面的公式表示:PRE=121 E EEPRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例愈大;也就是说,X与Y的关系愈强。
消减误差比例适用于各种测量层次的变量,但公式中的E1 与E2的具体定义在不同层次的变量间,或同一层次的变量内部有所不同。
3、相关测量法测量不同层次的变量有不同形式的相关系数。
下面介绍几种相关系数:(1)、λ相关:用于测量两个定类变量间的相关关系。
λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众数作为预测的准则,可以减除多少误差。
消减的误差在全部误差中所占的比例愈大,就表示这两个变量的关系愈强。
λ相关测量法有两种形式:一种是对称形式,用λ表示,即用于测量的两个变量间的关系是对等的,没有自变量与因变量之分;另一种是非对等的,用λy 表示,即所测量的两个变量有自变量与因变量之分,X 是自变量,Y 是因变量。
公式如下:(公式写错了)λ=)(2)(y x y x y x M M n M M m m --+-+∑∑ λy =y yy M n M m --∑其中,My=Y 变量的众数次数Mx=X 变量的众数次数my=X 变量的每个值(类别)之下Y 变量的众数次数mx=Y 变量的每个值(类别)之下X 变量的众数次数n 全部个案数目例1:根据下表(表10-3)的资料计算λ系数表10-3性别与吸烟态度的交互分类(人)根据λy 系数公式有λy =y yy M n M m --∑=114200114)6296(--+=0.51 因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
例2:研究青年人的志愿与他们的知心朋友的志愿是否相关,得到下表的统计资料。
试计算λ系数。
表4 青年人与其知心朋友的志愿由于青年人的志愿与他们的知心朋友的志愿可能是相互影响的,难于区分何者是自变量或因变量,故用λ相关测量法的对称形式。
根据λ系数公式有:λ=)(2)(y x y x y x M M n M M m m --+-+∑∑=2、G 相关:用于测量两个定序变量间的关系,用G 来表示。
G 系数值在-1至+1之间,既表示相关的程度,也表示相关的方向,而且也都有消减误差比例的意义。
G 相关测量法的基本逻辑是:根据任何两个个案在某变量上的等级来预测他们在另一个变量上的等级时,可以减少的误差是多少。
换言之,G 相关测量法是以每对个案之间的相对等级作为预测的准则。
G 系数的计算公式是:G=ds d s N N N N +- 式中Ns 表示同序对数目,Nd 表示异序对数目。
所谓同序对是指某对个案在两个变量上的相对等级相同,如果不相同,则称为异序对。
下面举例说明Ns 和Nd 的计算方法。
例2:根据下表(10-4)的资料计算G 系数表10- 文化程度与收入的交互分类表表中计算同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。
因而上例中:Ns=12(30+5+16+12)+10(5+12)+8(16+12)+30(12)=1510 Nd=3(30+8+16+4)+10(8+4)+5(4+16)+30(4)=514 G==d s d s N N N N +-=51415105141510+-=0.49 说明用文化程度去预测收入水平,可以消减49%的误差。