当前位置:
文档之家› 第九讲 双变量的统计分析(相关分析)
第九讲 双变量的统计分析(相关分析)
在调查中发现,文化程度越高的被调查者,在回答问 卷时,花费的时间越少,而文化程度较低的被调查者, 填答问卷时花费的时间较长。在此,我们可以说文化 程度和问卷填答时间之间存在着负相关关系。
注意:方向的分析只适用于定序以上层次的变量
(3)相关关系的对称性与非对称性
相关的两个变量,不一定有因果关系, 可能是共同变化。
一、相关关系(correlation)
两变量间的相关关系指的是一个变量的值与另一 个变量有连带关系。也就是,当一个变量发生变 化时(或取值不同时),另一个变量也随之发生 变化。
收入期望
生育期望
如:
文化程度
女性的文化程度
1、相关的性质
(1)相关关系的强度
相关程度,指的是相关关系的强弱或大小。相关关系的 强弱或大小可以用统计法进行测量。变量间相关关系 的统计结果称为相关系数。 相关关系的程度介于[-1,1]之间,数值绝对值越大,表 示相关的程度越强.正\负号表示的是相关关系的方 向.0代表无相关,1 代表全相关.见图9-1来说明.
研究的目的在于辨明这些研究的因果关系状态
因果关系必须满足三个条件:
第一.变量X与变量Y存在着不对称的相关关系, 这是因果关系成立的必要条件; 第二.变量X与变量Y在发生顺序上有先后之别, 即先有原因(自变量)的变化,后有结果(因变量) 的变化. 第三.变量x与变量Y的变化不会受第三个变量 的影响,也就是说两个变量的关系不是某种虚 假的或表面的关系,而是实际存在的关系.
实际从不同性别来看,男性和女性之间存在很 大的差异
思考: 两个表格所显 示信息的差 异
交互分析的作用
较为深入的描述样本资料的分布状况 和内在结构。 对变量之间的关系进行分析和解释
交互分类表的形式要求
每个表的顶端要有表号和标题 线条规范、简洁,最好不用竖线 百分比符号的处理:一种在表顶端的右角;另一种在表中 每一列数字的上方 表的下端用括号标出每一列的频数 两个变量的安排:通常是将自变量、或被看作自变量或用 来做解释的变量放在上面(列),将因变量、或被看作因 变量、或被解释的那个变量放在表的左侧(行)。 变量取值不宜太多。如4个自变量,5个因变量就是20个 百分比 少数点的位数要一致。如67.3和50.0 必须要进行假设检验(多选变量的分析可以没有)
公式:
(1)不对称形式:
y
m
y
My
My=Y变项的众数次数 my=X变项的每个值(类别)之下Y变项的众数的次数 n=全部个案数 n-My=不知道x值的情况下预测Y值产生的误差 分子E1-E2=(n-My)-(n-∑my)= ∑my-My
nMy
例1:分析性别与理想志愿之间的关系
y
m
y
m
y
My
nMy
(105 45) 150 0 215 120
2、tau-y
不对称测量法 系数值介于0-1之间 计算系数时包括了所有的边缘次数和条件次数 如果是不对称关系最好选用tau-y计算
计算过程:先求出E1和E2,计算消减误差的比例
E1 E2 tau y E1
Y
E1
右图红色表示E1-E2,
PRE值的意义
1、PRE的值在[0,1] 2、E2=0,则PRE=1,x与y是全相关,用x解 释y时不会产生误差 3、E1=E2,则PRE=0,x与y是无相关,用x来 预测y时产生的误差等于不用x来预测y时的 误差 4、如PRE=0.8,表示用x预测y可以减少80% 的误差,也反映了两者的相关程度颇高;如 果PRE=0.08,则表示只能减少8%的误差, 即x对y的影响甚小,需要寻找其他的变量解 释或预测y
变量之间的关系
两个变量之间的关系 多个变量之间的关系。 在多数情况下,多个变量之间的关系又可以分 解为若干个两个变量之间的关系,也就是说多 个变量之间的关系可以通过若干个两个变量间 的关系来描述。
知识点
双变量间关系的种类 主要的双变量的测量方法 (1)交互分析—列联表分析 (2)不同层次变量的测量法 (3)自变量和因变量的关系 相关分析和因果分析
例:青年的教育期望与父母的教育期望
m
x
2n ( M x M y )
my (M x M y )
(28 41 4) (28 41 7) (54 50) 2 *100 (54 50) 0.47
特例:如下表,72.4%的制造业工人和64.3%的服务 业人员注重物质报酬,职业类型与价值取向是略 有影响的,但是
第九讲 双变量的统计分析
“学好数理化,走遍天下都不怕” “学好数理化,不如有个好爸爸” 布劳与邓肯在1967年出版的《美国的职业结构》中研究 了父亲职业与子女职业的关系,先赋地位和自致地位哪一 个在个人生活中具有更重要的作用。 尽管家庭背景(父亲的职业与受教育水平)给美国男性的职 业地位获得以显著作用,在决定美国在职男性社会地位获 得的因素中,由个人努力所达到的“受教育水平”要比来 自于“父亲职业地位”的作用更强。 他们解释说,美国是一个相当开放的社会越是工业化社会, 先赋性因素对个人社会地位获得的影响就越弱;越是传统 型社会,先赋性因素对个人社会地位获得的影响就越强。 但是,即使如此,在美国这样城市化和工业化水平较高的 西方市场化国家,来自于父亲的先赋性因素,对子女职业 地位的获得仍然具有虽然微弱但却显著而直接的影响。
(2)相关关系的方向(+、-)
正相关关系和负相关关系 正相关关系:一个变量的取值增加时,另一个变 量的取值也增加,反之亦然;
人们的文化程度越高,他们的收入水平也越 高;文化程度较低的人,他们的收入水平也 普遍较低。反之,那些收入水平较低的人, 他们的文化程度一般来说也较低。
负相关关系:一个变量的取值增加时,另一个变 量的取值减少;而一个变量的值减少时,另一个 变量值的增加。
E1
(n Fy ) Fy n
( Fx f ) f E2 Fx
n=全部个案数目 f=某条件次数 Fy=Y变项的某个边缘次数 Fx=X变项的某个边缘次数
E1:如果不知道x,则每次预测y变量时的错误 机率是(n-Fy)/n,乘以Fy表示y值时的错误总
数,y变量有多个值,将各值的错误总数相加
(4)相关的类型
相关关系是一种数量关系上不很严格的相互依 存关系。 如果这种关系近似地表现为一条直线,就称为 直线相关,又称线性相关; 如果这个关系近似地表现为一条曲线,则称为 曲线相关,又称非线性相关。 虽然在自然界和社会生活中,曲线相关现象远 比直线相关更多,但由于数学手段上的局限性, 社会统计研究中多以阐述线性(直线)相关为 主。
•理解:x对y的可认知程度
如假定不知道x的值,我们在认识y时的全部 误差是E1。我们知道x的值,可以根据x的值 来认识y的值时的误差的总数(不可认知的部 分)为E2,那么用x的值来预测y的值差的比例,则称谓消减了的误差比例
E1 E2 PRE E1
不对称关系:自变量X影响因变量Y,但是 因变量Y不会影响X---因果关系, 如施肥量和小麦产量之间的关系 对称关系:不能确定或区分两个变量的方向。 如交往的多少与他们的互爱程度
因果关系
大多数的社会研究,都涉及因果关系的概念,社 会研究的最终目的,往往在与希望获得某些社会 现象间因果关系的知识。 如“受教育程度与人们的职业获得的研究”、 “不同职业的被调查者收入的差异”---首先认为 这些变量之间存在因果关系。
图9-1 X与Y的相关关系 X和Y分别代表两个变量,各有二 个取值(1,2),表中的a、b、c、 d分别表示不同情况下个案的数目
例1:a=d=0或b=c=0,两个变量全相关
例2:a×d=b×c,对角线相等,则表 示无相关
例3:如果a×d>b×c或a×d<b×c, 则表示X和Y有相关关系。
5、削减误差比例
1、两个变量间关系的强弱
2、消减误差比例(PRE测量,Proportionate reduction in error):我们在预测或解释社会现象 y时,难免会有误差(错误),假定另一种社会现 象x与y是有关系的,我们可以根据x的值来预测y的 值,理应可以减少若干误差,其值表示的就是x对y 的误差的消减程度.而且X与y的关系越强,所能减少 的误差就会越多.换言之,减少误差的多少,可以反映 X与Y之间关系的强弱程度.
单变量的分析和统计描述,是我们了解和认识 社会现象的基础。 但社会生活中的现象并不是孤立存在的,现象 之间往往存在或多或少的关系,或者说,社会 现象之间往往是相互联系、相互影响、相互依 存的。 进一步了解社会现象发生和变化的原因,揭示 社会现象的发展规律,探索和发现现象之间的 关系,才是大多数社会研究的主要目的,而这 则需要对两个变量或多个变量之间的关系进行 分析。
那么中国的情况如何? 白威廉(William Parish)的研究最具影响力,白氏通过 对中国大陆1972-1978年间迁居香港的132位移民的访 谈,得到了他们2865位邻居的数据,发现:对于那些 在“文革”前(1966年前)就年满20岁的同期群案例来说, 父亲的“受教育水平”与“职业地位”对子女的受教育 水平,父亲的“职业地位”与“阶级出身”对子女的 “职业地位”获得等具有显著影响作用。但对于那些在 “文革”时期才年满20岁的同期群案例来说,作用却并 不显著。 谢文和林南于1983年在北京的调查(N=1774)、林南和 边燕杰于1985在天津的调查(N=1000)等进一步证实: 父亲的职业地位既对人们的初职地位获得毫无影响,也 对人们目前职业地位的获得缺少明显作用。 林南与边燕杰将“工作单位部门”这一具有国家社会 主义特色的指标作为中介变量,置于职业地位之前进行 检验。研究发现,虽然父亲的职业地位对子女的教育和 职业地位获得缺少统计意义的影响,但父亲的“工作单 位部门”却通过对儿子“工作单位部门”的作用而影响 了儿子的初职地位获得,但女儿却无此殊荣。