当前位置:文档之家› 相关与回归分析

相关与回归分析

第十二章相关与回归分析社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。

第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。

双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。

第一节变量之间的相互关系1.相关程度与方向从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。

而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系。

相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。

在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。

就线性相关来说,当r=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0<r<1时,表现为不完全相关。

但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r=0的情况。

当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。

当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。

所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。

而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。

至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。

2.因果关系除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性。

只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系:(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。

(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。

(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。

因果关系是一种非对称关系(asymmetrical relationship),这时只是自变量影响因变量,因变量不会反过来影响自变量。

如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetrical relationship)。

第二节定类变量的相关分析1.列联表列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。

2×2列联表,是最简单的交互分类表,r ×c 频数分布列联表则是一般形式。

条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。

这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。

在相对频数分布列联表中,各数据为各分类出现的相对频数ij P (或者频率)。

将频数ij f 化成相对频数ij P 有两种做法:①如果ij P =n f ij ,我们得到的是联合分布的列联表,此时ij P 也可以称为联合频率;②如果ij P = X ijF f 或者ij P = Y ij F f ,我们得到的是关于X 或者关于Y 的相对频数的条件分布,此时ij P 也可以称为条件频率通过列联表研究定类变量之间的关联性,实际上是通过相对频数条件分布的比较进行的。

如果不同的X ,Y 的相对频数条件分布不同,且和Y 的相对频数边际分布不同,则两变量之间是相关的。

而如果变量间是相互独立的话,必然存在着Y 的相对频数条件分布相同,且和它的相对频数边际分布相同。

2.削减误差比例在社会统计中,表达相关关系的强弱,削减误差比例PRE(Proportionate Reductionin Error)的概念是非常有价值的。

削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。

其中关系密切者,在由一变量预测另一变量时.其盲目性必然较关系不密切者为小。

因此,变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差E 0,减去知道Y 与X 有关系时预测Y 的误差E 1,再将其化为比例来度量。

将削减误差比例记为PRE ,得PRE = 010E E E -=-原来的误差后来的误差原来的误差 削减误差比例PRE 适用于各测量层次的变量,但公式中E 1、E 2的具体定义,不仅对不同测量层次的变量有所不同,而且对同一测量层次的变量也有所不同。

λ系数和τ系数便是在定类测量的层次上以削减误差比例PRE 为基础所设计的两种相关系数。

3.λ系数(1)对称的λ系数(假设X 是自变量,Y 是因变量)()()0000002Y X Y X Y X F F n F F f f +-+-+=∑∑λ (2)不对称的λ系数(假设X 是自变量,Y 是因变量) 000Y Y Y F n F f --=∑λλ系数有PRE 意义,其统计值域是[0,1]。

λ系数的缺点是比较粗略,不够灵敏,因为它以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。

另外,如果众数频数集中在条件频数分布列联表的同一行中,λ系数便会等于0,从而无法显示两变量之间的相关性。

3.τ系数τ系数的统计值域是[0,1],其特点是在计算时考虑所有的边际频数和条件频数。

先求出不知X ,预测Y 时全部误差E 0;然后求出知道X ,以X 预测Y 时的全部误差E 1;最后求出消减误差比例作为其相关系数值。

公式是τ=n F n n F F f Y Y X ∑∑∑∑--222 τ系数有PRE 意义,它比λ系数灵敏。

第三节 定序变量的相关分析如果变量不仅可以区分类,而且可排出序(或秩),那么我们就得面对定序变量的相关分析了。

定序变量是只能排列高低次序、而无法确定其精确数量的变量。

故在分析定序变量的X 与Y 相关时,只能考虑X 与Y 两变量变化的顺序是否一致及其等级之间的差距,并以此来求算两变量相关关系之相关系数。

1. 同序对、异序对、同分对社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma 系数,肯得尔系数、d 系数等。

所以我们在讨论这几种相关系数之前,先要掌握这三个概念。

(1)同序对在观察X 序列时如果我们看到i X <j X ,在Y 序列中看到的是i Y <j Y ,则称这一配对是同序对。

同序对只要求X 变化方向和Y 变化方向相同,并不要求X 变化大小和Y 变化大小相等。

同序对的总数用符号s n 表示。

(2)异序对在观察X 序列时如果我们看到i X <j X ,在Y 序列中看到的是i Y >j Y ,则称这一配对是异序对。

同样,异序对只要求X 变化方向和Y 变化方向相同,并不要求X 变化大小和Y 变化大小相等。

异序对的总数用符号d n 表示。

(3)同分对如果在X 序列中,我们观察到i X =j X ,则这个配对为X 同分对;X 同分对的总数用符号x T 表示。

如果在Y 序列中,我们观察到i Y =j Y ,则称这个配对为Y 同分对,Y 同分对的总数用符号y T 表示。

如果我们观察到i X =j X 时,也观察到i Y =j Y ,则称这两个配对为X 与Y 同分对,以xy T 代表。

对于列联表的资料,计算同序对,要用“右下余子式”法;计算异序对,要用 “左下余子式”法。

五种不同配对的总的数目是xy y x d s T T T N N T ++++=)(总对数。

2.Gamma 系数Gamma 系数适用于测量两对称的定序变项的相关系数,计算公式是ds d s n n n n G +-=。

Gamma 系数同样具有削减误差比例PRE 性质。

3.肯德尔等级相关系数对于求等级相关系数,统计学家肯德尔(Kendall)提出了多种方案:(1) a τ系数; (2) b τ系数;(3) c τ系数。

4. 萨默斯(d 系数)与G 系数、b τ系数、c τ系数不同,d 系数的值依赖于将哪一个变量作为自变量,哪一个变量作为因变量,是一种不对称测量。

具体地说, yx d 测量Y X →,用于以X 预测Y ;xy d 测量Y X ←,用于以Y 预测X 。

两者的值域是[–1,1],公式是yd s d s yx T n n n n d ++-= x d s d s xy T n n n n d ++-=5. 斯皮尔曼等级相关系数第一位推导等级之间相关系数的人是英国心理学家查尔斯·斯皮尔曼。

他创造的一个等级相关的公式,可以用来计算两个定序变量之间的相关程度。

斯皮尔曼系数通常以s r 代表,即()16122--=∑n n d r s6.肯德尔和谐系数(k r ) 前面我们谈的都是对双变量求等级相关系数。

对于多变量求等级相关系数,肯德尔运用数理分析方法,提出了一个计算公式 1)1(3)1(122212-+--=∑=n n n n k R r n i k I 第四节 定距变量的相关分析两个定距变量之间的相关测量,最常用的就是所谓积差系数.它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r 表示。

而在本章一开头,关于相关程度与方向,我们谈到了定距—定距变量线性相关的问题。

其实,积差系数表达的是两定距变量之间的线性相关关系。

不仅如此,我们根据两变量之间的这种线性关系,可以进一步建立代数公式,以一个自变量X 的值去预测一个因变量Y 的值,这就是下一节讲的回归分析。

1.相关表和相关图在社会统计学中,由于变量之间的测量层次不同,研究相关关系的方法也有所不同。

相关表是在定距测量的层次上,反映两变量之间对应关系的数据表,它是积差系数计算的依据。

将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X 和Y 之间的相互关系,即得相关图。

相关图又称散点图。

如果数据足够多,从散点图上可以直观地看出两变量之间存在着何种相关关系。

2.积差系数的导出和计算皮尔逊相关系数用来测量两个定距变量相关强度和方向,即 r =∑∑∑))((22y x xy不难看出,在r 系数的计算公式中,变量X 和Y 是对等关系。

引入协方差2XY S ,积差系数又可以表达为r =YX XY S S S ⋅2不难看出,积差系数是协方差与两个随机变量X 、Y 的标准差乘积的比率。

实际计算时,一般采用以下简化r =∑∑∑∑∑∑∑---2222)()(Y Y n X X n YX XY n3.积差系数的性质(1)皮尔逊相关系数是线性相关系数。

相关主题