当前位置:文档之家› 相关分析

相关分析

第七章相关分析任何事物的存在都不是孤立的,而是相互联系、相互制约的。

在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。

说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。

值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。

但如果事物之间有因果关系,则两者必然相关。

由变量相依关系的特点,变量之间的依存关系可分为两大类型:(1)确定性关系——函数关系,例如圆面积S=πr2, y=e x+x2等。

(2)确定性关系——相关关系,例如人的血压y与年龄x之间的关系等。

以往我们讨论过的许多数学学科,如分析几何、代数等都是研究变量之间确定性关系的,但非确定性关系在自然界和我们熟知的教育领域中大量存在,例如学习成绩与智力因素或与非智力因素之间,数学成绩与物理成绩之间,性别与学习成绩之间等,都存在某种相互联系,相互制约的依存关系,这种关系不是那种严格的函数关系,而是一种非确定性的关系。

相关关系和函数关系也有联系:由于观察和测量中会产生误差,函数关系往往通过相关关系表现出来,变量间相关关系非常密切时,通常又呈现出某种函数关系趋势。

相关的种类按不同的分类标准,相关关系有多种分类1、简单相关和复相关简单相关——两个变量之间的相关关系按涉及变量的多少分复相关——一个变量与两个及以上个变量之间的相关关系2、线性相关和非线性相关线性相关(直线相关)按变量关系的表现形态,相关关系可分为非线性相关(曲线相关)3、正相关和负相关按变量数值变化方向的总趋势,相关关系可分为正相关、负相关正相关——两个变量变化方向的趋势相同(见教材P2,图1-2左)负相关——两个变量变化方向的趋势相反(见教材P2,图1-2右)4、完全相关、高度相关、低度相关和不相关按两变量联系的紧密程度分,相关关系可分为完全相关、高度相关、低度相关和不相关(零相关)相关分析的主要内容研究两个或两个以上变量之间是否存在相关关系,如果存在相关关系,其相关的性质和程度如何,这个过程在统计学上称为相关分析,相关分析的主要内容包括:1、确定变量之间有无相关关系存在,以及相关关系呈现的形态。

2、确定相关关系的密切程度。

断送相关关系密切程度的主要方法是绘制散点图和计算相关系数。

3、对相关系数的显著性进行统计检验。

数据类型注意品质相关要先学习卡方独立性检验。

积差相关用于计算连续且总体服从正态的两变量间的相关。

等级相关,指以等级次序表示的变量之间的相关。

等级相关适用这样两种情况:①虽然是连续数据,但变量总体上不服从正态分布,②或者数据是顺序的。

当然在这两种情况下都要求变量间是线性关系,并且在将数据代入公式之前,必须将原来的数据转化为连续编号的等级数据,这里的等级数据必须是从1到N排列,若有相同的数据,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。

我们将介绍斯皮尔曼等级相关、肯德尔W系数与肯德尔U系数三种计算等级相关的方法,前者用于只有两列变量的情况,后两者用于三列及三列以上变量的情况。

质量相关,指一列变量为等比或等距的测量数据,另一列变量是按性质划分的类别。

主要介绍三类质量相关,点二列相关、二列相关、多系列相关。

SPSS 的相关分析是借助于Statistics 菜单的Correlate 选项完成的。

第一节 Bivariate 过程7.1.1 主要功能积差相关,是计算两个变量线性相关的一种方法,由英国统计学家皮尔逊提出,因此也称为皮尔逊(Pearson)相关。

要使用积差相关必须同时具备如下几个条件:①两个变量都是由测量获得的连续性数据,即等距或等比数据。

②两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称分布,当然样本并不一定要正态。

③必须是成对的数据,而且每对数据之间是相互独立的,即各自互不影响,本条件是难以检验的。

④两个变量之间呈线性关系。

一般用描绘散点图的方式来观察,最好是先各自转化为Z 分数,单位会统一些。

若对(x 、y)作了n 次观测,得到n 对数据(x 1,y 1)……,( x n ,y n )。

则定义r 为:∑∑∑∑∑=======-=-=--==11121211,1)(,)(),)((i i i i ni i yy ni i xx ni i i xyyyxx xy y n y x n x ,y y L x x L y y x x :LL L L r 其中由哥-席不等式易知 1||≤r根据我们已具备的概率知识,当 1||=r 时,可以认为x 与y 依pr 为1存在完全的线性相关关系,||r 越小,x 与y 存在线性相关的程度越小,r=0 ,可以认为x 与y 不相关(不存在线性相关),但不相关并不等于x 与y 相互独立,x 与y 之间可能存在其它形式的相关关系。

在||r ≠0时,r >0,可认为x 与y 正相关,r >0,可认为x 与y 负相关。

积差相关系数的显著性检验设ρ表示x 和y 的总体相关系数,当ρ=0时,称x 与y 不相关,利用样本相关系数r 可以检验H 0: ρ=0当(x 、y)为二元正态变量时,可以证明212r n r t --=~ t(n-2) (1.2-6)利用该统计量检验H 0的拒绝域为C ={t | t |>t α} 这里αt 为t(n-2)分布的分位数21α-t积差相关系数一般适用于连续型总体,且总体分布服从或近似服从正态分布,故两个连续变量的观察数据必须成对出现,且不宜少于30对(根据中心根限定理,大样本时,可近似作取自正态总体),但在社会实践中,特别在教育和心理学方面的数据资料往往不能满足上述的条件,有些数据还是属性的测量(如测定品质的优劣、爱好程度、信念、态度等)常采用的等级评定。

这时需要采用等级相关(rank correlation)的方法来研究变量之间的相关关系。

等级相关是依据等级资料来研究变量间相关关系的相关量等级资料包括: 1、 等级评定资料。

2、 经连续变量观测资料转化得到的等级资料。

研究等级相关的相关量主要有斯皮尔曼(spearman)等级相关系数和肯德尔(kandall)和谐系数。

等级相关不涉及变量的分布形态和数据量的多少,对于两个连续变量的观测资料,也可转化为等级资料计算等级相关系数。

斯皮尔曼等级相关系数斯皮尔曼等级相关系数是英国心理学家、统计学家spearman 根据积差相关的概念推导出来的。

其计算公式为:)1(61212--=∑=n n d r NI i P式中P r —spearman 等级相关系数, d i —成对的第i 对数据的等级差,n —总对数 斯皮尔曼等级相关系数的显著性检验1、若n ≥10,可用前述检验统计量(1.2-6)对H 0:L=0作t 检验。

2、若4≤n ≤30 可查相关系数临界值表,对给定的显著水平α,当 |P r |>αr 时,否定H 0认为x 与y 有显著的线性相关关系,当|P r |≤αr 时,不能拒绝H 0,即认为x 与y 无显著的H 0真时等级相关关系(查αr 的自由度df=n-2)。

肯德尔和谐系数 1、概念及使用条件肯德尔和谐系数(the kandall coefficient of concordace)是计算多个等级变量相关程度的一种相关量。

前述的spearman 等级相关讨论的是两个等级变量的相关程度,用于评价时只适用于两个评分者评价N 个人或N 件作品,或同一个人先后两次评价N 个人或N 件作品,而kandall 和谐系数则适用于数据资料是多列相关的等级资料,即可是k 个评分者评(N)个对象,也可以是同一个人先后k 次评N 个对象。

通过求得kandall 和谐系数,可以较为客观地选择好的作品或好的评分者。

2、公式与计算以下用W 表示肯德尔和谐系数(1)同一评价者无相同等级评定时,W 的计算公式:)(12132N N k s w -=式中:N —被评的对象数; K —评分者人数或评分所依据的标准数; S —每个被评对象所评等级之和R i 与所有这些和的平均数i R 的离差平方和,即∑∑∑===-=-=ni ni i i n i i R n R R R S 112212)(1)(当评分者意见完全一致时,S 取得最大值 ),(2132N N k -可见,和谐系数是实际求得的S 与其最大可能取值的比值,故0≤W ≤1。

(2)同一评价者有相同等级评定时,W 的计算公式: ])([121132∑=--=ki i T K N N k sw (1.3-3)式中K 、N 、S 的意义同(1.3-2)式,∑=-=im i ij ij i n nT 123)(这里m i 为第i 个评价者的评定结果中有重复等级的个数,n ij 为第i 个评价者的评定结果中第j 个重复等级的相同等级数。

对于评定结果无相同等级的评价者,T i =0,因此只须对评定结果有相同等级的评价者计算T i 。

调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。

调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。

7.1.2 实例操作[例7-1]某地区10名健康儿童头发和全血中的1硒含量(1000ppm)如下,试作发硒与血硒的相关分析。

7.1.2.1 数据准备激活数据管理窗口,定义变量名:发硒为X,血硒为Y,按顺序输入相应数值,建立数据库(图7.1)。

图7.1 原始数据的输入7.1.2.2 统计分析激活Statistics菜单选Correlate中的Bivariate...命令项,弹出Bivariate Correlation对话框(图7.2)。

在对话框左侧的变量列表中选x、y,点击 钮使之进入Variables框;再在Correlation Coefficients框中选择相关系数的类型,共有三种:Pearson为通常所指的相关系数(r),Kendell’s tau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson 相关系数替代值,本例选用Pearson项;在Test of Significance框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。

图7.2 相关分析对话框点击Options...钮弹出Bivariate Correlation:Options对话框(图7.3),可选有关统计项目。

本例要求输出X、Y的均数与标准差以及XY交叉乘积的标准差与协方差,故选Means and standard deviations和Cross-product deviations and covariances项。

相关主题