当前位置:文档之家› 第8章 相关分析

第8章 相关分析

第 8 章 相关分析8.1 相关分析的理论与方法社会经济现象总体数量上所存在的依存关系有两种不同的类型,一种是函数关系,一种是相关关系。

函数关系是指当某一变量的数值确定之后,另一个变量的数值也完全随之而确定了。

例如电路中的欧姆定律表述了电压、电阻和电流之间的关系:电压=电流×电阻,若已知其中两个变量的值,则另一个变量的值就被唯一确定了。

相关关系是不完全确定的随机关系。

在相关关系的情况下,当一个或几个相互联系的变量取一定的值时,与之相应的另一变量的值虽然不确定,但它仍然按某种规律在一定的范围内变化。

例如,商品需求与商品价格之间的关系、投资额与国民收入之间的关系、得病率与性别的关系等等。

按照数据度量尺度的不同,相关分析的方法也不同。

连续变量之间的相关性常用Pearson 简单相关系数来测定;定序变量的相关性常用Spearman 秩相关系数或Kendall 秩相关系数来测定;而定类变量的相关分析则要使用列联表分析方法。

8.1.1 连续变量的相关分析1. Pearson 简单相关系数对于像投资额、国民收入等连续变量之间的相关性分析常用Pearson 简单相关系数来测定,其基本公式如下:2xyx yr σσσ=其中,2xy σ 为变量x 和的协方差,y x σ和y σ分别为变量x 和的标准差。

y Pearson 简单相关系数有如下的特征:r1r ≤ ,r 越大表示两变量相关性越强,r 越小表示两变量相关性越弱 0r =时,表示两变量不存在线性相关关系 1r =时,表示两变量完全正相关1r =−时,表示两变量完全负相关2. Pearson 简单相关系数的检验在实际分析中,相关系数大都是利用样本数据计算的,因而带有一定的随机性,因此也需要对相关关系的显著性进行检验,该检验的原假设为两总体相关系数等于0。

数学上可以证明,在原假设得到满足的条件下,有下面的t 统计量:t =该统计量服从自由度为的t 分布。

2n −8.1.2 定序变量的相关分析对于定序变量的相关性分析,例如分析勤奋程度与成就高低的关系、信用等级与贷款收回情况的关系等等都不能用简单相关系数来测定,而要用秩相关的非参数方法来实现,即不使用变量的原始数据,而使用原始数据的秩来计算相关系数。

1. Spearman 秩相关系数假设有容量为n 的由x 和两个变量构成的随机样本。

分别计算每个观测关于变量y x 和的秩变量和,用y i u i v (1,)=L ,2i n i i d u v i =−表示第i 个样本对应于两变量的秩之差,则Spearman 秩相关系数的公式如下:)1(61212−−=∑=n n d r ni i s与Pearson 简单相关系数一样,Spearman 秩相关系数的取值也处于-1和1之间。

显然,和之间的差别越大,则就越大。

若所有的和都相等,则,。

i u i v 21n i i d =∑i u i v 210ni i d ==∑1s r =计算出Spearman 秩相关系数后,要对该系数进行检验,此时的原假设为:两变量不相关。

在满足原假设的前提下,若是小样本,则服从Spearman 分布;在大样本下,统计量s r sr z r =近似服从标准正态分布。

2. Kendall 秩相关系数Kendall 秩相关系数与Spearman 秩相关系数类似,都是利用变量的秩进行计算,只是计算方式不同。

首先计算每个观测关于变量x 和的秩变量u 和v ,将n 个观测按变量y x 的升序排序,则n 个观测关于变量x 和的秩如下:y x 的秩变量u : 1 2 …… ny 的秩变量: ……v 1v 2v n v 设在的后面有1v 1R 个秩大于,在的后面有1v 2v 2R 个秩大于,……,在后面有2v 1n v −1n R −个秩大于,令1n v −12n 1R R R R −=+++L显然,变量x 和y 相关性越强,则R 越大。

Kendall 秩相关系数按如下公式求得:41(1)k Rr n n =−−同样,Kendall 秩相关系数的绝对值不超过1。

为了说清楚变量之间具有联系的理由,也应对Kendall 秩相关系数进行显著性检验。

此时的原假设同样为两变量不相关。

在满足原假设的前提下,若是小样本,则服从Kendall 分布;在大样本下,统计量kr z =近似服从标准正态分布。

8.1.3 定类变量的相关分析在7.2节我们曾介绍了利用2χ统计量对单一随机样本的分布进行检验的方法。

卡方检验还有一个重要的用途就是对离散变量的相关性进行检验,这种方法有时也叫作“列联表分析”。

列联表是多行多列纵横交错所形成的一个表体。

我们以例子说明列联表的形式以及如何将定类变量的相关性检验化为列联表并进行检验分析的程序。

抽样调查某地区500名待业人员,这些人员中文化程度为高中及以上的有104人(男44人),初中的有96人(男36人),小学及以下的有300人(男140人)。

试检验此调查结果能否说明待业人员中的文化程度与性别是相互独立的。

根据调查结果,我们可将数据整理成列联表:表 8-1 待业人员文化程度与性别列联表列联表的单元格中,上面的数字给出样本关于两变量的联合观察频数;下面括号内的数值为对应的联合期望频数,计算方法为:..i jij n n E n×=其中,ij E 为第一个变量取第个取值,第二个变量取第i j 个变量时的联合观察频数,为第i 行的观察频数之和,.i n .j n 为第j 列的观察频数之和,为样本容量。

n 例如,性别为男且文化程度为高中及以上所对应的期望频数为:1122010446500E ×==,其它各个单元格对应的期望频数也按同样方法计算得到。

统计量来检验两变量的相关性。

在得出对应的期望频数后,我们就可以应用Pearson 2χ该检验的原假设为:两变量相互独立。

构造的统计量为:22(ij ij E χ11s ti j ijf E ==−=∑∑其中,和分别为两个离散变量取值的个数,s t ij f 为第一个变量取第个取值,第二个变量取第i j 个变量时的联合期望频数。

在原假设成立的条件下,该统计量服从一个自由度为(1)(s t −−的1)2χ分布。

8.2 连续变量相关分析实例8.2.1 SPSS 操作步骤,常常利用资产收益率、净资产收益率、每股净收益和托宾Q 值四个指标来衡量公司经营绩效。

本节将利用SPSS 对这四个指标的相关性进行检验。

四个变量都是连续在上市公司财务分析中1. 选择菜单项Analyze →Correlate →Bivariate ,打开Bivariate Correlations 对话框,如图 8-1。

将待分析的四个衡量公司绩效的指标移入右边的Variables 列表框中。

2. 在Correlation Coefficients 选项栏中选择适当的相关系数。

三个选项分别是Pearson 简单相关系数、Kendall 秩相关系数和Spearman 秩相关系数。

本例中待分析的变量都是连续型数据,因此应该选择Pearson 简单相关系数,但为了便于比较,这里将两个非参数相关系数也选上。

3. 在Test of Significance 选项栏中选择在相关系数检验时使用双侧检验(Two-Tailed )还是单侧检验(One-Tailed )。

4. 如果选中Flag significant correlations ,则在相关系数检验中用星号标注通过显著性检验的相关系数。

图 8-1 Bivariate Correlations 对话框5. 单击Options 按钮,打开。

Statistics 选项栏用于选择是否待分的样本协差阵(Means and ns ),这是多元统计分析中Options 子对话框,如图 8-2在结果输出窗口中输出析变量standard deviations)和样本叉积离差阵(Cross-product deviatio两个这两个变量中带有缺失值的观测删除,即如果一个观测在正非常重要的样本统计量矩阵。

Missing Values 选项栏用于设置缺失值的处理方法。

Exclude case pairwise 表示在计算两个变量的协方差或相关系数时,只把在进行相关系数计算的变量中没有缺失值,则即使其它变量中有缺失值,也不影响它参与计算;Exclude case listwise 表示如果某个观测的所有分析变量中只要由一个带有缺失值,则这个观测就不参与分析。

图 8-2 Options 子对话框6. 在主对话框中单击OK 按钮,执行命令。

8.2.相关系数、相关检验t 统计量对应的2 实例结果分析表 8-2给出了Pearson 简单p 值、叉积离差阵和协差阵。

相关系数右上角有两个星号表示相关系数在0.01的显著性水平下显著。

从表中可以看出,每股在收益、净资产收益率和总资产收益率三个指标之间的相关系数都0.8以上,对应的p 值都接近于0,表示三个指标具有较强的正相关关系,而托宾Q 值与其他三个变量之间的相关性较弱。

表 8-2 Pearson 简单相关分析表 8-3给出Kendall秩相关系数和Spearman秩相关系数两种非参数相关分析结果。

从表中可以看出,使用非参数方法得出了与Pearson简单相关分析基本一致的结果。

表 8-3 Kendall秩相关分析和Spearman秩相关分析8.3 离散变量相关分析实例8.3.1 SPSS 操作步骤离散变量相关分析常用的方法是列联表分析法。

以补钙产品市场调查数据为例。

1. 选择菜单项Analyze →Descriptive Statistics →Crosstabs ,打开Crosstabs 对话框,如图 8-3。

将两个需要分析相关性的离散变量分别移入Rows 列表框和Columns 列表框。

如果要分析多于两个变量的相关性,则可以将其余变量移入Layer 列表框中,则SPSS 将构筑多维列联表来分析多个变量之间的相关性。

这里我们首先分析消费者对补钙产品的购买欲望(g3)是否与性别(gender )显著相关,所以,将这两个变量分别移入Rows 列表框和Columns 列表框。

2. 选择Display clustered bar charts 复选框,绘制交叉分组下的频数分布条形图,通过该图形可以直观地观察两变量的相关性。

,而仅给出相关分析的检验统计量。

这里不选择该选项xtract 按钮的用途参考7.2节。

3. Suppress tables 表示不输出列联表。

4. E图 8-3 Crosstabs对话框5. 单击Statistics按钮,打开Statistics子对话框,如图 8-4。

该对话框用于指定相关分析的方法以及使用的统计量。

相关主题