当前位置：文档之家› 第六章相关分析与线性回归分析

第六章相关分析与线性回归分析

•
•
也称为线性相关系数(linear correlation coefficient)
或称为 Pearson 相关系数 (Pearson’s correlation coefficient)
相关系数 (计算公式)
样本相关系数的计算公式
r
( x x )( y y ) (x x) ( y y)
相关系数的显著性检验
相关系数的显著性检验 ( r 的抽样分布)
1. r 的抽样分布随总体相关系数和样本容量的大小而变化
• 当样本数据来自正态总体时，随着n的增大，r 的抽样分布趋于正态分布，尤其是在总体相关系数很小或接近0时，趋于正态分布的趋势非常明显。而当远离 0 时，除非 n 非常大，否则 r 的抽样分布呈现一定的偏态
1. 变量间关系不能用函数关系精确表达 y 一个变量的取值不能由另一个变量唯一确定当变量 x 取某个值时，变量 y 的取值可能有几个各观测点分布在直线周围
2.
3. 4.

x
相关关系 (几个例子)

父亲身高y与子女身高x之间的关系收入水平y与受教育程度x之间的关系
SPSS软件使用说明
选项为Analyze－Correlate－Bivariate
相关系数的显著性检验 (需要注意的问题)
1. 即使统计检验表明相关系数在统计上是显著的，并不一定意味着两个变量之间就存在重要的相关性因为在大样本的情况下，几乎总是导致相关系数显著
2.
•
比如，r=0.1，在大样本的情况下，也可能使得r通过检验，但实际上，一个变量取值的差异能由另一个变量的取值来解释的比例只有10%，这实际上很难说明两个变量之间就有实际意义上的显著关系
相关系数的显著性检验 (例题分析)
各相关系数检验的统计量相来自系数的显著性检验 (需要注意的问题)
1. 即使统计检验表明相关系数在统计上是显著的，并不一定意味着两个变量之间就存在重要的相关性因为在大样本的情况下，几乎总是导致相关系数显著
2.
•
比如，r=0.1，在大样本的情况下，也可能使得r通过检验，但实际上，一个变量取值的差异能由另一个变量的取值来解释的比例只有10%，这实际上很难说明两个变量之间就有实际意义上的显著关系
不良贷款
10
10 8 6 4 2 0 0 50 100 150 200 固定资产投资额
不良贷款与贷款项目个数的散点图
不良贷款与固定资产投资额的散点图
散点图 (5个变量的散点图矩阵)
散点图 (5个变量的散点图矩阵)
不良贷款
贷款余额
累计应收贷款
贷款项目个数
固定自产投资
SPSS软件使用说明
选项为Graphs－Scatter
如果样本数据不是来源与正态分布，该如何？
Spearman秩相关系数
Pearson线性相关系数必须假设数据是成对地从
正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。如果这两条件不符合，一种可
能就是采用Spearman秩相关系数来代替Pearson线
性相关系数。Spearman秩相关系数是一个非参数

x
3.
函数关系 (几个例子)

某种商品的销售额 y 与销售量 x 之间的关系可表示为
y = px (p 为单价)

圆的面积S与半径R之间的关系可表示为
S=R2

企业的原材料消耗额 y 与产量 x1 、单位产量消耗 x2 、原材料价格x3之间的关系可表示为
y = x1 x2 x3
相关关系 (correlation)
25 2 t 0.8436 7.5344 2 1 0.8436
3. 根据显著性水平＝ 0.05 ，查 t 分布表得 t(n2)=2.069 由于 t=7.5344>t(25-2)=2.069 ，拒绝 H0 ，不良贷款与贷款余额之间存在着显著的正线性相关关系
• • 变量之间是否存在关系？如果存在关系，它们之间是什么样的关系？
•
•
变量之间的关系强度如何？
样本所反映的变量之间的关系能否代表总体变量之间的关系？
2.
为解决这些问题，在进行相关分析时，对总体有以下两个主要假定
• • 两个变量之间是线性关系两个变量都是随机变量
散点图 (scatter diagram)
散点图 (不良贷款对其他变量的散点图)
14 12
14 12
不良贷款
不良贷款
10 8 6 4 2 0 0 100 200 300 400 贷款余额不良贷款与贷款余额的散点图
14 12
10 8 6 4 2 0 0 10 20 30 累计应收贷款不良贷款与累计应收贷款的散点图
14 12
不良贷款
8 6 4 2 0 0 10 20 30 40 贷款项目个数
计算公式
r12 , 3
r12 r13 r23 2 2 ( 1 r13 )( 1 r23 )
衡量偏相关程度用偏相关系数表示：
ryx
1
x2
为 1 阶偏相关系数，即清除了X2 的影响后 Y 与 X1
之间的相关系数，
ryx ryx
1
x 2 x3
为 2 阶偏相关系数，即清除了X2与 X3的影响后
暑假期间双胞胎兄弟大明和小明参加勤工俭学，大明在超级市场帮助卖冷饮，小明在游泳池收门票。
2.
当为较大的正值时，r 呈现左偏分布；当为较小的负值时，r 呈现右偏分布。只有当接近于0，而样本容量 n很大时，才能认为r是接近于正态分布的随机变量
相关系数的显著性检验 (检验的步骤)
1. 2. 3. 4. 检验两个变量之间是否存在线性相关关系等价于对回归系数 1的检验采用R.A.Fisher提出的 t 检验(假设数据是成对地从正态分布中取得的) 检验的步骤为 • 提出假设：H0：；H1： 0 计算检验的统计量： n2
性质（与分布无关）的秩统计参数，由Spearman
在1904年提出.
Spearman秩相关系数
假设原始的数据xi，yi已经按从大到小的顺序排列，记x’i，y’i 为原xi，yi在排列后数据所在的位臵，则x’i，y’i称为变量x’i， y’i的秩次，则di=x’i-y’i为xi，yi的秩次之差。
取值介于-1~1之间
相关关系的描述与测度 (相关系数)
相关系数 (correlation coefficient)
1. 2. 3. 4. 度量变量之间关系强度的一个统计量对两个变量之间线性相关强度的度量称为简单相关系数若相关系数是根据总体全部数据计算的，称为总体相关系数，记为若相关系数是根据样本数据计算的，则称为样本相关系数，简称为相关系数，记为 r
性质4：仅仅是x与y之间线性关系的一个度量，它不能用于描述非线性关系。这意味着， r=0 只表示两个变量之间不存在线性相关关系，并不说明变量之间没有任何关系
性质 5 ： r 虽然是两个变量之间线性关系的一个度量，却不一定意味着x与y一定有因果关系
相关系数的经验解释

粮食单位面积产量 y与施肥量 x1 、降雨量 x2 、温度 x3之间的关系
商品的消费量y与居民收入x之间的关系商品销售额y与广告费支出x之间的关系

相关关系 (类型)
相关关系
线性相关
非线性相关
完全相关
不相关
正相关
负相关
正相关
负相关
相关关系的描述与测度 (散点图)
相关分析及其假定
1. 相关分析要解决的问题
t r 1 r
2
~ t ( n 2)

确定显著性水平，并作出决策 • 若t>t，拒绝H0 • 若t<t，不拒绝H0
相关系数的显著性检验 (例题分析)
对不良贷款与贷款余额之间的相关系数进行显著性检验 (0.05) 1. 提出假设：H0：；H1： 0 2. 计算检验的统计量
为 (k-1) 阶偏相关系数，即清除了 X2 … X3 的影响
Y 与 X1 之间的相关系数，
1
x 2 … xk
后 Y 与 X1 之间的相关系数， ry1 ry 2 r12 ry1 2 2 1 ry22 1 r12 ry1 2 ry3 2 r13 2 ry1 23 2 1 ry23 2 1 r13 2
第六章相关分析与回归分析
1、一元相关分析 2、多元相关分析 3、一元线性回归分析 4、多元线性回归分析
第一节一元相关分析
一、变量之间的两类关系
• 确定性关系（函数关系）； • 非确定性关系（相关关系）；
函数关系
1. 2. 是一一对应的确定关系设有两个变量 x 和 y ，变量 y 随变量 x 一起变化，并完全依赖于 x ，当变量 x 取某个数值时， y 依确定的关系取相应的值，则称 y 是 x 的函数，记为 y = f (x)，其中 x 称为自变量， y 称为因变量各观测点落在一条线上 y

非线性相关
完全正线性相关
完全负线性相关

负线性相关

不相关
正线性相关
散点图 (例题分析)
【例】一家大型商业银行在多个地区设有分行，其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的增长，这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因，管理者希望利用银行业务的有关数据进行定量分析，以便找出控制不良贷款的办法。下面是该银行所属的 25 家分行 2002年的有关业务数据

e商务文档

第六章相关分析与线性回归分析

相关文档推荐：