当前位置:
文档之家› 第六章相关分析与线性回归分析
第六章相关分析与线性回归分析
•
•
也称为线性相关系数(linear correlation coefficient)
或 称 为 Pearson 相 关 系 数 (Pearson’s correlation coefficient)
相关系数 (计算公式)
样本相关系数的计算公式
r
( x x )( y y ) (x x) ( y y)
相关系数的显著性检验
相关系数的显著性检验 ( r 的抽样分布)
1. r 的抽样分布随总体相关系数和样本容量的大小而变化
• 当样本数据来自正态总体时,随着n的增大,r 的 抽样分布趋于正态分布,尤其是在总体相关系数 很小或接近0时,趋于正态分布的趋势非常明显。 而当 远离 0 时,除非 n 非常大,否则 r 的抽样分布 呈现一定的偏态
1. 变量间关系不能用函数关系精 确表达 y 一个变量的取值不能由另一个 变量唯一确定 当变量 x 取某个值时,变量 y 的 取值可能有几个 各观测点分布在直线周围
2.
3. 4.
x
相关关系 (几个例子)
父亲身高y与子女身高x之间的关系 收入水平y与受教育程度x之间的关系
SPSS软件使用说明
选项为Analyze-Correlate-Bivariate
相关系数的显著性检验 (需要注意的问题)
1. 即使统计检验表明相关系数在统计上是显著的,并不一 定意味着两个变量之间就存在重要的相关性 因为在大样本的情况下,几乎总是导致相关系数显著
2.
•
比如,r=0.1,在大样本的情况下,也可能使得r通 过检验,但实际上,一个变量取值的差异能由另一 个变量的取值来解释的比例只有10%,这实际上很 难说明两个变量之间就有实际意义上的显著关系
相关系数的显著性检验 (例题分析)
各相关系数检验的统计量相来自系数的显著性检验 (需要注意的问题)
1. 即使统计检验表明相关系数在统计上是显著的,并不一 定意味着两个变量之间就存在重要的相关性 因为在大样本的情况下,几乎总是导致相关系数显著
2.
•
比如,r=0.1,在大样本的情况下,也可能使得r通 过检验,但实际上,一个变量取值的差异能由另一 个变量的取值来解释的比例只有10%,这实际上很 难说明两个变量之间就有实际意义上的显著关系
不良贷款
10
10 8 6 4 2 0 0 50 100 150 200 固定资产投资额
不良贷款与贷款项目个数的散点图
不良贷款与固定资产投资额的散点图
散点图 (5个变量的散点图矩阵)
散点图 (5个变量的散点图矩阵)
不良贷款
贷款余额
累计应收贷款
贷款项目个数
固定自产投资
SPSS软件使用说明
选项为Graphs-Scatter
如果样本数据不是来源与正态分布,该如 何?
Spearman秩相关系数
Pearson线性相关系数必须假设数据是成对地从
正态分布中取得的,并且数据至少在逻辑范畴内必 须是等间距的数据。如果这两条件不符合,一种可
能就是采用Spearman秩相关系数来代替Pearson线
性相关系数。Spearman秩相关系数是一个非参数
x
3.
函数关系 (几个例子)
某种商品的销售额 y 与销售量 x 之间的关系可表示为
y = px (p 为单价)
圆的面积S与半径R之间的关系可表示为
S=R2
企业的原材料消耗额 y 与产量 x1 、单位产量消耗 x2 、原材料价格x3之间的关系可表示为
y = x1 x2 x3
相关关系 (correlation)
25 2 t 0.8436 7.5344 2 1 0.8436
3. 根 据 显 著 性 水 平 = 0.05 , 查 t 分 布 表 得 t(n2)=2.069 由于 t=7.5344>t(25-2)=2.069 ,拒绝 H0 ,不良贷 款与贷款余额之间存在着显著的正线性相关关系
• • 变量之间是否存在关系? 如果存在关系,它们之间是什么样的关系?
•
•
变量之间的关系强度如何?
样本所反映的变量之间的关系能否代表总体变量之间的关系?
2.
为解决这些问题,在进行相关分析时,对总体有以下两 个主要假定
• • 两个变量之间是线性关系 两个变量都是随机变量
散点图 (scatter diagram)
散点图 (不良贷款对其他变量的散点图)
14 12
14 12
不良贷款
不良贷款
10 8 6 4 2 0 0 100 200 300 400 贷款余额 不良贷款与贷款余额的散点图
14 12
10 8 6 4 2 0 0 10 20 30 累计应收贷款 不良贷款与累计应收贷款的散点图
14 12
不良贷款
8 6 4 2 0 0 10 20 30 40 贷款项目个数
计算公式
r12 , 3
r12 r13 r23 2 2 ( 1 r13 )( 1 r23 )
衡量偏相关程度用偏相关系数表示:
ryx
1
x2
为 1 阶偏相关系数,即清除了X2 的影响后 Y 与 X1
之间的相关系数,
ryx ryx
1
x 2 x3
为 2 阶偏相关系数,即清除了X2与 X3的影响后
暑假期间双胞胎兄弟大明和小明参加勤工俭学, 大明在超级市场帮助卖冷饮,小明在游泳池收门票。
2.
当为较大的正值时,r 呈现左偏分布;当为较小的负 值时,r 呈现右偏分布。只有当接近于0,而样本容量 n很大时,才能认为r是接近于正态分布的随机变量
相关系数的显著性检验 (检验的步骤)
1. 2. 3. 4. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 1的检验 采用R.A.Fisher提出的 t 检验(假设数据是成对地从正态 分布中取得的) 检验的步骤为 • 提出假设:H0: ;H1: 0 计算检验的统计量: n2
性质(与分布无关)的秩统计参数,由Spearman
在1904年提出.
Spearman秩相关系数
假设原始的数据xi,yi已经按从大到小的顺序排列,记x’i,y’i 为原xi,yi在排列后数据所在的位臵,则x’i,y’i称为变量x’i, y’i的秩次,则di=x’i-y’i为xi,yi的秩次之差。
取值介于-1~1之间
相关关系的描述与测度 (相关系数)
相关系数 (correlation coefficient)
1. 2. 3. 4. 度量变量之间关系强度的一个统计量 对两个变量之间线性相关强度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关 系数,记为 若相关系数是根据样本数据计算的,则称为样本相关系 数,简称为相关系数,记为 r
性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于 描 述 非 线 性 关 系 。 这 意 味 着 , r=0 只 表 示 两 个 变 量之间不存在线性相关关系,并不说明变量之间没 有任何关系
性 质 5 : r 虽然是两个变量之间线性关系的一个度量 ,却 不 一定意味着x与y一定有因果关系
相关系数的经验解释
粮食单位面积产量 y与施肥量 x1 、降雨量 x2 、温度 x3之间的关系
商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系
相关关系 (类型)
相关关系
线性相关
非线性相关
完全相关
不相关
正相关
负相关
正相关
负相关
相关关系的描述与测度 (散点图)
相关分析及其假定
1. 相关分析要解决的问题
t r 1 r
2
~ t ( n 2)
确定显著性水平,并作出决策 • 若t>t,拒绝H0 • 若t<t,不拒绝H0
相关系数的显著性检验 (例题分析)
对不良贷款与贷款余额之间的相关系数进行显著性检验 (0.05) 1. 提出假设:H0: ;H1: 0 2. 计算检验的统计量
为 (k-1) 阶偏相关系数,即清除了 X2 … X3 的影响
Y 与 X1 之间的相关系数,
1
x 2 … xk
后 Y 与 X1 之间的相关系数, ry1 ry 2 r12 ry1 2 2 1 ry22 1 r12 ry1 2 ry3 2 r13 2 ry1 23 2 1 ry23 2 1 r13 2
第六章 相关分析与回归分析
1、一元相关分析 2、多元相关分析 3、一元线性回归分析 4、多元线性回归分析
第一节 一元相关分析
一、变量之间的两类关系
• 确定性关系(函数关系); • 非确定性关系(相关关系);
函数关系
1. 2. 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依 赖于 x ,当变量 x 取某个数值 时, y 依确定的关系取相应的 值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量, y 称为因变量 各观测点落在一条线上 y
非线性相关
完全正线性相关
完全负线性相关
负线性相关
不相关
正线性相关
散点图 (例题分析)
【例】一家大型商业银行在多个地区设有分行,其业务主要 是进行基础设施建设、国家重点项目建设、固定资产投 资等项目的贷款。近年来,该银行的贷款额平稳增长, 但不良贷款额也有较大比例的增长,这给银行业务的发 展带来较大压力。为弄清不良贷款形成的原因,管理者 希望利用银行业务的有关数据进行定量分析,以便找出 控制不良贷款的办法。下面是该银行所属的 25 家分行 2002年的有关业务数据