当前位置:文档之家› 统计学第八章 相关与回归分析

统计学第八章 相关与回归分析

第10章 相关与回归分析
§10.1 §10.2 §10.3 §10.4 相关分析的意义和内容 直线相关的测定 一元线性回归分析 利用回归方程进行估计和预测
学习目标
1. 掌握相关系数的分析方法
2. 掌握一元线性回归的基本原理和参数的 最小二乘估计 3. 了解回归直线的拟合优度的分析 4. 利用回归方程进行估计和预测
14 12
不良贷款
8 6 4 2 0 0 10 20 30 40 贷款项目个数
不良贷款
10
10 8 6 4 2 0 0 50 100 150 200 固定资产投资额
不良贷款与贷款项目个数的散点图
不良贷款与固定资产投资额的散点图
二、直线相关的测定——相关系数
(一)相关系数(correlation coefficient)的概念
父亲身高(y)与子女身高(x)之间的关系
收入水平(y)与受教育程度(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系
二、相关关系种类
完全相关 不完全相关 不相关
相关程度
相关方向
正相关 负相关
相关形式
线性相关 非线性相关
单相关 影响因素多少 复相关
三、相关分析的内容
相关分析:就是研究两个或两个以上变量之间 相互关系的统计分析方法。 内容: 1.确定相关关系的存在、相关方向和存在形 式、密切程度(狭义相关分析) 2.确定相关关系的数学表达式 (回归分析) 3.利用建立的模型进行预测和控制(应用)
§10.2相关关系的描述与测定
一、散点图 二、直线相关的测定——相关系数
一、散点图
(scatter diagram)









非线性相关
完全正线性相关
完全负线性相关



§10.1 相关分析的意义和内容
一. 相关关系的概念 二. 相关关系种类 三. 相关分析的内容
一、相关关系的概念
是指变量间的不确定的依存关系。
函数关系
变量间的关系
相关关系
(一)函数关系
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 y 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 3. 各观测点落在一条线上 x
(二)相关关系
(correlation)
1. 变量间关系不能用函数关 y 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 各观测点分布在一条线周 x 围
相关关系
(几个例子)
相关关系的例子
相关系数分子和分母的意义
2.标准差

x

y
yy x x x x yy x y r n n x y
这意味着,X、Y于各自平均值的离差,分别用 各自标准差为尺度加以标准化,然后再求标准数量的 协方差。

回归一词是 怎么来的?
趋向中间高度的回归
回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高 时提出来的。Galton发现身材高的父母,他们的孩 子也高。但这些孩子平均起来并不像他们的父母那 样高。对于比较矮的父母情形也类似:他们的孩子 比较矮,但这些孩子的平均身高要比他们的父母的 平均身高高。 Galton把这种孩子的身高向中间值靠 近的趋势称之为一种回归效应,而他发展的研究两 个数值变量的方法称为回归分析。
3.
根 据 显 著 性 水 平 = 0.05 , 查 t 分 布 表 得 t(n2)=2.0687 由于t=7.5344>t(25-2)=2.0687,拒绝H0,不良贷 款与贷款余额之间存在着显著的正线性相关关系
相关系数的显著性检验
(例题分析)
各相关系数检验的统计量
为检验起来方便,利用变量t与r之间的关系,可 以得到以下等式:
3. 因变量与自变量之间的关系用一条线性方 程来表示
(二)一元线性回归模型
1. 描述因变量 y 如何依赖于自变量 x 和误差项 的 方程称为回归模型 2. 一元线性回归模型可表示为 y = b b1 x
y
3.5 3 2.5 2 1.5 1 0.5 0 1 2 3 4 5 x
y 3.5 3 2.5 2 1.5 1 0.5 0 1 2 3 4 5 x
从图中可见,两项资料的变异情况不同。 r1==1 r2=0.89
相关系数
(计算化简公式)
化简后的计算公式
L ( x x )( y y ) xy r 2 2 L L ( x x ) ( y y ) x y
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化 2. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量 3. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
确定显著性水平,并作出决策
n 2 ~t( n 2 ) 2 1 r
相关系数的显著性检验
(例题分析)
对不良贷款与贷款余额之间的相关系数进行显著性检 (0.05) 1. 提出假设:H0: ;H1: 0 2. 计算检验的统计量
25 2 t 0 . 8436 7 . 5344 2 1 0 . 8436
( x x )( y y ) n
相关系数分子和分Βιβλιοθήκη 的意义1.协方差----
xy
xy
x x y y n
意义: 1.显示与是正相关还是负相关 2.显示与相关程度的大小 但是协方差是以绝对数表现的均值,其数值受到 变量值大小的影响,而且有计量单位,不便于进行比 较,因此仍然不完善。
一元线性回归
一. 什么是回归分析? 二. 一元线性回归模型 三. 回归直线的拟合优度
一、什么是回归分析?
(Regression)
1. 从一组样本数据出发,确定变量之间的数学 关系式,进而确定一个或几个变量(自变量 )的变化对另一个特定变量(因变量)的影 响程度。 2. 对这些关系式的可信程度进行各种统计检验 ,并从影响某一特定变量的诸多变量中找出 哪些变量的影响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的 取值来预测或控制另一个特定变量的取值, 并给出这种预测或控制的精确程度
1. 对变量之间线性关系密切程度的度量指标 2. 若相关系数是根据总体全部数据计算的,称 为总体相关系数,记为 3. 若是根据样本数据计算的,则称为样本相关 系数,记为 r
(二)相关系数的计算和应用
用积差法计算样本相关系数的公式为:
xy ( x x )( y y ) r x y n x y xy 协方差 xy
散点图
(例题分析)
散点图
(例题分析)
14
不 良 贷 款
14 12 10 8 6 4 2 0
0 100 200 300 400
12 10
不良贷款
8 6 4 2 0 贷款余额 不良贷款与贷款余额的散点图
14 12
0
10
20
30
累 计 应 收 贷 款 不 良 贷 款 与 累 计 应 收 贷 款 的 散 点 图
相关系数的显著性检验
(检验的步骤)
1. 2. 3. 4. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验 采用R.A.Fisher提出的 t 检验 检验的步骤为

提出假设:H0: ;H1: 0
t r 计算检验的统计量:
• 若t>t,拒绝H0 • 若t<t,不拒绝H0
函数关系
(几个例子)
函数关系的例子
某种商品的销售额(y)与销售量(x)之间的关系可 表示为 y = px (p 为单价) 圆的面积(S)与半径之间的关系可表示为S=R2 企业的原材料消耗额(y)与产量(x1) 、单位产量 消耗(x2) 、原材料价格(x3)之间的关系可表示为 y = x1 x2 x 3
负线性相关

不相关
正线性相关
散点图
(例题分析)
【例】一家大型商业银行在多个地区设有分行 ,其业务主要是进行基础设施建设、国家重 点项目建设、固定资产投资等项目的贷款。 近年来,该银行的贷款额平稳增长,但不良 贷款额也有较大比例的提高,这给银行业务 的发展带来较大压力。为弄清楚不良贷款形 成的原因,希望利用银行业务的有关数据做 些定量分析,以便找出控制不良贷款的办法 。下面是该银行所属的 25 家分行 2002 年的 有关业务数据
或化简为 r
n n x x y y
2 2 2 2
n xy x y
相关系数
(取值及其意义)
1. 2. r 的取值范围是 [-1,1] |r|=1,为完全相关

r =1,为完全正相关 r =-1,为完全负正相关
3. 4. 5. 6.
r = 0,不存在线性相关关系相关 -1r<0,为负相关 0<r1,为正相关 |r| 越趋于 1 表示关系越密切; |r| 越趋于 0 表示关 系越不密切
相关主题