当前位置:文档之家› 第8章 相关与回归分析

第8章 相关与回归分析


32
估计标准误差
估计标准误差(standard error of estimate)是 对各观测数据在回归直线周围分散程度的一个度 量值,它是对误差项ε的标准差σ的估计。 估计标准误差Sy可以看作是在排除了X对Y的线性 影响后,Y随机波动大小的一个估计量。
33
从估计标准误差的实际意义看,它反映了用估计 的回归方程预测因变量Y时预测误差的大小。若 各观测数据越靠近回归直线,Sy越小,回归直线 对各观测数据的代表性就越好,根据估计的回归 方程进行预测也就越准确。
当一个变量取一定数值时,另一个变量有确定值 与之相对应,这种关系称为确定性的函数关系。 当一个变量取一定数值时,与之相对应的另一变 量的数值虽然不确定,但它仍按某种规律在一定 的范围内变化,这种关系称为不确定性的相关关 系。
7
变量间的关系: 函数关系
y


ห้องสมุดไป่ตู้





x
是一一对应的确定关系 记为 y = f (x), x 称为自变 量,y 称为因变量 – 某种商品的销售额(y)与 销售量(x)之间的关系可 表示为 y = p x (p 为单 价) – 圆的面积(S)与半径之间 的关系: S = R2
19
复相关系数和偏相关系数
复相关系数反映一个变量Y与其他多个变量X1, X2,…Xk之间的线性相关程度 偏相关系数 反映在X2,…Xk不变的情况下,变量 Y与X1之间的线性相关程度
20
第三节 简单线性回归分析
回归分析的内容
回归分析的特点
相关分析与回归分析的区别与联系
21
相关分析研究变量之间相关的方向和相关的程度, 但是相关分析不能指出变量间相互关系的具体形 式,也无法从一个变量的变化来推测另一个变量 的变化情况。 回归分析则是研究变量之间相互关系的具体形式, 它对具有相关关系的变量之间的数量联系进行测 定,确定一个回归方程,根据这个回归方程可以 从已知量来推测未知量,从而为估算和预测提供 了一个重要的方法。
Cov( X , Y ) Var ( X )Var (Y )
总体相关系数的定义式是:
Cov ( X , Y ) Var ( X )Var (Y )
协方差表示的是两个变量总体误差的方差, 这与只表示一个变量误差的方差不同。
Cov( X , Y ) E[( X E ( X )(Y E (Y )]
德国著名数学家、物理学家和天文学家高斯 (Karl Gauss)是最小二乘法(最小平方法)的 创立者,他在1809年出版的《关于太阳圆周曲线 的天体运动理论》一书中,首次提出用最小平方 法的原理确定行星轨道。
24
2 ˆ Q e (Yt -Yt ) 2 t 2 ˆ ˆ (Yt b 1 b 2 X t )
y
( xi , y i )
y y
{}
}

ˆ y y ˆy y
ˆ +b ˆx ˆb y 0 1
y
离差分解图
x
29
离差平方和的分解
ˆ + y ˆ y y y y y
两端平方后求和有
y
i 1
n
i
ˆ i y + yi y ˆ y y
25
一元线性回归方程的参数估计
b2


n X t Yt X t Yt n X ( X t )
2 t 2
b 1 Y t/ n b 2 X t / n Y b 2 X




26
一元线性回归模型的检验
拟合优度的评价 判定系数 估计标准误差 显著性检验 F检验 t检验
2
50
线性关系检验(F检验)
线性关系的检验是检验因变量y与P个自变量之间 的关系是否显著,也称为总体显著性检验。
利用最小二乘法,根据样本数据得到的多元线性 回归方程,称为估计的多元线性回归方程 偏回归系数表示当X2,X3,…,XP不变时,X1每 变动一个单位因变量Y的平均变动量。
43
回归方程的检验
拟合优度 修正的多重判定系数 估计标准误差 显著性检验 F检验 t检验
44
多重判定系数
多重判定系数(multiple coefficient of determination)是对多元线性回归方程拟合程度 的度量,它反映了在因变量Y的变差中被回归方 程所解释的比例。 R2的正的平方根称为复相关系数,它度量了因变 量同P个自变量的相关程度。













非线性相关
完全正线性相关
完全负线性相关



负线性相关

不相关
正线性相关
13
三、相关分析的主要内容 判断现象之间有无相关关系
34
sy
2 ( yi y i ) n2

SSE n2
MSE
估计标准误差的计算公式

( yi y i ) SSE sy MSE n2 n2
2
35
显著性检验
回归分析中的显著性检验包括两方面的内容:一 是对“各回归系数”的显著性检验( t检验); 二是对“整个回归方程”的显著性检验( F检验) 在一元线性回归模型中,由于只有一个解释变量 X,因此,对β2=0的t检验与对整个方程的F检验 是等价的。
17
样本相关系数的定义公式是:
r n X tYt X t Yt
2 t 2 2
( n X ( X t ) ( n Yt ( Yt ) )
2
18
相关系数r 的特征
r的取值介于-1与1之间。 当r=0时,只是表明两个变量之间不存在线性关系, 它并不意味着X与Y之间不存在其他类型的相关关 系。 当r>0时,X与Y为正相关;当r<0时,X与Y为负 相关。 当r=1时,称为完全正相关,而r=-1时,称为 完全负相关。
22
二、 一元线性回归模型
描述y 如何依赖于 x 和误差项 的方程称为回归函 数。 总体回归函数: y = b0 + b1 x +
b0 和 b1 称为模型的参数
样本回归函数:
ˆ +b ˆ x+e yt b 0 1 t
23
一元线性回归模型的估计
最小二乘法:通过使残差平方和最小来估 计回归系数的一种方法。
27
判定系数
回归直线与各观测数据的接近程度称为回归直线 的拟合优度(goodness of fit)。 度量回归直线的拟合优度最常用的指标是判定系 数(又称可决系数)。 该指标是建立在对总离差平方和进行分解的基础 之上的。
28
判定系数 ( coefficient of determination )
36
T检验
第1步:提出假设 H0:β1=0 H1:β1≠0 第2步:计算检验的统计量 第3步:确定显著性水平a,并根据自由度df=n- 2查t分布表,找到相应的临界值ta/2。
37
第4步:作出决策。若|t|>ta/2,拒绝H0,回归系 数等于0的可能性小于a,表明自变量X对因变量y 的影响是显著的,即两个变量之间存在着显著的 线性关系。若|t|<ta/2,则不能拒绝H0,表明自 变量X对因变量y的影响是不显著的,二者之间不 存在显著的线性关系。
2 2 i 1 i 1
n
n
2
{
{
回归平方和 (SSR)
总变差平方和 (SST)
残差平方和 (SSE)
{
30
SSR ( y i y) ( yi y i ) R 1 2 2 SST ( yi y) ( yi y)
2 2

2
31
判定系数的取值
R2的取值范围是[0,1] R2越接近于1,表明回归平方和占总离差平方和 的比例越大,回归直线与各观测点越接近,回归 直线的拟合程度就越好 在一元线性回归中,相关系数r实际上是判定系数 的平方根
10
二、相关关系的类型
按所研究的变量多少可分为单相关、复相关和偏 相关。 按相关的方向可分为正相关和负相关。 按相关的形式可分为线性相关和非线性相关。 按相关的程度可分为完全相关、不完全相关和不 相关。
11
相关关系的类型
相关关系
不相关
完全相关
不完全相关 线性相关 非线性相关
12
Scatter Diagram (散点图)
n 1 R 1 (1 R ) n p 1
2 a 2
48
估计标准误差
多元线性回归中的估计标准误差也是对误差项ε的 方差σ2的一个估计值 含义:根据自变量X1,X2,…,XP来预测因变量 y时的平均预测误差。
49
估计标准误差的计算公式

SSE ( yi y i ) sy MSE n p 1 n p 1
8
相关关系
变量间关系不能用函数关系精 确表达 一个变量的取值不能由另一个 变量唯一确定
– – x 商品销售额(y)与广告费支 出(x)之间的关系 收入水平(y)与受教育程度 (x)之间的关系
y



9
函数关系可以用数学分析的方法去研究,而相 关关系必须借助于统计学中的相关与回归分析 方法。
40
补充:多元线性回归
多元线性回归模型 多元线性回归方程的参数估计 回归方程的拟合优度 显著性检验
41
多元线性回归模型
Y=β0+β1X1+β2X2+……βpXp+ε 误差项反映了除X1,X2,…,XP之外的随机因 素对Y的影响,是不能由X1,X2,…XP与Y之间 的线性关系解释的误差。
相关主题