当前位置:
文档之家› 人大《统计学》第十章_相关与回归
人大《统计学》第十章_相关与回归
17
§2 回归分析
§2.1 回归分析的基本问题 §2.2 一元线性回归模型的设定 §2.3 一元线性回归模型的拟合 §2.4 回归系数的推断 §2.5 回归方程的评价
18
§2.1 回归分析的基本问题
回归分析
回归分析是一种应用极为广泛的数量分析方法,它用回归方程的形式 描述和反映变量间的数量变化规律。
回归分析的目的
在相关的基础上进一步研究变量在之间的相互关系,因此它也是带误 差项的不确定性的函数关系。
相关分与回归分析的区别
1.回归分析研究变量之间相互关系的具体形式,能从一个变量的变化 来推测另一个变量的变化情况,为预测提供可能; 2. 相关分析假设变量之间的地位是等同的,不对变量进行区分;而在 回归分析中则把变量区分为自变量和因变量。二者的地位不同,自变 量通常被假设为非随机变量。
13
§1.2 相关系数
§1.2.3 使用相关系数的注意事项
1.对变量做线性变换不会改变相关系数的绝对值大小。 2.相关系数能够用来度量两变量之间的线性关系,但并不是度量非 线性关系的有效工具。低的相关系数可能存在很好的非线性相关。 3.有相关关系也不意味着有因果关系。
14
§1.3 相关系数的检验
解:记产品销售额为Y,广告投入额为X。
X 168.92,Y 619.53, X 2 1487.93,Y 2 19546.58, XY 5376.18
1
n XY X Y n X 2 X 2
20 5376.18 168.92 619.53 201487.93 168.922
2.35
0
Y
Yi 0 1 X i i 1.5 0.6 X i i
其中 i 服从均值为0,方差为1的正态分布。
31
§2.4 回归系数的推断
现在假定X的观测值为1、2、3、4、5、6、7、8、9、10。根
据误差的分布分别生成10个误差值,再由X的观测值和给定
的系数,计算出Y的值,记为样本1。再根据误差的分布分别
ei2 n2
38
§2.4 回归系数的推断
【例10.4 】在例10.3中拟合的产品销售额对广告投入额的
回归方程中,考察系数估计量 ˆ0和 ˆ1 的方差。
39
§2.4 回归系数的推断
解:
记产品销售额为Y,广告投入额为X,回归方程为
Yˆ 11.16 2.35X
S2
ei2 n2
Yi 11.16 2.35Xi 2 18.81 1.045
统计学
中国人民大学 出版社
All rights reserved
第十章 相关与回归
第十章 相关与回归
§1 相关分析 §2 回归分析 §3 用回归进行预测 §4 Logistic回归
2
§1相关分析
§1.1 变量间的相互关系 §1.2 相关系数 §1.3 相关系数的检验
3
§1.1 变量间的相互关系
24
§2.3 一元线性回归模型的拟合
寻找使得 Q(0 , 1)达到最小的 0 和 1 做为估计值,
即
Q ˆ0, ˆ1 min Q0, 1
对
n
Q(0 , 1 ) (Yt 0 1 X i )2 i 1
分别对 0和 1求偏导,得到正规方程组:
Q
0
Q 2
1
n
2
i 1 n
i 1
Y 0 1X
其中0 和 1 称为模型的参数。
22
§2.2 一元线性回归模型的设定
一元线性回归方程 E(Y X ) 0 1X 表明,X和Y之间的 统计关系是在平均意义下讨论的,即当X的值给定后利用回 归模型计算得到的Y的平均值。
根据取得的数据估计回归方程中的参数,得到经验回归 方程,或者称为估计的回归方程:
20 2
18
x n 2 i1 i
和广告投入额的相关系数进行显著性检验。
16
§1.3 相关系数的检验
解:
建立原假设和备择假设:
H0:=0
H1: 0
计算检验统计量: t 0.973 20 2 17.97 1 0.9732
由显著性水平 =0.05 ,查t分布表得
t0.05/2 20 2=2.10117.97
因而拒绝H0,认为产品销售额和广告投入额存在显著的相关关系。
5
§1.1 变量间的相互关系
相关关系可以用散点图直观表示。 通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱 程度和数据对的可能走向。
图10-1相关关系图
6
§1.2 相关系数
相关系数以数值的方式精确地度量了两个变量间线性相关的 强弱程度。
根据总体数据计算的相关系数称为总体相关系数,记为 。
35
§2.4 回归系数的推断
ˆ1 的方差:
V ˆ1
n
i 1
xi2V
Yi
x n 2 2
i1 i
2
x n 2
i1 i
ˆ1 服从均值为 1,方差为
2
x n 2
i1 i
的正态分布,即
ˆ1 1 ~ N 0,1
x n 2
i1 i
36
§2.4 回归系数的推断
ˆ0 的方差为:V ˆ0
0.973
201487.93 (168.92)2 2019546.58 (619.53)2
11
§1.2 相关系数
因此产品销售额和广告投入额的相关系数为0.973。SPSS的输 出结果如下:
12
§1.2 相关系数
§1.2.2 相关系数的性质
1.相关系数的符号:r >0表明两变量为正相关, r <0表明两变量为负相关;
相关系数显著性检验的基本步骤:
1. 建立原假设和备择假设 H0:总体相关系数 0 ; H1:总体相关系数 0 。
2.构建检验统计量 t r n2 1 r2
3.确定显著性水平 ,利用该统计量和t分布表判断是否拒绝原假设。
15
§1.3 相关系数的检验
【例10.2】
给定显著性水平为 =0.05 ,对例10.1计算的产品销售额
yi
yi
0
0 1 1 X
0 i 0
25
§2.3 一元线性回归模型的拟合
解方程得到
ˆ1
Lxy Lxx
ˆ0 Y ˆ1 X
式中
n
Lxx
i 1
Xi X
2
n i 1
X
2 i
1n (
n i1
Xi )2
n
n
1n
n
Lxy
(Xi
i 1
X )(Yi
Y)
i 1
X iYi
( n
1
X i )(
变量之间的关系 1. 确定性关系(或称函数关系):
研究的是确定现象非随机变量间的关系。 2. 统计关系(或称相关关系):
研究的是非确定现象随机变量间的关系。
4
§1.1 变量间的相互关系
相关关系的划分: 1.按相关程度的大小:完全相关、不完全相关、和不相关 2.按相关关系的变动方向: 正相关和负相关 3.按相关的形式:线性相关和非线性相关 4.按变量个数 : 单相关和复相关
根据样本数据计算的则称为样本相关系数,记为r。
7
§1.2 相关系数
§1.2.1 Pearson简单相关系数
Pearson简单相关系数用来度量定距型变量间的线性相关关系, 定义如下:
r (x x)( y y) (x x)2 (y y)2
上式显示,简单相关系数是xi和yi分别标准化后的积的平均数。 简式得:
2.相关系数的取值范围在-1和+1之间,即:–1≤r≤ 1;
3.相关系数r的绝对值:越接近于1, 表示变量之间的相关程度越高; 越接近于0,表示变量之间的相关程度越低; 如果r =1或–1,则表示两个现象完全线性相关; 如果r=0,则表示两个现象完全不相关。 r 0.3 ,表示变量之间的线性相关关系较弱; 0.8 r 1 ,表示变量之间高度相关。
生成10个误差值,由X的观测值和给定的系数,计算出Y的值,
记为样本2。按照这个方法生成30组样本。分别对每个样本
进行回归,得到估计的系数
的 ˆ0,, 见ˆ1 表10-4。
ˆ。0 ,由ˆ1此可以得到30个不同
32
§2.4 回归系数的推断
表10-4 蒙特卡罗模拟实验:1.5+0.6Xi+ i ; i ~N(0,1)
1
Yi )
为了方便,记 xi Xi X , yi Yi Y ,即:
ˆ1
n i 1
x i
yi
x n 2
i1 i
, ˆ0
Y
ˆ1 X
26
§2.3 一元线性回归模型的拟合
【例10.3】根据例10.1中数据,以产品销售额为因变量, 广告投入额为自变量拟合回归方程。
27
§2.3 一元线性回归模型的拟合
产品销售额和广告投入额数据表
10
§1.2 相关系数
解:对表10-1中的数据进行计算可得
x 168.92 y 619.53 x2 1487.93
y2 19546.58 xy 5376.18
按照公式(10.2)带入有:
r
n xy x y
n x2 x2 n y2 y2
20 5376.18 168.92 619.53
假定4:无自相关:即两个误差项之间是不相关的,即:
E i , j 0,i j。
30
§2.4 回归系数的推断
§2.4.1 最小二乘估计量的最优线性无偏性 在给定经典回归模型的假定下,由高斯-马尔科夫定理保证了: 最小二乘估计量是最优线性无偏的估计量。可通过蒙特卡罗 模拟实验来验证 ˆ0 ,ˆ1 的无偏性。假设已知如下的总体回归 方程(参数值是真实已知的):