当前位置:文档之家› 统计学 第三章 多元回归分析

统计学 第三章 多元回归分析

2.对于线性模型来说,奥克姆剃刀可表示成简约原 则
一个模型应包括拟合数据所必需的最少变量
3.如果一个模型只包含数据拟合所必需的变量,这 个模型就称为简约模型(parsimonious model)
实际中的许多多元回归模型都是对简约模型的扩 展
37
2020/4/8
二、变量选择与逐步回归
38
2020/4/8
n
yˆi y 2 k
i1
~ F(k , n k 1)
yi yˆ 2 (n k 1)
i1
3.确定显著性水平和分子自由度k、分母自由度n-k-1找出临
界值F 4. 作出决策:若F>F ,拒绝H0
27
2020/4/8
回归系数的检验
线性关系检验通过后,对各个回归系数有选择地进 行一次或多次检验
来自残差(随机影响)
}y yˆ
yy
yˆ bˆ0 bˆ1x
}yˆ y 来自回归(系统影响)
y
x
19
2020/4/8
变差平方和关系
n
n
n
yi y2 yˆi y2 yi yˆ2
i 1
i1
i1
{ { {
总平方和(SST) 自由度:n-1
回归平方(SSR) 自由度:k
残差平方和(SSE) 自由度:n-k-1
强度,即多重相关系数R等于因变量的观
测值 yi 与估计值 yˆi 之间的简单相关系数即:
R
即 rxy
R2
ryyˆ
ryyˆ (一元相关系数r也是如此,
。读者自己去验证)
23
2020/4/8
估计标准误差 Se
对误差项的标准差 的一个估计值 衡量多元回归方程的拟合优度 计算公式为
n
Se
yi yˆi 2
意义与 R2类似
数值小于R2 用Excel进行回归
22
2020/4/8
多重相关系数
(multiple correlation coefficient)
多重判定系数的平方根R
反映因变量y与k个自变量之间的相关程度
实际上R度量的是因变量的观测值 yi 与由
多元回归方程得到的预测值 yˆi 之间的关系
父亲身高、母亲身高、性别是不是影响子女身高的主要 因素呢?如果是,子女身高与这些因素之间能否建立一 个线性关系方程,并根据这一方程对身高做出预测?
这就是本章将要讨论的多元线性回归问题
4
2020/4/8
调查数据
子女 身高 171 174 177 178 180 181 159 169 170 170
可能会使回归的结果造成混乱,甚至会把分 析引入歧途 ,F检验显著,t检验不显著
可能对参数估计值的正负号产生影响,特别 是各回归系数的正负号有可能同预期的正负 号相反
参数估计量的方差变大,参数检验有可能失 效,有些回归系数通不过显著性检验
33
2020/4/8
多重共线性的识别
1.检测多重共线性的最简单的一种办法是计算模型中各对自 变量之间的相关系数,并对各相关系数进行显著性检验
1.将一个或多个相关的自变量从模型中剔除,使保
留的自变量尽可能不相关 2.如果要在模型中保留所有的自变量,则应
避免根据 t 统计量对单个参数进行检验 对因变量值的推断(估计或预测) 限定在自变量样
本值的范围内
35
2020/4/8
提示
1.在建立多元线性回归模型时,不要试图引入 更多的自变量,除非确实有必要
y b0 b1x1 b2x2 L bk xk
b0 ,b1,b2 ,,bk是参数 是被称为误差项的随机变量 y 是x1,x2 , ,xk 的线性函数加上误差项 包含在y里面但不能被k个自变量的线性关系所解
释的变异性
8
2020/4/8
多元回归模型的基本假定
正态性。误差项ε是一个服从正态分布的随机变量, 且期望值为0,即ε~N(0,2)
x1, x2 ,…,xk的方程 2.多元线性回归方程的形式为
E( y ) = b0+ b1 x1 + b2 x2 +…+ bk xk
b1,b2,,bk称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位
时,y 的平均变动值
10
2020/4/8
估计的多元线性回归方程
(estimated multiple linear regression equation)
平方和关系:SST = SSR + SSE
自由度关系:n-1=k+(n-k-1)
20
2020/4/8
多重判定系数(multiple coefficient of determination)
回归平方和占总平方和的比例 计算公式为
n
R2
yˆi
i1
n
yi
y 2 y 2
SSR SST
1
SSE SST
2
2020/4/8
学习目标
多元线性回归模型、回归方程与估计的回归方 程
回归方程的拟合优度与显著性检验 多重共线性问题及其处理 利用回归方程进行预测 虚拟自变量的回归 用Excel和SPSS进行回归分析
3
2020/4/8
身高受那些因素影响?
决定身高的因素是什么?父母遗传、生活环境、体育锻 炼,还是以上各因素的共同作用
单位:cm
5
父亲 身高
母亲 身高
166
158
171
158
179
168
174
160
173
162
170
160
168
153
168
153
170
167
170
160
1:男
子女 性别
1 1 1 1 1 1 1 1 1 1
0:女
子女 身高 155 161 166 170 158 160 160 162 165 168
sbˆi
se
xi x 2
30
2020/4/8
第三节 多重共线性及其处理
一、多重共线性及其识别 二、变量选择与逐步回归
31
2020/4/8
一、多重共线性及其识别
32
2020/4/8
多重共线性(multicollinearity)
1.回归模型中两个或两个以上的自变量彼此相关
2.多重共线性带来的问题有
父亲 身高 165 182 166 178 173 170 171 167 175 172
母亲 身高 157 165 156 160 160 165 150 158 160 162
子女 性别
0 0 0 0 0 0 0 0 0 0
2020/4/8
第一节 多元线性回归模型
一、回归模型与回归方程
二、参数的最小二乘估计
i1
nk 1
SSE MSE nk 1
用Excel进行回归
24
2020/4/8
二、显著性检验
25
2020/4/8
线性关系检验
检验因变量与所有自变量之间的线性关系是 否显著
也被称为总体的显著性检验 检 验 方 法 是 将 回 归 均 方 (MSR) 同 残 差 均 方
(MSE)加以比较,运用 F 检验来分析二者之 间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系
如果不显著,因变量与自变量之间不存在线性 关系
26
2020/4/8
线性关系检验
1. 提出假设
H0:b1b2bk=0 线性关系不显著 H1:b1,b2, bk至少有一个不等于0
2. 计算检验统计量F
n
F SSR k SSE (n k 1)
若有一个或多个相关系数显著,就表示模型中所用 的自变量之间相关,存在着多重共线性
2.如果出现下列情况,暗示存在多重共线性(经验判断) 模型中各对自变量之间显著相关
当模型的线性关系检验(F检验)显著时,几乎所有回 归系数的t检验却不显著
回归系数的正负号与预期的相反
34
2020/4/8
多重共线性的处理
6
2020/4/8
一、回归模型与回归方程
7
2020/4/8
多元回归模型 (multiple linear regression model)
一个因变量与两个及两个以上自变量的回归
描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 的方程,称为多元回归模型
涉及 k 个自变量的多元线性回归模型可表示为
2.计算检验的统计量 t
t bˆi ~ t(n k 1)
Sbˆi
3. 确定显著性水平,并进行决策
t>t2,拒绝H0; t<t2,不拒绝H0

29
2020/4/8
回归系数的推断 (置信区间)
回归系数在(1-)%置信水平下的置信区间为
bˆi t 2 (n k 1)sbˆi
自由度
回归系数的抽样标准差
第 三 章 多元线性回归
统计名言
上好的模型选择可遵循一个称为奥克姆剃刀(Occam’s Razor)的基本原理:最好的科学模型往往最简单,且 能解释所观察到的事实。
——William Navidi
2020/4/8 1
第 三 章 多元线性回归
第一节 多元线性回归模型 第二节 拟合优度和显著性检验 第三节 多重共线性及其处理 第四节 利用回归方程进行预测 第五节 虚拟自变量的回归
2004年12月,中国人民大学国民经济管理系02级的两位 学生,对人大在校生进行了问卷调查。问卷采取随机发 放、当面提问当场收回
调查的样本量为98人,男性55人,女性43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、 是否经常参加体育锻炼、家庭所在地是在南方还是在北 方等等。部分数据如下页的表所示(1代表男性,0代表女 性)
相关主题