当前位置:文档之家› 整理:多元线性回归过程

整理:多元线性回归过程


22
每个系数的检验:t检验 Sig列小等于0.05,说明对应行的变量通过 检验,可接受,对应的系数,就是B列的值; Sig列只要有一个大于0.05,则说明这个函 数还不能用,要改进
23
改进:逐个按照Sig从大到小,去掉Sig大 于0.05行对应的变量,重新建模 这个过程叫做逐步回归,这个过程用spss 自动完成
17
实际应用中:存在多重共线性,需要消除 多重共线性,不能直接建立多元线性回归 方程。
18
序列自相关 计算结果为1.956,查表,结果发现不存在 序列自相关
19
异方差检验 怀特检验
20
第三部分:多元线性回归建模过程
21
F检验:检验函数整体上是否可行,如果 sig.列小于0.05,说明函数整体上看可行。
27
确定系数:
简记为R2,即回归平方和SS回归与总离 均差平方和SS总的比例。 R2 = SS回归/ SS总 可用来定量评价在Y的总变异中,由P个 X变量建立的线性回归方程所能解释的比 例。
28
残差平方和,小的好
29
二、预测的评价标准
1、平均预测误差平方和(mean squared error,简记MSE)平均预测误差绝对值 (mean absolute error,简记MAE)。
55
在matlab命令行中输入: Beta=INVXX*XY
56
中间结算结果
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 合计 y 9 9.5 10 10.6 12.4 16.2 17.7 20.1 21.8 25.3 31.3 36 219.9 x2 12.1 12.9 13.8 14.8 16.4 20.9 24.2 28.1 30.1 35.8 48.5 54.8 312.4 x3 48.2 48.9 49.54 50.25 51.02 51.84 52.76 53.69 54.55 55.35 56.16 56.98 629.24 x2x3 583.22 630.81 683.65 743.7 836.73 1083.5 1276.8 1508.7 1642 1981.5 2723.8 3122.5 16817 x2平方 146.41 166.41 190.44 219.04 268.96 436.81 585.64 789.61 906.01 1281.64 2352.25 3003.04 10346.3 x3平方 2323.24 2391.21 2454.212 2525.063 2603.04 2687.386 2783.618 2882.616 2975.703 3063.623 3153.946 3246.72 33090.37 x2y 108.9 122.55 138 156.88 203.36 338.58 428.34 564.81 656.18 905.74 1518.05 1972.8 7114.19 x3y 433.8 464.55 495.4 532.65 632.65 839.81 933.85 1079.2 1189.2 1400.4 1757.8 2051.3 11811 y平方 81 90.25 100 112.36 153.76 262.44 313.29 404.01 475.24 640.09 979.69 1296 4908.13
第三章 回归分析预测法
1
第一部分:多元线性回归经典假设
2
假设 1. 解释变量 X 是确定性变量,不是随机变 量,并且不存在多重共线性;
假设2. 随机误差项具有零均值、同方差和无自 相关,不存在异方差性,序列相关性:
E(i)=0 Var (i)=2 Cov(i, j)=0 i=1,2, …,n i=1,2, …,n i≠j i,j= 1,2, …,n



(2.69)
其中y s , y , s , 分别是序列 yts 和 yt 的平均值和 标准差, 是它们的相关系数,即:
1 s T yts y s yt y
33
定义不相等比例如下:
U
M

1 T y
y
s
y
s t
解释被解释变量的变化,因此解释能力的高低
就成为衡量模型好坏的重要的标准。
4、理论一致性(theoretical consistency)
即使模型的拟合性很高,但是如果模型中某一 变量系数的估计值符号与经济理论不符,那么 这个模型就是失败的。
37
5、预测能力(predictive power) 著名经济学家弗里德曼(M.Friedman)认为: “对假设(模型)的真实性唯一有效的检验就 是将预测值与经验值相比较”。因此一个好的 模型必须有对未来的较强的预测能力。
7
假设3. 随机误差项与解释变量X之间不 相关: Cov(Xi, i)=0
i=1,2, …,n
假设4. 服从零均值、同方差、零协方 差的正态分布 i~N(0, 2 )
i=1,2, …,n
8
多重共线性
9
第二部分:多元线性回归经典假设检验
10
9 9.5 10
12.1 12.9 13.8
偏误比例U M 表示系统误差,因为它度Байду номын сангаас的是模 拟序列与实际序列之间的偏离程度。
方差比例U S 表示的是模型中的变量重复其实际 变化程度的能力。
协方差比例 U C 度量的是非系统误差,即反映的 是考虑了与平均值的离差之后剩下的误差。 理想的不相等比例的分布是 U M U S 0,U C 1。
criterion,简记为AIC)和Schwarz的信息准则
(Schwarz information criterion,简记为SC)
2k ˆ ) AIC=ln( T
2
k ˆ ) (ln T) SC ln( T
2
40
其中 ˆ 2 是方程随机误差项方差的估计值,k是 解释变量的个数,T是样本容量。
48.2 48.9 49.54
10.6
12.4 16.2 17.7 20.1 21.8 25.3 31.3 36
14.8
16.4 20.9 24.2 28.1 30.1 35.8 48.5 54.8
50.25
51.02 51.84 52.76 53.69 54.55 55.35 56.16 56.98
48.9
49.54 50.25 51.02
16.2
17.7 20.1 21.8
20.9
24.2 28.1 30.1
51.84
52.76 53.69 54.55
X=
25.3
31.3 36
35.8
48.5 54.8
55.35
56.16 56.98
X’=
49
在matlab中输入命令行,然后按回车 XX=X'*X
bj ´ = bj (sj / sy)
42
第四部分:多元线性回归手工建模过程
43
一元线性回归计算过程
1、系数估计:
ˆx ˆ yt t
ˆ
x y T xy x Tx ˆx ˆ y
t t 2 t 2
44
多元线性回归计算过程
1、系数估计:
yt 1 2 x2t 3 x3t ...... k xkt ut
38
二、用于预测的模型的选择
因为R2将随着模型解释变量的增多而不断增加,
按照此标准我们将不会得到最佳的预测模型。 因此必须对由于解释变量增多而造成自由度丢 失施加一个惩罚项,其中的一个标准就是:
T 1 2 R 1 1 R T K
2


39
对自由度丢失惩罚更为严格的标准: Akaike的信息准则(Akaike information
50
51
在matlab中输入INVXX=inv(XX),然后按回 车(注意大小写)
52
从excel中复制y这列的数据
53
在matlab命令行中 输入:Y=[],然后鼠标移到中括号中间 然后,黏贴复制的y数据
54
在matlab中输入XY=X'*Y,然后按回车(注 意大小写)
变量的MSE定义为:
1 T s 2 MSE= yt yt T t 1
s t
(2.66)

其中 y ― yt 的预测值,yt ―实际值,T―时 段数
30
变量的MAE定义如下:
(2.67)
1 T s y y MAE= t t ,变量的定义同前 T t 1
24
到此,如果检验都通过,说明:这个模型 是可以用的 如果有多个都可以,那个更好
25
多元线性回归方程的评价
评价回归方程的优劣、好坏可用确定系 数R2和剩余标准差Sy,x1,2..p 。 Sy,x1,2. p =SQRT(SS误差/n-p-1) 如用于预测,重要的是组外回代结果。
26
R检验 一般接近1的好 估计标准误,小一些好
3
异方差
Y Y
0 1X
0 1X
X
X
4
随机误差项包含众多因素对因变里的影响, 如果其中某一个或多个因素随 着自变量观侧值的变化而对因变量产生不 同的影响,往往会导致异方差性。一 般情况下,用截面数据作样本时出现异方 差性的可能较大,或者说一般都存在 异方差性。而当随机误差项存在异方差性 时,它的方差往往与主要的自变量之 间存在某种联系。
35
第五节:模型选择 一、“好”模型具有的特性
1、节省性(parsimony) 一个好的模型应在相对精确反应现实的基础上 尽可能的简单。 2、可识别性(identifiability) 对于给定的一组数据,估计的参数要有唯一确 定值。
相关主题