当前位置:文档之家› 多元线性回归分析

多元线性回归分析

多元线性回归分析
为了研究两个变量之间的关系,最简单的方法是绘制散点图。

就是把一个因素作为自变量x ,另一个因素作为因变量y ,将它们成对的观察值标在直角坐标图上,判断出各点分布是呈直线还是曲线,从而看出它们之间存在着怎样的关系,以上方法是解决两个变量之间的相关关系问题,然而,客观事物的变化往往受到多种因素的影响,即使其中一个因素起着主导作用,但有时其他因素的作用也是不可忽视的,这种对多因素的相关和回归,称为多元相关和回归因素分析,运算机理可以通过下面计算表示:
设影响因变量y 的自变量因素共有k 个:12,,,k x x x ,通过实验得到下列n 组观
察值:(12,,
,k x x x ,t y ), t=1,2,3 …n 。

一般地,如果因变量y 与解释变量12,,,k x x x 之间服从如下干系: 01122k k y b b x b x b x u =+++++
(4-1)
则对因变量y 及解释变量12,,,k x x x 作n 次观测后,所得到n 组观测样本
(t y ,12,,
,t t kt x x x )(t=1,2, …,n)将满足如下关系:
01122t t t k kt t y b b x b x b x u =+++
++ (4-2)
这就是多元线性回归模型的一般形式。

(t y ,12,,
,t t kt x x x )(t=1,2,…,
n)为第t 次观测样本,j b (j=0,2,…,k )为模型参数,t u 为随机误差项。

模型中的回归系数j b (j=0,2,…,k )就表示当其他解释变量不变的条件下,第j 个解释变量的单位变动对因变量均值的影响,多元线性回归模型中这样的回归系数,称为偏回归系数。

将n 次观测样本所遵从的n 个随机方程式(4-2)写成方程组形式,有:
1011122111k k y b b x b x b x u =+++
++
2011222222k k y b b x b x b x u =+++
++
(4-3)
…… …… …… 01122n n n k kn n y b b x b x b x u =+++++
其中,随机误差u 满足: ()0
j E u =
()2
j Var u σ=
(4-4)
(),0,j k Cov u u j k
=≠
将(4-3)利用矩阵运算,可表示为:
111211012212221212111
k k n n
n
kn k n y x x x b u y x x x b u y x x x b u ⎛⎫⎛⎫⎛⎫⎛⎫ ⎪ ⎪⎪ ⎪ ⎪ ⎪⎪ ⎪
=+
⎪ ⎪⎪ ⎪ ⎪ ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭
(4-5)
同样(4-4)可以表示为: ()0
E u =
()()2Cov u E uu I
σ=(常数)
记12n y y Y y ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭为被解释变量的观测值向量:1121
12122212111k k n n kn x x x x x x X x x x ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝
⎭为解释变量的观测值矩阵,则多元线性回归模型的矩阵表示如下:
Y =XB +U (4-6)
4.1.2 多元线性回归模型结果检验
4.1.2.1 回归方程的显著性检验 (1) 回归平方和与剩余平方和
建立回归方程以后, 回归效果如何呢?因变量y 与自变量12,,
,m x x x 是否
确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量y 取值的变化规律。

y 的每次取值k y (k=1,2,…,n )是有波动的, 这种波动常称为变差, 每次观测值k y 的变差大小, 常用该次观侧值k y 与n 次观测值的平均值
11n
k
k y y n -=∑ (4-7) (5-7)式子中的k y y
-称为离差, 而全部n 次观测值的总变差可由总的离差
平方和
()()()2
2
2
1
1
1
ˆˆn
n
n
yy k k k k k k s y y y y
y y Q U ---=-=-+-=+∑∑∑ (4-8)
其中:
()2
1
ˆn
k k U y
y -=-∑
称为回归平方和, 是回归值
ˆk y
与均值y 之差的平方和, 它反映了自变量
12,,
,m x x x 的变化所引起的y 的波动,其自由度
U f m
=(m 为自变量的个数)。

()2
1
ˆn
k k Q y y
-=-∑ (4-9)
(4-9)式称为剩余平方和(或称残差平方和),是实测值k
y 与回归值
ˆk y
之差的平
方和, 它是由试验误差及其它因素引起的,其自由度1Q f n m =--。

总的离差平方和yy s 的自由度为1n -。

如果观测值给定,则总的离差平方和yy s 是确定的,即Q +U 是确定的,因此U 大则Q 小 反之,U 小则Q 大,所以U 与Q 都可用来衡量回归效果,且回归平方和U 越大则线性回归效果越显著,或者说剩余平方和Q 越小回归效果越显著,如果Q =0,则回归超平面过所有观测点; 如果Q 大,则线性回归效果不好。

(2) 复相关系数
为检验总的回归效果, 人们也常引用无量纲指标
2yy yy yy
s Q U R s s -=
=

R = (4-10)
(4-10)式中的R 称为复相关系数。

因为回归平方和U 实际上是反映回归方程中全部自变量的“方差贡献”,因此R 2就是这种贡献在总回归平方和中所占的比例,因此R 表示全部自变量与因变量y 的相关程度。

显然0≤R ≤1。

复相关系数越接近1,回归效果就越好,因此它可以作为检验总的回归效果的一个指标。

但应注意,R 与回归方程中自变量的个数m 及观测组数n 有关,当n 相对于m 并不很大时,常有较大的R 值, 因此实际计算中应注意m 与n 的适当比例,一般认为应取n 至少为m 的5到10倍为宜。

(3)回归模型总体显著性检验:F 检验
回归模型的总体显著性检验,旨在对模型中的被解释变量与解释变量之间的线性关系在总体上是否显著成立做出推断。

检验模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立,即是
检验方程:
t 01122y t t t kt kt t b b x b x b x u =+++
++ (4-11)
中参数是否显著不为0,按照建设检验的原理与程序,提出原假设与备择假设为
0120
k H b b b ===
==,
()
1:1,2,,j H b j k =
不全为零,由于t y 服从正太分布,按照假设检验的原理与程序,t y 的一组样本的平方和服从2χ分布。

所以有
ESS = ()
2
t y y -∑~
()
2k χ RSS =
()2
ˆt y y
-∑~
()
21n k χ--
即回归平方和、残差平方和分别服从自由度为k 和(n-k-1)的2χ分布。

将自由度考虑进去进行方差分析,有如下方差分析表: 进一步根据数理统计学中的定义,可以证明,在H0成立的条件下,统计量 ()
1ESS k
F RSS n k =
-- (4-12)
服从第一自由度为k 和第二自由度为(n-k-1)的F 分布。

4.1.3.2 回归系数的显著性检验:t 检验
前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量12,,
,m x x x 对因变量y 都是重要的, 即可能有某个自变量
对y 并不起作用或者能被其它的k x
的作用所代替, 因此对这种自变量我们希望
从回归方程中剔除, 这样可以建立更简单的回归方程。

显然某个自变量如果对
作用不显著, 则它的系数i β就应取值为0, 因此检验每个自变量i x
是否显著, 就要检验假设:
0:0,1,2,
,i H i m
β==

0i β=假设下, 可应用t 检验:
1
i
ii
i b c t Q n m =
-- 1,2,,i m = (4-13)
其中
为矩阵
()()
1
1ii ii C c S s --===的对角线上第i 个元素。

变差来源 平方和 自由度 方差 源于回归 ESS k ESS/k 源于残差 RSS n-k-1 RSS/(n-k-1) 总变差
TSS
n-1
对给定的检验水平α, 从t 分布表中可查出与α对应的临界值t α, 如果有
i t t α>, 则拒绝假设0H , 即认为i β与0有显著差异, 这说明i x 对y 有重要作用不应剔除; 如果有i t t α≤则接受假设0H , 即认为00β=成立, 这说明i x 对y 不起作用, 应予剔除。

4.1.3关系模型计算过程
相关和回归因素分析的主要内容有以下三个方面:
(1)应用统计软件,从数据出发,分析使事物变动的各因素之间存在着什么样的联系,以确定相关关系的表现形式,建立事物变动与各因素之间的回归方程,并对其可信度进行统计检验。

(2)从影响某一事情的许多因素中,判断哪些因素的影响是显著的,哪些是不显著的,从而建立更切合实际的回归方程式。

(3)利用回归方程式,根据一个或几个因素的值,控制或预报另一个因素的值,得出众多因素中的主要影响因素。

相关主题