当前位置:文档之家› 多元线性回归预测

多元线性回归预测

多元线性回归预测在预测中,当预测对象y 受到多个因素m x x x ,,,21 影响时,如果各个影响因素j x (m j ,,2,1 =)与y 的相关关系可以同时近似地线性表示,这时则可以建立多元线性回归模型来进行分析和预测。

假定因变量y 与自变量),,2,1(m j x j =之间的关系可表示为i mi m i i i x b x b x b b y ε+++++= 22110(2-22)n i ,,2,1 =(样本序号)其中0b 、j b ),,2,1(m j =——模型回归系数;i ε为除自变量j x ),,2,1(m j =的影响之外对i y 产生影响的随机变量,即随机误差。

该结论基于以下的假设:随机误差i ε的期望值为零,),,2,1(0)(n i E i ==ε; 方差的期望值为一常数2σ,),,2,1()(22n i E i ==σε;各随机误差项是互不相关的,即协方差的数学期望值为零,0),(=j i E εε),,,2,1,(j i n j i ≠=当以上假设得到满足时,式(2-22)便称为多元线性回归预测模型,这时可写成),,2,1(ˆ22110n i x b x b x b b ymi m i i i =⋅++++=(2-23)和一元线性回归预测模型一样,多元线性回归预测模型建立时也采用最小二二乘法估计模型参数,但具体估计时有二种算法,分述如下。

一、多元线性回归预测模型的一般算法 1.建立模型 改写式(2-22) 得),,2,1(ˆn i yy i i i =-=ε方差和Q 为21221102212)()ˆ(mi m ni i i i ni i i ni i x b x b x b b y yy Q -----=-==∑∑∑=== ε根据最小二乘法原理,欲估计参数),,2,1(m i b i =,要满足条件:⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧=------=∂∂=------=∂∂=------=∂∂0)(Σ20)(Σ20)(Σ2221102211011221100mi m i i i mi mmi m i i i i mi m i i i x b x b x b b y x b Qx b x b x b b y x b Qx b x b x b b y b Q整理上式可得到:⎪⎪⎩⎪⎪⎨⎧=++++=++++=++++i mi mi m i mi imi mi ii mi i m i i t i i mi m i i yx x b x x b x x b x b y x x x b x x b x b x b y x b x b x b nb ΣΣΣΣΣΣΣΣΣΣΣΣΣΣ222110112122111022,110 而对于各变量的样本平均值,其误差平方和为:⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--==--==∑∑∑===n i i yy ni i j ji yj jy ni k ki j ji kj jk y y s y y x x s s x x x x s s 1211)())(())(((2-25)),,2,1,(k k j =式中∑==ni ji j x n x 11∑==ni i y n y 11利用(2-24)式,将方程组(2-25)可改写为⎪⎪⎩⎪⎪⎨⎧=+++=+++=+++my mm m m m ym m y m m s s b s b s b s s b s b s b s s b s b s b22112222221211122111 (2-26)以及 m m x b x b x b y b ----= 22110 (2-17)方程组(2-26)叫正规方程组或规范方程式,解该方程组,则得到回归系数0b ,1b ,2b ,…,m b 。

即为用最小二乘法原理估计的多元线性预测模型(2-23)的回归系数。

从原理上讲,按上述解法,对任意多个自变量的线性回归模型都可估计参数,但由于变量较多时计算工作量大,当自变量大于3个时,手工计算已很困难,宜用矩阵解法在计算机上计算。

如二元线性回归预测模型。

有正规方程为⎪⎩⎪⎨⎧=+=+y ys b b b s s b s b s 22221211212111 解该方程组,有12212211122221222112112221211s s s s s s s s s s s s s s s s b y y y y--==(2-28)同理122122112111122s s s s s s s s b y y --=(2-29) 22110x b x b y b --=(2-30)式中⎪⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎧-=--=-=--=-=-=-=--==-=-=))(Σ(Σ1Σ))((Σ))(Σ(Σ1Σ))((Σ)(Σ1Σ)(Σ))(Σ(Σ1Σ)()(Σ)(Σ1Σ)(Σ2222211111222222222212122112112212121111i i i i i i y i i i i i i y i ii i i i i i i i i i y x n y x y y x x s y x ny x y y x x s x n x x x s x x n x x x x x x s s x nx x x s (2-31)2.统计检验(1)剩余标准差计算1)ˆ(Σ2---=m n yy s i i(2-32)m ——自变量个数为了方便统计检验,先计算离差计算表。

(2)相关系数检验222)(Σ)ˆ(Σ1y y yy R i i i ---=(2-33)(3)F 检验22)ˆ(s m y yF i ⋅-∑=(2-34)(4)t 检验t 检验是通过对回归系数),,2,1(m i b i =的逐一检验,以判断),,2,1(m i x i =是否因系数i b 为零而必须予以删除。

iibi s b t =(2-35)然后设定显著性水平a ,查t 分布表,取自由度1--=m n v ,得到t 检验值2/a t 。

当2/a bi t t ≥时,检验通过。

当2/a bi t t <时,说明所选自变量i x 对y 影响不显著,或者自变量间存在多重共线性,应该予以剔除或作某种处理。

设bi s 为回归系数的标准差bi s 按下列公式计算:s c s ii bi ⋅=(2-36)式中:ii c ——正规方程系数矩阵ε的逆矩阵c 中的i 行i 列元素。

按照伴随矩阵求逆矩阵的方法,其逆矩阵⎥⎦⎤⎢⎣⎡--==-112112221||1s s s s s sc 因为 22212211||s s s s s -=所以有⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡------=1221221111122112112112212211121221221122s s s s s s s s s s s s s s s s s s s s c (2-37)在多元线性回归预测中,F 检验是判断全部自变量的整体作用与因变量的线性关系是否显著,而t 检验则是检验每一个自变量与因变量的线性关系是否显著。

所以,在多元线性回归预测中,t 检验比F 检验更有必要。

因为根据t 检验的结果,可以判断那些对因变量线性关系不显著的自变量,从而予以剔除,重新建立回归模型。

(5)DW 检验多元线性回归DW 检验和一元线性回归预测一样按(2-18)式计算(6)预测区间的确定按照正态分布理论,当置信度为95%时,预测区间为上限 s y yH 2ˆˆ0+= 下限s y yL 2ˆˆ0-= (2-38) 对于某组自变量的取值为10x ,20x ,…,0m x ,代入上式,则可求得该预测区间为(H L y y ˆ,ˆ)。

二、多元线性回归方程的矩阵解法 1.建立预测模型当已知n 组自变量),,2,1(m j x j =和因变量y 的观测值时,(2-22)式可用矩阵形式写成U XB Y +=(2-39)式中⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=mn n n m m n x x x x x xx x x y y y 21222121211121111X Y ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=n m b b b b εεε 21210U BY 为因变量列向量,即y 的n 个数,X 为自变量矩阵,即m 个自变量与y 对应的n 组数据,B 为回归系数向量,而U 为随机误差向量。

取随机误差向量0=U , 有 XB Y =因为在X 矩阵中,一般m n ≠,因而X 无法求逆,为了求解B ,两边同时左乘X 的转置矩阵T X 得XB X Y X T T =而X X T 为方阵,可求逆,这时可得Y X X X B T T 1)(-=即有多元线性回归预测模型系数估计公式Y X X X B T T 1210)(-=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=m b b b b (2-40)2.多元线性回归模型的统计检验 (1)标准误差检验多元线性回归预测模型标准差检验有因变量标准差s 检验和各回归系数标准差bi s 检验。

(a )因变量标准差s 检验 计算公式为1)(1221102--∑+∑+∑-∑=---=m n y x b y x b y b y m n B s i i i i i iT T Y X Y Y T (2-41)式中,m 为自变量个数,n 为样本数。

(b )各个回归系数标准差),,2,1(m i s bi =检验计算公式为),,2,1,0(m y s c s ii bi =⋅=(2-42)式中:ii c 为1)(-X X T 矩阵中主对角线上的第i 项。

(2)相关系数检验多元线性回归预测模型的相关系数计算公式为22yn y n R --=Y Y Y X B T T T (2-43)(3)F 检验多元线性回归预测模型的总体效果检验采用F 检验,计算公式为2T T Y X B ms F =(2-44)式中m 为自变量个数。

在利用(2-44)式计算出F 值后,确定显著性水平a ,查F 检验表,得a 显著水平下,当自由度1--=m n v 时的F 检验值a F 。

当a F F ≥时,检验通过,模型有效,反之则模型无效。

(4)t 检验(5)DW 检验:按式(2-18) (6)预测区间经过对回归预测模型进行检验,判断为有显著的线性关系后,在预测模型中代入预先确定的自变量值,即可求得因变量在对应点上的预测值。

三、多重共线性多重共线性是指自变量之间又存在线性关系,或接近线性关系。

应用最小二乘法估计参数的一个重要条件就是自变量之间为这完全的线性相关。

如果完全相关,则1)(-X X T 不存在,最小二乘法就失效了。

在一般情况下,自变量之间都有某种程度的相关。

如经济系统中的工业产值、农业产值、运输、建筑业产值、固定资产、职工人数等。

相关主题