当前位置:文档之家› 第三章 多元线性回归分析1

第三章 多元线性回归分析1

第三章 多元线性回归分析主要内容:⏹ 多元线性回归模型⏹ 多元线性回归模型的参数估计 ⏹ 多元线性回归模型的统计检验 ⏹ 多元线性回归模型的预测 ⏹ 案例3.1 多元线性回归模型一、多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。

一般表现形式:i ki k i i i u X X X Y +++++=ββββ 22110 i=1,2,…,n其中:k 为解释变量的数目,j β称为回归参数(regression coefficient )。

ki k i i ki i i i X X X X X X Y E ββββ+⋅⋅⋅+++=2211021),,|(经济解释:j β也被称为偏回归系数,表示在其他解释变量保持不变的情况下,j X 每变化1个单位时,Y 的均值E(Y)的变化;或者说j β给出了j X 的单位变化对Y 均值的“直接”或“净”(不含其他变量)影响。

样本回归函数:用来估计总体回归函数i =1,2…,n其随机表示式:i e 称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i u 的近似替代。

i ki ki i i i e X X X Y +++++=ββββˆˆˆˆ22110 ki ki i i i X X X Y ββββˆˆˆˆˆ22110++++=§3.2 多元线性回归模型的估计一、普通最小二乘估计对于随机抽取的n 组观测值对样本回归函数:i=1,2…n根据最小二乘原理,参数估计值应该是下列方程组的解∑∑∑===+⋅⋅⋅+++-=-==⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎨⎧=∂∂=∂∂=∂∂=∂∂ni kik i i i n i ni ii ik X X X Y Y Y e Q Q Q Q Q 12221101122210))ˆˆˆˆ(()ˆ(0ˆ0ˆ0ˆ0ˆββββββββ其中即 Y X X X '='βˆ)(由于X X '满秩,故有 Y X X X ''=-1)(ˆβ随机误差项μ的方差σ的无偏估计可以证明,随机误差项u 的方差的无偏估计量为二、参数估计量的性质在满足基本假设的情况下,其结构参数β的普通最小二乘估计、最大或然估计及矩估计仍具有:线性性、无偏性、有效性。

1、 线性CY Y X X X =''=-1)(ˆβ其中,C =X X X ''-1)( 为一仅与固定的X 有关的行向量 2、无偏性3、有效性(最小方差性)参数估计量βˆ的方差-协方差矩阵 βμX X X βμX βX X X Y X X X β11=''+=+''=''=---)()())()(())(()ˆ(1E E E E 11ˆ22--'=--=∑k n k n eie e σKi ki i i i X X X Y ββββˆˆˆˆˆ22110++++= kj n i X Y ji i ,2,1,0,,,2,1),,(==其中利用了 μβμββX X X X X X X Y X X X ''+=+''=''=---111)()()()(ˆ 和 I E 2)(σμμ='三、多元线性回归模型的参数估计实例 例题3.1Y : 某商品需求量 X1:该商品价格 X2:消费者平均收入下图(图3.1) Yˆ= 113.83 - 8.36 X 1 + 0.18 X 2 (4.0) (-3.6) (0.9)R 2 =0.88, F =26.4, n =10图3.1§3.3 多元线性回归模型的统计检验多元线性回归模型的基本假定假设1,解释变量是非随机的或固定的,且各X 之间互不相关(无多重共线性)。

假设2,随机误差项具有零均值、同方差及不序列相关性假设3,解释变量与随机项不相关假设4,随机项满足正态分布一、拟合优度检验1、可决系数与调整的可决系数记 2)(∑-=Y YT S S i总离差平方和2)ˆ(∑-=Y Y ESS i 回归平方和 2)ˆ(∑-=ii Y Y RSS 剩余平方和 则可决系数该统计量越接近于1,模型的拟合优度越高。

问题:在应用过程中发现,如果在模型中增加一个解释变量,2R 往往增大。

这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。

但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。

调整的可决系数(adjusted coefficient of determination ) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:)1/(T SS 1/(12----=n k n RSS R )其中:n-k -1为残差平方和的自由度,n -1为总体平方和的自由度。

2R 与2R 之间存在如下关系:11)1(122-----=k n n R RTSS RSSTSS ESS R -==12ESS RSS Y Y Y Y TSS ii i +=-+-=∑∑22)ˆ()ˆ(2222)ˆ()ˆ)(ˆ(2)ˆ())ˆ()ˆ(()(Y Y Y Y Y Y Y Y Y Y Y Y Y Y TSS i i i i i i ii i i -∑+--∑+-∑=-+-∑=-∑=二、方程的显著性检验(F 检验)方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。

1、方程显著性的F 检验 即检验模型i ki k i i i u X X X Y +++++=ββββ 22110 n i ,,2,1 =中的参数j β是否总体显著不为0。

可提出如下原假设与备择假设: H0:021====k βββ H1:j β不全为0F 检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS如果这个比值较大,则X 的联合体对Y 的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。

因此,可通过该比值的大小对总体线性关系进行推断。

在原假设0H 成立的条件下,统计量 )1/(/--=k n R S S kE S SF 服从自由度为(k , n -k -1)的F 分布。

给定显著性水平α,可得到临界值αF (k,n-k-1),由样本求出统计量F 的数值,通过F >αF (k,n-k-1) 或 F ≤αF (k,n-k-1)来拒绝或接受原假设0H ,以判定原方程总体上的线性关系是否显著成立。

2、关于拟合优度检验与方程显著性检验关系的讨论 由 )1/(T SS 1/(12----=n k n RSS R ) 与 )1/(/--=k n RSS kESS F可推出:kF k n n R +----=1112或 )1/()1(/22---=k n R kR F F 与2R 同向变化:当2R =0时间,F =0;2R 越大,F 值也越大;当2R =1时,F 为无穷大。

三、变量的显著性检验(t 检验)方程的总体线性关系显著≠每个解释变量对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。

这一检验是由对变量的 t 检验完成的。

1、t 统计量由于12)()ˆ(-'=X X Cov σβ由于回归平方和∑=2ˆi yESS 是解释变量X 的联合体对被解释变量Y 的线性作用的结果,考虑比值∑∑=22ˆ/ii eyRSS ESS以ii c 表示矩阵1)(-'X X 主对角线上的第i 个元素,于是参数估计量的方差为:iic Var 2)ˆ(σβ= 其中2σ为随机误差项的方差,在实际计算时,用它的估计量代替:11ˆ22--'=--=∑k n ee k n eiσ易知βˆ服从如下正态分布 ),(~ˆ2iii i c N σββ 因此,可构造如下t 统计量)1(~1ˆˆˆ----'--=k n t k n ee c S t iii i i i iβββββ2、t 检验设计原假设与备择假设::0:10≠=i i H H ββ),,2,1(k i =给定显著性水平α,可得到临界值)1(2/--k n t α,由样本求出统计量t 的数值,通过|t|>)1(2/--k n t α 或 |t|≤)1(2/--k n t α来拒绝或接受原假设0H ,从而判定对应的解释变量是否应包括在模型中。

注意:一元线性回归中,t 检验与F 检验一致一方面,t 检验与F 检验都是对相同的原假设0:10=βH 进行检验; 另一方面,两个统计量之间有如下关系:看下一页图(例题3.1)四、参数的置信区间参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。

在变量的显著性检验中已经知道:)1(~1ˆˆˆ----'--=k n t k n ee c S t iii i i i iβββββ222212221222122212212ˆ)2(ˆ)2(ˆ)2(ˆ)2(ˆt x n e x n ex n e n e x n e yF i ii ii i i ii i=⎪⎪⎭⎫ ⎝⎛⋅-=⎪⎪⎪⎭⎫ ⎝⎛-=-=-=-=∑∑∑∑∑∑∑∑∑∑ββββ容易推出:在(1-α)的置信水平下i β的置信区间是其中,2/αt 为显著性水平为α 、自由度为n -k -1的临界值。

如何才能缩小置信区间?• 增大样本容量n ,因为在同样的样本容量下,n 越大,t 分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;• 提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差( , ) ββααββi i t s t s ii-⨯+⨯22平方和越小。

•提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的|X’X|的值越大,致使区间缩小。

§3.4 多元线性回归模型的预测样本内10点与样本外1点预测小结⏹多元线性回归模型⏹多元线性回归模型的参数估计⏹多元线性回归模型的统计检验⏹多元线性回归模型的预测预测的评价指标例题3.1预测评价指标的应用建模过程中应注意的问题(1) 研究经济变量之间的关系要剔除物价变动因素。

注意:价格指数应该用定基价格指数。

(2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。

例:我国粮食产量 = f (耕地面积、农机总动力、施用化肥量、农业人口等)。

5000100001500020000250003000080818283848586878889909192GDP GDP(f)例:关于食用油消费量模型(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。

相关主题