第四章 多元线性回归模型在一元线性回归模型中,解释变量只有一个。
但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。
当解释变量的个数由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。
本章在理论分析中以二元线性回归模型为例进行。
一、预备知识(一)相关概念对于一个三变量总体,若由基础理论,变量21,x x 和变量y 之间存在因果关系,或21,x x 的变异可用来解释y 的变异。
为检验变量21,x x 和变量y 之间因果关系是否存在、度量变量21,x x 对变量y 影响的强弱与显著性、以及利用解释变量21,x x 去预测因变量y ,引入多元回归分析这一工具。
将给定i i x x 21,条件下i y 的均值i i i i i x x x x y E 2211021),|(βββ++= (4.1) 定义为总体回归函数(Population Regression Function,PRF )。
定义),|(21i i i i x x y E y -为误差项(error term ),记为i μ,即),|(21i i i i i x x y E y -=μ,这样i i i i i x x y E y μ+=),|(21,或i i i i x x y μβββ+++=22110 (4.2)(4.2)式称为总体回归模型或者随机总体回归函数。
其中,21,x x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。
在总体回归模型(4.2)中参数210,,βββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。
给定一组随机样本n i x x y i i i ,,2,1),,,(21 =,对(4.1)式进行估计,若21021,,),,|(βββi i i x x y E 的估计量分别记为^2^1^0^,,,βββi y ,则定义(4.3)式为样本回归函数i i i x x y 2^21^1^0^βββ++= (n i ,,2,1 =) (4.3)注意,样本回归函数随着样本的不同而不同,也就是说^2^1^0,,βββ是随机变量,它们的随机性是由于i y 的随机性(同一组),(21i i x x 可能对应不同的i y )、21,x x 各自的变异、以及21,x x 之间的相关性共同引起的。
定义^i i y y -为残差项(residual term ),记为i e ,即^i i i y y e -=,这样i i i e y y +=^,或i i i e x y ++=^1^0ββ (n i ,,2,1 =) (4.4) (4.4)式称为样本回归模型或者随机样本回归函数。
样本回归模型中残差项i e 可视为总体回归模型中误差项i μ的估计量。
(二)多元线性回归模型的矩阵表示多元线性回归模型的参数估计比一元线性回归模型要复杂得多,为了便于计算和分析,便于将结果由三变量总体推广到一般的多变量总体,引入矩阵这一工具简化计算和分析。
设n i x x y i i i ,,2,1),,,(21 =是取自总体的一组随机样本。
在该组样本下,总体回归模型(4.2)式可以写成方程组的形式121211101μβββ+++=x x y222212102μβββ+++=x x yn n n n x x y μβββ+++=22110利用矩阵运算,可表示为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n n nn x x x x x x y y y μμμβββ 21210212212211121111 (4.5) 记⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n n x x x x x x X 2122122111111 ,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=310ββββ,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n μμμμ 21 则在该组样本下,总体回归模型的矩阵表示为μβ+=X y (4.6)记⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=^2^1^0^ββββ,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n e e e e 21 则样本回归模型的矩阵表示为 e X y +=^β (4.7)(三)模型假定假定1 回归模型是参数线性的,并且是设定正确的。
假定2 随机误差项与解释变量不相关。
即0),cov(=i ji x μ,2,1=j 。
如果解释变量是非随机的,则该假设自动满足。
假定3 零均值假定。
即0)(=i E μ,n i ,,2,1 =假定4 同方差假定。
即2)var(σμ=i ,n i ,,2,1 =假定5 无自相关假定。
即两个误差项之间不相关0),cov(=j i μμ j i ≠,n i ,,2,1 =,n j ,,2,1 =假定6 解释变量1x 与2x 之间不存在完全共线性,即两个解释变量之间无确切的的线性关系。
假定7 正态性假定。
即i μ~),0(2σN ,n i ,,2,1 =(四)参数估计与估计量的分布系数向量β的OLS 估计为y X X X T T 1^)(-=β (4.8) 其中,T X 为X 的转置矩阵。
在随机误差项服从正态分布的假定下,系数向量的估计量也服从正态分布,即^β~))(,(12-X X N T σβ (4.9) 记1)(-=X X C T 的第j 个主对角元素为jj c ,则^j β~),(2jj j c N σβ (4.10)有了系数估计量的分布,就可以对总体参数做假设检验。
与双变量总体相同,总体误差i μ是不可观察的,因而其方差2σ是未知的。
若用2σ的无偏估计量^2σ代替2σ,则OLS 估计量服从自由度为3-n 的t 分布,而不是正态分布,即 )(^^j jj se βββ-~)3(-n t (4.11) 其中,jj j c se ^2^)(σβ=,32^2-=∑n e i σ。
(五)预测原理 回归分析的目的之一是利用回归模型预测因变量。
假设三变量总体的回归模型为(4.2),即i i i i x x y μβββ+++=22110 (4.2) 在一组随机样本n i x x y i i i ,,2,1),,,(21 =下,利用OLS 求得样本回归函数为(4.3) i i i i x x y 2^21^1^0^βββ++= (n i ,,2,1 =) (4.3) 给定样本外一点T f f f x x x ),,1(21=,则因变量f y 的点预测为f f f x x y 2^21^1^0^βββ++= (4.12) 点预测^f y 的标准误为f T T f f x X X x y se 1^^)(1)(-+=σ (4.13) 因变量f y 的置信度为α-1的区间预测为[)()3(^^f f y se n t y --α, )()3(^2^f f y se n t y -+α] (4.14) 二、案例[案例1] Woody 餐馆的选址分析Woody 餐馆是一家价位适中、24小时营业的家庭连锁店,公司邀请你决策下一家连锁店的选址问题。
你决定建立一个回归模型来解释每一家连锁餐馆的毛销售额Y (the gross sales volume ),通过文献的阅读,你认为以下变量对毛销售额的影响较大,N =竞争变量:餐馆位置半径2里以内市场直接竞争者的数量;P=人口: 餐馆位置半径3里以内人口的数量;I=收入: 餐馆位置半径3里以内家庭平均收入。
并且通过调研,你获得了33家Woody 餐馆连锁店的数据。
[案例2] 经济形势和实际工资对人们工作意愿的影响在第三章,我们根据劳动经济学理论,分析了经济形势对人们工作意愿的影响存在两种效应:受挫工人效应和增加工人效应;并且利用1980-2002年的数据实证了受挫工人效应占主导地位。
但根据劳动经济学理论,影响人们工作意愿的因素,除了经济形势以外,还有实际的工资水平。
从理论上说,实际工资增加对劳动供给具有两种效应:替代效应与收入效应。
替代效应趋于使劳动供给增加,而收入效应则趋于使劳动供给降低,两种效应的相对影响取决于家庭的偏好(参考文献[4],p49)。
本案例考察实际工资对人们工作意愿是否有影响,以及在有影响的情况下,那种效应占优。
数据见表3.1。
三、实验目的[案例1] Woody 餐馆的选址分析1、绘制Y 对N 、P 、I 的散点图,并在散点图中附加回归线。
2、建立Y 对N 、P 、I 的线性回归模型,并定性分析解释变量N 、P 、I 对Y 的影响。
3、利用样本数据及OLS 法对回归模型进行估计,并报告回归结果。
4、观察回归系数的显著性和方程的显著性,并解释回归系数的含义。
[案例2] 经济形势和实际工资对人们工作意愿的影响1、绘制clfpr 对ahe82的散点图,并附回归线,观察城市劳动参与率与实际工资之间的线性关系。
2、建立clfpr 对ahe82的一元线性回归模型,利用1980-2002年的数据估计模型,并观察回归系数的显著性和方程的显著性。
3、同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模型,利用1980-2002年的数据估计模型,观察回归系数的显著性和方程的显著性,并解释回归系数的经济含义。
4、对上面(2)与(3)中估计结果的差别进行解释。
5、模型的选择问题,在以下三个模型之间,哪个模型更好呢?t t t cunr clfpr μββ++=10 (Ⅰ) t t t ahe clfpr μββ++=8210 (Ⅱ) t t t t cunr ahe clfpr μβββ+++=21082 (Ⅲ)四、实验原理五、实验步骤[案例1] Woody 餐馆的选址分析图4-1 Y 对N 、P 、I 的散点图1、打开Eviews 工作文件Woody.wfl ,按住Ctrl 键,点击工作文件目录中的序列Y 、N 、P 、I 图标,点击鼠标右键,点击Open/as Group ,出现包含序列Y 、N 、P 、I 的组对象窗口。
点击组对象窗口工具栏的View 按钮,选择Graph ,在Specifi 选项中选择Scatter ,在Fit lines 中选择Regression Line ,在Multiple 中选择Multiple graphs-First vs.All,设定完毕后点击确定按钮,则出现Y 对N 、P 、I 的三张散点图,点击鼠标右键,选择Copy ,将散点图复制到Word 文档中,如图4-1所示。