当前位置:文档之家› 第三章 一元线性回归模型

第三章 一元线性回归模型

第三章 一元线性回归模型一、预备知识 (一)相关概念对于一个双变量总体),(i i x y ,若由基础理论,变量x 和变量y 之间存在因果关系,或x 的变异可用来解释y 的变异。

为检验两变量间因果关系是否存在、度量自变量x 对因变量y 影响的强弱与显著性以及利用解释变量x 去预测因变量y ,引入一元回归分析这一工具。

将给定i x 条件下i y 的均值i i i x x y E 10)|(ββ+= (3.1) 定义为总体回归函数(Population Regression Function,PRF )。

定义)|(i i i x y E y -为误差项(error term ),记为i μ,即)|(i i i i x y E y -=μ,这样i i i i x y E y μ+=)|(,或i i i x y μββ++=10 (3.2) (3.2)式称为总体回归模型或者随机总体回归函数。

其中,x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。

误差项的构成包括以下四个部分:(1)未纳入模型变量的影响 (2)数据的测量误差(3)基础理论方程具有与回归方程不同的函数形式,比如自变量与因变量之间可能是非线性关系(4)纯随机和不可预料的事件。

在总体回归模型(3.2)中参数10,ββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。

给定一组随机样本n i y x i i ,,2,1),,( =,对(3.1)式进行估计,若10,),|(ββi i x y E 的估计量分别记为^1^0^,,ββi y ,则定义3.3式为样本回归函数i i x y ^1^0^ββ+= (n i ,,2,1 =) (3.3)注意,样本回归函数随着样本的不同而不同,也就是说^1^0,ββ是随机变量,它们的随机性是由于i y 的随机性(同一个i x 可能对应不同的i y )与x 的变异共同引起的。

定义^i i y y -为残差项(residual term ),记为i e ,即^i i i y y e -=,这样i i i e y y +=^,或i i i e x y ++=^1^0ββ (n i ,,2,1 =) (3.4)(3.4)式称为样本回归模型或者随机样本回归函数。

样本回归模型中残差项i e 可视为总体回归模型中误差项i μ的估计量。

(二)参数估计:普通最小二乘法如何估计总体参数10,ββ的估计量^1^0,ββ,或如何获得样本回归函数呢?在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法(Ordinary Least Squares,OLS )1。

OLS 求解未知参数10,ββ的估计量^1^0,ββ,使残差平方和最小。

即∑∑∑===--=-=ni i i ni i i ni ix y y y e Minimize 12^1^012^12)()(ββ (3.5)求解(3.5)式可得∑∑==---=ni ini i ix xy y x x121^1)())((β ,x y ^1^0ββ-= (3.6)其中,∑==n i i x n x 11,∑==ni i y n y 11。

(三)古典线性回归模型统计推断除了包括参数估计外还包括假设检验,在根据样本回归函数检验假设时,需要对误差项i μ的生成过程做一些假定。

假定1 回归模型是参数线性的,但可以不是变量线性的。

假定2 解释变量i x 与随机误差项i μ不相关。

即0),cov(=i i x μ。

如果解释变量i x 是非随机的,则该假设自动满足。

假定3 零均值假定。

即0)(=i E μ假定4 同方差假定。

即2)var(σμ=i假定5 无自相关假定。

即两个误差项之间不相关0),cov(=j i μμ j i ≠假定6 回归模型是正确设定的。

假定7 正态性假定。

即i μ~),0(2σN1之所以称为普通最小二乘法,是因为还有一种方法称为广义最小二乘法,普通最小二乘法是广义最小二乘法的特例。

满足以上假定的回归模型称为古典线性回归模型(Classical Line Regression Model,CLRM )。

(四)高斯-马尔科夫定理如果古典线性回归模型的基本假定成立,则OLS 估计是最优线性无偏估计量(Best Linear Unbiased Estimators,BLUE )。

(五)预测原理回归分析的目的之一是利用回归模型预测因变量。

比如,金融决策经常涉及一个长期的资源承诺(a long-term commitment of resources ), 决策的收益将取决于将来发生的事情。

假设双变量总体的回归模型为(3.2),即i i i x y μββ++=10 (3.2) 在一组随机样本n i x y i i ,,2,1),,( =下,利用OLS 求得样本回归函数为(3.3) i i x y ^1^0^ββ+= (n i ,,2,1 =) (3.3) 给定样本外一点f x ,则因变量f y 的点预测为f f x y ^1^0^ββ+= (3.7) 点预测^f y 的标准误为∑=--++=ni if f x xx x ny se 122^^)()(11)(σ (3.8)因变量f y 的置信度为α-1的区间预测为[)()2(^2^f f y se n t y --α, )()2(^2^f f y se n t y -+α] (3.9)二、案例[案例1] 经济形势对人们工作意愿的影响根据劳动经济学理论,经济形势对人们工作意愿的影响存在两个互相独立的效应:受挫工人效应和增加工人效应。

用失业率度量(UNR)经济形势,用劳动力参与率(LFPR)度量人们的工作意愿。

受挫工人假说认为当经济形势恶化时,许多失业工人就业意愿降低,放弃寻找工作并退出劳动力市场,从而劳动力参与率下降;增加工人假说认为当经济形势恶化时,许多尚未进入劳动力市场的后备工人,比如带孩子的母亲,可能会由于养家的人失去工作而决定进入劳动力市场,即使这些工作的报酬很低,只要可以弥补由于养家的人失去工作而造成的损失即可,从而劳动参与率上升。

劳动参与率的增加或减少取决于增加工人效应和受挫工人效应的强弱对比。

如果增加工人效应占主导,则LFPR将升高;相反,如果受挫工人效应占主导,则LFPR将会下降。

因此,劳动参与率是上升还是下降,是一个实证问题。

表3-1给出了美国1980-2002年城市劳动参与率(CLFPR)和城市失业率(CUNR)数据,城市失业率是指城市失业人口占城市劳动力的百分比。

表3-1 1980-2002美国城市劳动力参与率、城市失业率与实际平均每小时国内工资year CLFPR(%) CUNR(%) AHE82($)1980 63.8 7.1 7.781981 63.9 7.6 7.691982 64.0 9.7 7.681983 64.0 9.6 7.791984 64.4 7.5 7.801985 64.8 7.2 7.771986 65.3 7.0 7.811987 65.6 6.2 7.731988 65.9 5.5 7.691989 66.5 5.3 7.641990 66.5 5.6 7.521991 66.2 6.8 7.451992 66.4 7.5 7.411993 66.3 6.9 7.391994 66.6 6.1 7.401995 66.6 5.6 7.401996 66.8 5.4 7.431997 67.1 4.9 7.551998 67.1 4.5 7.751999 2000 67.167.24.24.07.867.892001 66.9 4.8 7.992002 66.6 5.8 8.14注:AHE82代表以1982年价计算的平均每小时工资。

资料来源:参考文献[1],3-5。

三、实验目的[案例1] 经济形势对人们工作意愿的影响1、用Eviews软件绘制CUNR与CLFPR之间的散点图,观察两变量之间的线性关系;2、根据劳动经济学理论以及散点图分析,为研究经济形势对人们工作意愿的影响,建立一元线性回归模型;3、根据劳动经济学理论,对回归系数的符号进行预期并加以解释;4、利用表3-1提供的数据,利用OLS法对问题2中建立的回归方程进行估计;5、在Word 文件中报告回归结果并对回归结果进行解释;6、显示因变量的实际值、拟合值,残差表(残差图);7、绘制回归残差的直方图,并对残差进行正态性检验;8、计算CUNR 的估计系数置信度为0.95的置信区间,该区间包括零吗? 9、利用1980-1999年的数据为样本,再次估计问题2中建立的回归模型,并利用估计的结果,给出2000-2002年clfpr 的点预测和区间预测(置信度为0.95)。

四、实验步骤[案例1] 经济形势对人们工作意愿的影响1、(1)建立工作文件 workfile clfpr-cunr a 1980 2002 (2)录入数据 data cunr clfpr(3) 绘制散点图 打开包含序列cunr 和clfpr 组对象,点击View/Graph ,在出现的Graph Options 窗口的Specifi 选项中选择Scatter ,在Fit Lines 中选择Regression Line ,点击确定。

图3-1 城市劳动参与率与城市失业率的散点图从图3-1可以观察到城市劳动参与率与城市失业率存在较明显的负相关关系。

另外,也可通过计算两变量之间的简单相关系数,判断两变量之间线性关系的方向和程度。

在命令窗口键入cor cunr clfpr ,在随后出现的相关系数矩阵中显示cunr 与 clfpr 之间的相关系数为-0.843967。

尽管用简单相关系数可以很方便地判断两变量之间线性相关的方向和程度,但散点图依然不可替代。

有时自变量与因变量之间并非线性关系,但通过一定的变量变换可转化为线性关系,而散点图可以为选择何种变换提供直观的帮助。

2、根据劳动经济学理论以及散点图分析,为研究经济形势对人们工作意愿的影响,建立一元线性回归模型如下:t t t cunr clfpr μββ++=10这里,人们的工作意愿是我们的研究对象,经济形势是影响因素。

故clfpr是因变量或被解释变量,cunr 是自变量或解释变量。

3、从理论上分析,回归系数1β表示cunr 对clfpr 的边际影响,其符号取决于增加工人效应和受挫工人效应的强弱对比。

相关主题