线性回归分析的基本步骤步骤一、建立模型 知识点:1、总体回归模型、总体回归方程、样本回归模型、样本回归方程①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。
Y X U β=+特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。
例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下:作出其散点图如下:②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。
总体回归方程的求法:以例1的数据为例 1)对第一个X i ,求出E (Y |X i )。
由于01|i i i EY X X ββ=+,因此任意带入两个X i和其对应的E (Y |X i)值,即可求出01ββ和,并进而得到总体回归方程。
如将()()222777100,|77200,|137X E Y X X E Y X ====和代入()01|i i i E Y X X ββ=+可得:01001177100171372000.6ββββββ=+=⎧⎧⇒⎨⎨=+=⎩⎩以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为:③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。
如在例1中,通过抽样考察,我们得到了20个家庭的样本数据:那么描述样本数据中因变量Y和自变量X之间非确定依赖关系的模型ˆY X eβ=+就称为样本回归模型。
④样本回归方程(线):通过样本数据估计出ˆβ,得到样本观测值的拟合值与解释变量之间的关系方程ˆˆY Xβ=称为样本回归方程。
如下图所示:⑤四者之间的关系:ⅰ:总体回归模型建立在总体数据之上,它描述的是因变量Y和自变量X之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关系。
这种近似表现在两个方面:一是结构参数ˆβ是其真实值β的一种近似估计;二是残差e是随机误差项U的一个近似估计;ⅱ:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E(Y|X)与自变量X之间的线性关系;样本回归方程是根据抽样数据得到的,它描述的是因变量Y样本预测值的拟合值ˆY与自变量X之间的线性关系。
ⅲ:回归分析的目的是试图通过样本数据得到真实结构参数β的估计值,并要求估计结果ˆβ足够接近真实值β。
由于抽样数据有多种可能,每一次抽样所得到的估计值ˆβ都不会相同,即β的估计量ˆβ是一个随机变量。
因此必须选择合适的参数估计方法,使其具有良好的统计性质。
2、随机误差项U存在的原因:①非重要解释变量的省略②人的随机行为③数学模型形式欠妥④归并误差(如一国GDP 的计算) ⑤测量误差等3、多元回归模型的基本假定①随机误差项的期望值为零()0i E U = ②随机误差项具有同方差性2() 1,2,,i Var u i n σ==③随机误差项彼此之间不相关(,)0 ; ,1,2,,i j Cov u u ij i j n =≠=④解释就变量X 1,X 2,···,X k 为确定型变量,与随机误差项彼此不相关。
(,)0 1,2,, 1,2,,ij j Cov X u i k j n ===⑤解释就变量X 1,X 2,···,X k 之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X 为满秩矩阵:rank (X )=k +1<n⑥随机误差项服从正态分布,即:u i ~N (0,σ2),i =1,2,···,n 步骤二、参数估计 知识点:1、最小二乘估计的基本原理:残差平方和最小化。
2、参数估计量:①一元回归:1201ˆˆˆi i i x y x Y Xβββ⎧=⎪⎨⎪=-⎩∑∑②多元回归:()1ˆT X X X Y β-'=3、最小二乘估计量的性质(Gauss-Markov 定理):在满足基本假设的情况下,最小二乘估计量ˆβ是β的最优线性无偏估计量(BLUE 估计量) 步骤三、模型检验1、经济计量检验(后三章内容)2、统计检验 ①拟合优度检验 知识点:ⅰ:拟合优度检验的作用:检验回归方程对样本点的拟合程度 ⅱ:拟合优度的检验方法:计算(调整的)样本可决系数22/RR21RSS ESS R TSS TSS ==-,2/11/1ESS n k R TSS n --=-- 注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们的自由度。
计算方法:通过方差分析表计算例1) 样本容量为多少?解:由于TSS 的自由度为n -1,由上表知n -1=14,因此样本容量n =15。
2) 求ESS解:由于TSS =ESS +RSS ,故ESS =TSS -RSS =77 3) ESS 和RSS 的自由度各为多少?解:对三变量模型而言,k =2,故ESS 的自由度为n -k -1=12 RSS 的自由度为k =2 4)求22RR 和解:2659650.998866042RSS R TSS ===,2/110.9986/1ESS n k R TSS n --=-=-②回归方程的显著性检验(F 检验)目的:检验模型中的因变量与自变量之间是否存在显著的线性关系 步骤:1、提出假设:0121:...0:0 , 1,2,...,k j H H j kββββ====≠=至少有一2、构造统计量:/~(,1)/1RSS kF F k n k ESS n k =----3、给定显著性水平α,确定拒绝域(),1F F k n k α>--4、计算统计量值,并判断是否拒绝原假设例3:就例2中的数据,给定显著性水平1%α=,对回归方程进行显著性检验。
解:由于统计量值/65965/25140.13/177/12RSS k F ESS n k ===--,又()0.012,12 6.93F =,而()0.015140.132,12 6.93F F =>=故拒绝原假设,即在1%的显著性水平下可以认为回归方程存在显著的线性关系。
附:2RF 与检验的关系:由于()()22222/1/1/1/1RSS RSS R R RSS ESS R k TSS ESS RSS R F RSS k R n k F ESS n k ⎫==⇒=⎪⎪+-⇒=⎬---⎪=⎪--⎭又 ③解释变量的显著性检验(t 检验)目的:检验模型中的自变量是否对因变量存在显著影响。
知识点:多元回归:ˆiS β=,其中1,1i i C ++为()1X X -'中位于第i +1行和i +1列的元素;一元回归:1ˆˆS S ββ==变量显著性检验的基本步骤:1、提出假设:01:0 :0i i H H ββ=≠2、构造统计量:ˆˆ~(1)ii tt n k S ββ=--3、给定显著性水平α,确定拒绝域/2(1)t t n k α>--4、计算统计量值,并判断是否拒绝原假设例4:根据19个样本数据得到某一回归方程如下:12ˆ58.90.20.1 (0.0092) (0.084)Y X X se =-+-试在5%的显著性水平下对变量12X X 和的显著性进行检验。
解:由于/20.025(1)(16) 2.12t n k t α--==,故t 检验的拒绝域为 2.12t >。
对自变量1X 而言,其t 统计量值为11ˆˆ0.221.74 2.120.0092t S ββ===>,落入拒绝域,故拒绝10β=的原假设,即在5%的显著性水平下,可以认为自变量1X 对因变量有显著影响;对自变量2X 而言,其t 统计量值为22ˆˆ0.11.192.120.084t S ββ===<,未落入拒绝域,故不能拒绝20β=的原假设,即在5%的显著性水平下,可以认为自变量2X 对因变量Y 的影响并不显著。
④回归系数的置信区间目的:给定某一置信水平1α-,构造某一回归参数i β的一个置信区间,使i β落在该区间内的概率为1α-基本步骤:1、构造统计量ˆˆ~(1)ii i t t n k S βββ-=--2、给定置信水平1α-,查表求出α水平的双侧分位数/2(1)t n k α--3、求出i β的置信度为1α-的置信区间()ˆˆ/2/2ˆˆ,iii i t S t S ααββββ-⨯+⨯例5:根据例4的数据,求出1β的置信度为95%的置信区间。
解:由于0.025(16) 2.12t =,故1β的置信度为95%的置信区间为:()()0.2 2.120.0092,0.2 2.120.00920.18,0.22-⨯+⨯=3、经济意义检验目的:检验回归参数的符号及数值是否与经济理论的预期相符。
例6:根据26个样本数据建立了以下回归方程用于解释美国居民的个人消费支出:122ˆ10.960.93 2.09 ( 3.33) (249.06) ( 3.09)0.9996Y X X t R =-+---= 其中:Y 为个人消费支出(亿元);X 1为居民可支配收入(亿元);X 2为利率(%) 1)先验估计12ˆˆββ和的符号; 解:由于居民可支配收入越高,其个人消费水平也会越高,因此预期自变量X 1回归系数的符号为正;而利率越高,居民储蓄意愿越强,消费意愿相应越低,因此个从消费支出与利率应该存在负相关关系,即2ˆβ应为负。
2) 解释两个自变量回归系数的经济含义;解:1ˆ0.93β=表示,居民可支配收入每增加1亿元,其个人消费支出相应会增加0.93亿元,即居民的边际消费倾向MPC =0.93;2ˆ 2.09β=-表示,利率提高1个百分点,个人消费支出将减少2.09亿元。
截距项表示居民可支配收入和利率为零时的个人消费支出为-10.96亿元,它没有明确的经济含义。
3)检验1β是否显著不为1;(5%α=)解:1)提出假设:0111: 1 :1H H ββ=≠2)构造统计量:111ˆˆ~(1)t t n k S βββ-=--3)给定显著性水平5%α=,查表得/20.025(1)(23) 2.07t n k t α--==,故拒绝域为 2.07t >4)计算统计量值:由于1111ˆ1ˆ1ˆˆ0.93ˆ()0.003734ˆ249.06()t S S t ββββββ=⇒===则111ˆˆ0.0718.75 2.070.003734t S βββ-===>,落入拒绝域。
故拒绝1 1 β=的原假设。
即在5%的显著性水平下,可认为边际消费倾向MPC 显著不为1。