回归分析预测法第一节一元线性回归分析预测法一、概念(思路)根据预测变量(因变量)Y和影响因素(自变量)X的历史统计数据,建立一元线性回归方程,然后代入X的预测值,求出Y的预测值的方法。
基本公式:y=a+bx其中:a、b为回归系数,是未知参数。
基本思路:1、利用X,Y的历史统计数据,求出合理的回归系数:a、b,确定出回归方程2、根据预计的自变量x的取值,求出因变量y的预测值。
二、一元线性回归方程的建立1、使用散点图定性判断变量间是否存在线性关系例:某地区民航运输总周转量和该地区社会总产值由密切相关关系。
2、 使用最小二乘法确定回归系数使实际值与理论值误差平方和最小的参数取值。
对应于自变量x i ,预测值(理论值)为b+m*x i ,实际值y i ,min ∑(y i -b-mx i )2,求a 、b 的值。
使用微积分中求极值的方法,得:由下列方程代表的直线的最小二乘拟合直线的参数公式:其中 m 代表斜率 ,b 代表截距。
一元线性回归.xls 三、回归方程的显著性检验x m y bx x n y x y x n mb mx y i ii i i i ˆˆ)(ˆ22-=--=+=∑∑∑∑∑判断X、Y之间是否确有线性关系,判定回归方程是否有意义。
有两类检验方法:相关系数检验法和方差分析法1、相关系数检验法构造统计量r相关系数的取值范围为:[-1,1],|r|的大小反映了两个变量间线性关系的密切程度,利用它可以判断两个变量间的关系是否可以用直线方程表示。
两个变量是否存在线性相关关系的定量判断规则:(n-2),把其与用对于给定的置信水平α,从相关系数临界值表中查出r临样本计算出来的统计量r0比较:若|r0|〉r临(n-2)成立,则认为X、Y之间存在线性关系,回归方程在α水平上显著。
差异越大,线性关系越好。
反之则认为不显著,回归方程无意义,变量间不存在线性关系。
其中:n为样本数。
2、方差分析法:方差分析的基本特点是把因变量的总变动平方和分为两部分,一部分反映因变量的实际值与用回归方程计算出的理论值之差,一部分反映理论值与实际值的平均值之差。
Y的总变差=Y的残余变差+Y的说明变差,SST=SSE+SSR或:总离差平方和=剩余平方和+回归平方和UQ S y y Qy y S n y y y y y y y y yy ii ii yyii i i i i +=----+-=-∑∑∑∑∑∑U Y X )ˆ(Y X )ˆ()()ˆ()ˆ()(222222差、可解释变差,记为的影响造成的,说明变对—由于—为差、不可解释变差,记的影响造成的,残余变以外其它因素对—除了—离程度,记为个数据和其平均值的偏——回归平方和U 与剩余平方和Q 相比越大,说明回归效果越好。
注:在方差分析中,已被解释的和未被解释的变差除以相应的自由度的个数即变为方差。
Y 的方差是Y 的总偏差平方和除以n-1,被解释的方差等于被解释的变差(因为回归只比估计Y 的均值多用一个约束条件),残余方差等于残差偏差平方和除以n-2,残差的方差S 2是误差方差的无偏且一致的估计(S 叫做回归标准差)S 2=Q/(n-m) 定量判断回归有效性有两种方法:(1) 可决系数检验法拟合优度统计量;判定系数 :r 2=SSR/SST=U/S yy 调整的r 2 =1-[Q/(n-m)]/[Syy/(n-1)]复相关系数检验法:构造统计量R=SQRT [1-Q/S yy ]=SQRT (U/S yy ) 判断规则:对于给定的置信度α,从相关系数r 分布表中查出r 临(n-m ),把其与用样本计算出来的统计量R 0比较:若R 0〉r 临(n-m )成立,则认为回归方程在α水平上显著。
反之则认为不显著,回归方程无意义,变量间不存在线性关系。
(2) F 检验法:构造统计量F=(U/m-1)/[Q/(n-m )] 其中:m 为变量个数(总数);n 为样本数。
统计量F 服从第一自由度为m-1、第二自由度为n-m 的 F (m-1,n-m )分布。
F=r2/(1-r2)*(n-m)/(m-1)判断规则:对于给定的置信度α,从F分布表中查出Fα(m-1,n-m),把其与用样本计算出来的统计量F0比较:若F0〉Fα(m-1,n-m)成立,则认为回归方程在α水平上显著。
反之则认为不显著,回归方程无意义,变量间不存在线性关系。
四、回归方程没有通过检验的原因1、定性分析选择的各变量间,本来不存在因果关系。
定性分析设想不准确。
2、选择的变量间存在因果关系,但还存在其它起着更重要作用的变量尚未列入模型之中。
3、选择变量之间的关系是非线性关系。
五、利用检验通过的回归方程进行预测y=6.34+0.213x点估计值:若给定x值,则y的预测值为6.34+0.213*58=18.69区间估计:标准误差:S=sqrt((∑e^2)/(n-m))第二节一元非线性回归分析预测法思路:与一元线性回归分析基本相同。
即通过变量替换将非线性方程转化为线性方程;使用最小二乘法建立线性回归方程;在通过逆变换将线性方程转化为非线性方程。
函数的线性变换及逆变换是个数学问题,不讲了。
例题,参见160页:航空货物周转量=a*(社会总产值)α196页,SB机场空运需求预测202页,利雅得国际机场业务量预测第三节多元回归分析一、 思路多元非线性回归分析——转换为多元线性回归分析,多元线性回归分析,与一元线性回归分析基本相同,只是在自变量的选定上、求解回归方程及统计检验等方面比一元回归要复杂一些。
设多元线性回归模型为:y=b 0+b 1*x 1+b 2*x 2+……+b m *x m 二、参数求法为最小二乘法:min ∑(y i -(b 0+b 1*x 1i +b 2*x 2i +……+b m *x mi ))2分别对bj 求偏导数,偏导数等于0时,上式取得最小值。
可以得到m+1个关于bj 的标准方程,使用线性代数中的行列式解法,可以求出回归系数bj 。
以二元回归分析为例,说明多元回归方程的建立1、定性判断得知,因变量Y 与自变量X1, X2存在线性相关关系。
模型形式为:y=b 0+b 1*x 1+b 2*x 22、确定回归系数b 0、b 1、b 2,最小二乘法。
分别对b 0、b 1、b 2求偏导,令偏导数=0,构成如下方程组:∑∑∑∑∑∑∑∑∑∑∑∑∑∑=++=++=++=----=∂∂=----=∂∂=----=∂∂===ii i i i i ii i i i i ii i n i i i i i n i i i i i n i i i i x y x b x x b x b x y x x b x b x b y x b x b nb x x b x b b y b Gx x b x b b y b Gx b x b b y b G22222112012122111022110122211021122110112211000))((20))((20)1)((2整理得:∑∑∑∑∑--==-=-=--=--=))(()()())(())((221121122222221*********x x x x S S x x S x x S y y x x S y y x x S i i i i i i y i i y 其中:手工列表计算: 三、回归方程的统计检验1、 回归方程的显著性检验,检验回归方程的有效性 检验方法有:F 检验法、复相关系数检验法2、 回归系数的显著性检验,检验回归系数的有效性, 检验方法有:t 检验法构造统计量t其中:m 为变量个数;n 为样本数。
统计量t 服从自由度为n-m 的t (n-m )分布。
判断规则:对于给定的置信度α,从t 分布表中查出t α/2(n-m ),把其与用样本计算出来的统计量t 0比较:若t 0〉t α(n-m )成立,则认为回归方程在α水平上显著。
反之则认为不显著,回归系数无意义,变量间不存在线性相关关系。
mn yy xx b t C C C C A I AA S S S S A C mn yyS C S b t iijji j j jj i iy jjy j j ---∙==⋯⋯=⋯⋯=--==∑∑∑--222221121111222112112)ˆ()(j A )ˆ(ˆ个元素第的拟矩阵的对角线上的为矩阵21122211221211222112112211112221122211212221222112112221211122110S S S S S S S S S S S S S S S S A C b S S S S S S S S S S S S S S S S AC b x b x b y b y y y y y y y y --===--===--=得:统计假设检验总结:对于一元回归,四种检验方法选一即可;对于多元回归必须进行t检验和R、F间严重的一种。
四、例题:国外预测模型简介全行业运量预测五、几个基本问题及内在假设1、自变量的选择——(回归分析测法的程序)1)确定预测变量2)确定影响预测变量的因素——定性分析,具有经济上的意义和内在的因果关系。
3)收集整理预测变量及其影响因素的历史统计资料4)分析因变量和自变量的关系,确定回归模型——定量分析,因变量与自变量、自变量之间的相关系数,判别因变量和自变量是否显著相关,显著相关的影响因素作为自变量;同时与因变量不相关或与某个自变量高度线性相关的自变量,应予剔除。
实践经验确定散点图分析确定理论试算(计算拟和误差(预测误差)),选出拟和程度最好的模型5)求解模型参数,建立回归方程6)检验回归方程的有效性7)利用检验通过的回归方程进行预测,并确定预测值的置信区间2、多元共线性(多重共线性)1) 概念:回归分析中,自变量之间存在着相关关系,称这种关系为多元共线性。
多元回归分析的假设是自变量之间是独立的。
得出的参数估计值是不可靠的。
例如:某省宏观经济模型中,建筑业产值=2.1684+0.1601*工业总产值-0.0795*上年工业总产值+0.5651*上年建筑业产值负号的出现很难解释,上年工业总产值和上年建筑业产值存在共线性。
2) 检验多元共线性的方法: U ——χ2(m-1)分布 Q ——χ2(n-m )分布 S yy ——χ2(n-1)分布 拟和优度判定系数:① 判定系数法:把某自变量用其它自变量进行回归计算,计算相应的判定系数R 2,若R 2较大,说明本自变量可以用其它自变量的线性组合替代,存在多重共线性。
或者用因变量分别与含有本自变量或不含有本自变量的自变量组合进行回归计算,若两者计算的判定系数差不多,则说明本自变量与其它自变量间存在多元共线性。
②逐步回归法:逐个引进自变量,根据R 2的变化情况判断是否存在多重共线性。