当前位置:文档之家› eviews建模方法之回归分析简介

eviews建模方法之回归分析简介

建模方法之回归分析简介数学模型一元线性回归分析模型:),,0(~,2σεεN bx a Y ++= 多元线性回归分析模型:ε+++++=p p x b x b x b a Y Λ2211设随机变量Y 与X 有相关关系,就是说当X 取一确定值时,随机变量Y 有一个确定的分布.这个分布大多数情况下不能具体知道,但在实践中只需要的观测值.而数学期望(假设存在)在一定程度上能反映出其观测值的大小,所以人们感兴趣的是当X 取确定值x 时, Y 的数学期望)(x μ是多少.称)(x μ为Y 对X 的回归函数.在实际问题中,回归函数是未知的,需要我们根据实测样本以及以往的经验来确定回归函数的类型及求出函数中的未知参数的估计,得到经验公式.例1 20℃时在铜线含碳量%x 对于电阻Y (为一正态变量,单位:微欧)变化的研究中,得到如下一测试结果表明,随着铜线含碳量的增加,其电阻有增大的趋势.为了确定回归函数)(x μ的类型, 我们将这9组数据作为坐标在平面直角坐标系中描出它们相应的点,这种图称为散点图。

变量X -Y 的散点图因此估计)(x μ大致具有线性函数bx a +的形式,即可认为X 与Y 具有如下关系:),,0(~,2σεεN bx a Y ++= (1)其中b a ,及2σ是常数.这就是X 、Y 之间的(一元正态线性)回归模型.对n 根铜线进行独立观测,能得到n 个含碳量n x x x ,,,21Λ及对应的n Y Y Y ,,,21Λ,把i Y 看成随即变量,则它们可以表示成⎭⎬⎫=++=.,,,),,0(~,,,2,1,212相互独立n i i i i N n i bx a Y εεεσεεΛΛ (2)记⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n x x x X 11121M M ,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n Y Y Y Y M 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n εεεεM 21, 则(2)式也可表示为ε+⎪⎪⎭⎫⎝⎛=b a X Y .在一元线性回归中主要解决下列问题: (I ) 对未知参数b a ,及2σ进行估计; (II ) 对线性模型的假设进行检验; (III ) 对Y 进行预测和控制.参数的估计:对未知参数b a ,的估计,一个直观的想法便是希望选取这样的a 与b ,使得他们在n x x x ,,,21Λ各处计算的理论值i bx a +与实测值i y 的偏离达到最小.为此人们常用最小二乘法:求b a ,使∑=−−=ni i ibx a yQ 12)(为最小.在几何上,即是在平面上选取一条直线,使直线在横坐标为n x x x ,,,21Λ处的纵坐标与相应的实测点的纵坐标之差的平方和为最小.利用求极值的方法求b a ,,令⎪⎪⎩⎪⎪⎨⎧=−−−=∂∂=−−−=∂∂∑∑==.0)(2,0)(211ni i i i ni i i x bx a y b Q bx a y a Q整理得⎪⎪⎩⎪⎪⎨⎧=+=+∑∑∑∑∑=====ni i i n i i n i i ni i n i i y x x b x a y x b na 112111解此方程组得到的不是b a ,的真值,而是b a ,的估计值,ˆ,ˆb a它们为 ,)())((ˆ1212121∑∑∑∑====−−−=−−=ni ini i ini ini ii x xy y x xx n xyx n yx b(3),ˆˆx b y a−= (4) 其中.,111∑∑====ni i ni i y y x n x 具体计算得Y 对X 的线性回归方程为.59.1297.13ˆx y+= 等价公式:Y X X X ba TT 1)(ˆˆ−=⎥⎦⎤⎢⎣⎡. (5)方差分析:总平方和:,)(12∑=−=ni iT Y YQ 自由度为1−n回归平方和:∑=−=ni iR Y Y Q 12)ˆ(,)(ˆ122∑=−=ni i x x b 自由度为1=p 残差平方和:,)ˆ(12∑=−=ni iiE Y YQ 自由度为1−−p n 关系式:.E R T Q Q Q += 性质:2)1(σ=−−p n Q E E 。

(6)(Matlab7中,用regress 求回归时可自动输出2ˆσ,以前的版本则可通过计算此性质自己计算。

)检验:(几乎任意数据,都可以求b a ,)待验假设:.0:0=b H 备择假设: .0:1≠b H 在(2)的假设条件下,如果假设0H 为真,可以证明统计量).2,1(~)2/(−−=n F n Q Q F E R (7)这样,就可以用此作为检验统计量,对给定的显著性水平α,当)2,1(−>n F F α时,拒绝假设0H (即否定0=b ),而认为Y 与X 之间确有线性关系,或者说回归效果是显著的.否则认为回归效果不显著.回归效果不显著的原因可能有如下几种:影响Y 的取值的除X 外,还有其它不可忽略的因素; Y 与X 的关系不是线性关系,而存在着其它的关系; 另外一个检验的方法是用相关系数R :.)2(/1/Fn FQ Q Q Q Q Q Q Q Q R ER E R ER R TR +−=+=+==(8)预测与控制若回归方程效果显著,则可应用它来进行预测与控制.先讨论预测问题.所谓预测,是指当X 取定一值0x 时,要估计(预测)Y 的观察值的取值范围,即所谓的预测区间.对给定的0x ,由回归方程可得000ˆ,ˆˆˆY x b a Y +=是Y 相应于0x 处的观察值000ε++=bx a Y 的一个估计值.因此,在一定的显著水平α下, 求预测区间即是寻找正数δ,使得0Y 以α−1的概率在区间)ˆ,ˆ(00δδ+−Y Y 内取值,即 .1}|ˆ{|00αδ−=<−Y Y P 可证).2(~])(11[2ˆ2000−−++−−n t S x x n n Q Y Y xxE (9)因此可得0Y 置信度为α−1的预测区间为)),(ˆ),(ˆ(0000x Y x Y δδ+− 这里 )2(])(11[ˆ)(2/2/1200−⋅−++⋅=n t S x x n x xxασδ ).2(])(11[22/20−⋅−++−=n t S x x n n Q xxEα 由此可知,对给定的样本和置信度α−1,当0x 愈靠近x 时,预测区间的宽度愈窄,从而预测就愈精确;0x 离x 愈远,预测区间就愈长,预测的精确性就愈差.把0x 改为x ,对于x 处Y 的置信度为α−1的预测区间为)).(ˆ),(ˆ(x Y x Yδδ+− 应当注意应用回归方程预测Y 的观测值时,自变量的变化范围应在样本值中X 的取值范围内。

多元线性回归理论,类似且更复杂(略)。

回归分析中的参数估计,检验,预测等,计算工作一般都较大,现在都不手工计算了。

只需要参数估计和检验的话,excel 都可以作。

专用的统计软件有SAS ,SPSS 等,下面我们介绍用matlab 计算它。

例1的matlab 计算过程:>> x=[0.10 0.30 0.30 0.40 0.55 0.70 0.70 0.80 0.95]'; >> y=[15.1 18.0 17.5 19.2 21.0 22.6 23.0 23.8 26.0]';>>X=[ones(size(x)) x];>> [b,bint,r,rint,stats]=regress(y,X) 计算结果如下:b =13.9738 (即回归方程中的常数a ) 12.5908 (即回归方程中的常数b ) bint =13.5825 14.3651 (参数a 的置信度为95%的区间估计) 11.9319 13.2497 (参数b 的置信度为95%的区间估计)r = (残差yy ˆ−) -0.13290.2490 -0.2510 0.1899 0.1013 -0.1874 0.2126 -0.2464 0.0650rint = (残差的区间估计,作用:排除例外样本点,其残差区间不含零点) -0.5395 0.2737 -0.1887 0.6866 -0.6876 0.1855 -0.2941 0.6739 -0.4156 0.6182 -0.6670 0.2923 -0.2571 0.6824-0.6757 0.1828 -0.3652 0.4951stats = (统计量:依次为2R ,F ,概率2ˆ,σp ) 1.0e+003 *0.0010 2.0419 0.0000 0.0000检验方法:若α<p ,则通过显著性检验,即认为回归效果显著。

此结果不太看得清2ˆ,σp ,如果想看清2ˆ,σp ,可以 >> format long>> stats stats =1.0e+003 *Columns 1 through 30.00099658345628 2.04185421621621 0.00000000000068 Column 40.00004774809653结果显示:p=0. 00000000068, 047748.0ˆ2=σ. 又:作散点图的命令是:scatter(x,y)例2 国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区的旅游收入因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游收入的影响。

《中国统计年鉴》把第三产业划分为12个组成部分,分别为1x 农林牧渔服务业,2x 地质勘查水利管理业,3x 交通运输仓储和邮电通信业,4x 批发零售贸易和餐饮业,5x 金融保险业,6x 房地产业,7x 社会服务业,8x 卫生体育和社会福利业,9x 教育文化艺术和广播,10x 科学研究和综合艺术,11x 党政机关,12x 其他行业。

下面选取1998年我国31个省、市、自治区的数据,试建立以国际旅游外汇收入(百万美元)为因变量y ,以121~x x 为自变量的线性回归。

利用matlab进行回归分析(x31*13,y31*1,regress(y,x)),计算结果如下:b =-205.8687 常数-1.3439 农林牧渔服务业2.8347 地质勘查水利管理业3.2955 交通运输仓储和邮电通信业-0.9257 批发零售贸易和餐饮业-5.4339 金融保险业3.9904 房地产业4.1557 社会服务业-15.9300 卫生体育和社会福利业17.5438 教育文化艺术和广播9.0632 科学研究和综合艺术-10.6158 党政机关1.4877 其他行业bint =-451.1987 39.4612 -48.7898 46.1020 -36.1955 41.8649-1.7542 8.3452-3.6139 1.7625 -14.7863 3.9185-4.1861 12.1669-6.0694 14.3809 -38.8233 6.96320.0008 35.0868 -12.0284 30.1549 -22.1109 0.8793-9.0591 12.0345r =273.7983-338.0133-161.5489140.988932.3523-390.0850-297.3337-3.1505-46.3574-141.194611.8601-471.8200-369.1906-190.154389.8663-140.236056.6141242.2022506.2931146.5477132.1816-227.9686234.4276182.5977217.8469252.2326-170.7754125.4220223.5634176.4348 -97.4014stats =1.0e+004 *0.00008752921000 0.00105281072801 0.00000000080669 9.25473864300280计算结果表明:p=0. 0000080669<0.05, 总体回归模型的效果显著,但是几乎每一个具体的因素的效果都不显著(系数的置信区间包含零点)。

相关主题