当前位置:文档之家› 统计分析方法案例

统计分析方法案例

中国民航客运量变化趋势及其原因1、统计数据的收集与汇总2、了解变化趋势(1)绘制散点图(2)配合趋势线——指数趋势方程βxe Y α=或lnY=lnα+βX回归参数0.176表明,客运量的增量每年约按17.6%速度增长。

截距10-149表明,当年份为0时,客运量达到的水平,无实际意义。

应将时间变量转化一下。

截距187.42 表明,当年份为0(1977年)时,客运量达到的水平(对数),有实际意义。

用该模型可以进行预测:预测1994年客运量:(1)Y = 187.42e0.176X = 187.42e0.176×17 = 8.225(2)Y =3734.43万人。

3、寻找影响因素(1)受国民收入(X1)的影响用国民收入也能预测民航客运量,但角度与时间变量不同。

(2)与消费额(X)的关系2(3)受铁路客运量(X3)的影响结论:可决系数太小,表明铁路客运量(X3)与民航客运量(Y)无显著相关。

(4)与民航航线里程(X4)有关系(5)受来华旅游入境人数(X5)的影响数(客运4、建立多元回归方程Y^ = 442.91 + 0.355166X1-0.56331X2-0.00715X3 +21.5794X4+0.434021X5 (国民收入) (消费额) (铁路客运量) (民航航线里程数) (境外来华人数) 对偏回归系数进行经济关系上的解释。

其中,消费额(X2)与民航客运量(Y)的偏回归的关系有问题,方向应一致。

铁路客运量(X3)的偏回归系数接近于0,为0.00715,表明二者关系微弱。

5、拟合优度检验回归统计Multiple R0.999124R Square0.998249Adjusted R Square0.997374标准误差49.23349观测值16复相关系数R=0.999124可决系数R2= 0.998249修正后的可决系数R2 = 0.99737结论:整体上通过检验。

6、方差分析方差分析df SS MS F回归分析51381913227638261140.222残差1024239.372423.937总计1513843372给定α=0.05,查F0.05(k,n-k-1)= F0.05(5,16-5-1)= F0.05(5,10)= 3.33F =1140.22 >F0.05(5,10)= 3.33方差分析表明,以上回归方程高度显著,说明X1、X2、X3、X4、X5整体上对民航客运量有显著的影响。

8、t检验Coefficients标准误差t Stat P-valueIntercept442.9106174.2649 2.5415930.029283X10.3551660.084504 4.2029580.00182X2-0.563310.124402-4.528160.001094X3-0.007150.002018-3.543180.005328X421.5794 4.006502 5.3860960.000307X50.4340210.051088.496928 6.92E-06Y^ = 442.91 + 0.355166X1-0.56331X2-0.00715X3 +21.5794X4+0.434021X5(2.54) (4.20) (4.53) (3.54) (5.386) (8.497)结论:通过t检验。

9、偏相关分析X1X2X3X4X5YX11X20.9989581X30.2512760.2822781X40.9836090.9778040.207221X50.9301670.9422930.4967990.8817981Y0.9894680.985490.2201360.9870920.9242211可见,X3对Y的影响不显著,因为其偏相关系数为0.2201。

10、剔除X3,重建回归方程。

SUMMARY OUTPUT回归统计Multiple R0.998023R Square0.996051Adjusted R Square0.994615标准误差70.49803观测值16方差分析df SS MS F Significance F回归分析4137887023447176693.6005 3.91E-13残差1154669.74969.972总计1513843372Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限 95.0%上Intercept-153.9363.93406-2.407640.03476-294.648-13.2119-294.648X10.5089380.103825 4.9019090.000470.2804220.7374550.280422X2-0.75420.160562-4.697260.000653-1.1076-0.40081-1.1076X415.98047 5.271891 3.0312590.011424 4.37710827.58383 4.377108X50.3470770.064149 5.4104710.0002130.2058860.4882690.205886RESIDUAL OUTPUT观测值预测 Y残差标准残差1254.7829-23.7829-0.393952297.13480.8652440.0143323324.16818.832040.3119394359.05641.944040.6947725356.695688.30444 1.4626996418.8283-27.8283-0.460967639.3119-85.3119-1.413138800.9855-56.9855-0.943929968.744728.25530.468028101324.994-14.9945-0.24837111455.114-13.1144-0.21723121364.756-81.756-1.35423131641.81618.184030.301205142050.913127.0867 2.105098152831.28654.714390.906304163457.413-74.4125-1.23259所得回归方程为:Y^ = -153.89 + 0.50904X1-0.5436X2 +15.97773X4+0.34712X5(2.41) (4.90) (4.70) (3.03) (5.41)相关距阵:X1X2X4X5YX11X20.9989581X40.9836090.9778041X50.9301670.9422930.8817981Y0.9894680.985490.9870920.9242211偏相关系数都很高。

预测:给定X1=23872 X2 =14987 X4 = 92.09 X5 = 3856.8代入回归方程Y^ = -153.89 + 0.50904X1-0.5436X2 +15.97773X4+0.34712X5 = 3502.49区间估计:已知标准误差为σ=70.498给出置信水平为95.45%,则有预测区间为Y±2σ= 3502.49±2×70.498 即[ 3361.52,3643.46 ]11、消除多重共线性的影响在自变量中,消费额(X2)与国民收入(X1)之间存在高度相关性,使得消费额与民航客运量之间的偏回归系数为负值,无法解释经济关系。

应消除其中一个自变量。

由于国民收入的偏回归系数和t检验值都较高,所以决定剔除消费额(X2),重新建立回归方程。

SUMMARY OUTPUT回归统计Multiple R0.994047R Square0.988129Adjusted R Square0.985162标准误差117.0216观测值16方差分析df SS MS F Significance F回归分析3136790434559681332.96818.16E-12残差12164328.613694.05总计1513843372Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限 95.0% Intercept-369.48173.89545-5.000060.000309-530.486-208.477-530.486 X10.0328830.0374220.8787150.39681-0.048650.114418-0.04865 X424.677458.193513 3.0118280.010826 6.82532442.52959 6.825324 X50.1372040.076408 1.7956870.097748-0.029270.303682-0.02927原有Y^ = -153.89 + 0.50904X1-0.5436X2 +15.97773X4+0.34712X5(5.00) (4.90) (4.70) (3.03) (5.41)新建Y^ = -369.48 + 0.003288X1 +24.677X4+0.1372X5(2.41) (0.88) (3.01) (1.80)可见,X1未通过检验,应剔除。

13、建立Y与X4和X5的回归方程,并分析。

SUMMARY OUTPUT回归统计Multiple R0.993663R Square0.987366Adjusted R Square0.985422标准误差115.9915观测值16方差分析df SS MS F Significance F回归分析2136684696834235507.9696 4.57E-13残差13174902.313454.02总计1513843372Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限 95.0%上Intercept-410.07457.16828-7.17317.23E-06-533.579-286.569-533.579X431.4713 2.68842411.70623 2.81E-0825.6633137.2792825.66331X50.1868020.051046 3.6595060.0028840.0765250.297080.076525RESIDUAL OUTPUT观测值预测 Y残差标准残差192.3299138.6701 1.2841942171.9966126.0034 1.166893311.084531.915480.2955624421.721-20.721-0.191895470.2909-25.2909-0.234216487.9661-96.9661-0.897987648.8914-94.8914-0.878778795.4352-51.4352-0.4763391036.814-39.8141-0.36871101317.016-7.01577-0.06497111358.3983.610220.774296121532.749-249.749-2.31287131697.888-37.8883-0.35088141972.594205.4061 1.902222152841.41144.588940.412929163389.423-6.42281-0.05948Y^ = -410.074 +31.4713X4+0.1868X5(7.17) (11.71) (3.66)复相关系数R=0.99366可决系数R2= 0.987366修正后的可决系数R2 = 0.9854F = 507.970结论:影响民航客运量的因素主要有:(1)与民航航线里程(X4)有关系// 31.5万人/万公里(2)受来华旅游入境人数(X5)的影响// 0.19万人/万人预测:当X4=100, X5 = 5000时,则有Y^ = -410.074 +31.4713×100(万公里)+0.1868×5000(万人)=3671.06(万人)。

相关主题