当前位置:文档之家› 数据分析与统计软件设计课程

数据分析与统计软件设计课程

数据分析与统计软件设计课程论文论文题目:广西生产总值分析专业班级:统计082姓名:王世健学号:200800903082关键字:三大产业广西GDP 方差分析回归分析 SAS论文时间序列分析广西生产总值分析摘要:GDP不仅能够反映一个国家(或地区)的生产规模,而且能够反映这个地区的产业结构,如三大产业在整个地区国民经济中所占的份额。

本论文将运用SAS技术,采用均值比较、方差分析、回归分析及时间序列分析等方法对第一、二、三产业进行分析,从而更加深刻的理解广西地区第一、二、三产业之间的相互关系和影响以及其对GDP的重大贡献。

一、前言国内生产总值(Gross Domestic Product,简称GDP)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。

它不但可反映一个地区的经济表现,更可以反映地区的发展与财富。

GDP是最重要的宏观经济统计指标之一,它是人们了解和把握一个国家(或地区)的宏观经济运行状况的有效工具,是制定经济政策的重要依据,也是检验经济政策科学性和有效性的重要手段。

因此,从生产者角度来说,分析了解三大产业之间的结构是非常重要的。

二、第一、二、三产业分析2.1 均值比较为了了解三大产业之间的差异和结构,对广西近二十年(1991-2009)的三大产业进行均值比较,以对三大产业有初步的了解。

用“分析家”计算统计量1. 将表2-1中数据通过Excel导入到SAS数据集gdp中,4个变量名分别为:Y、X1、X2和X3,相应的标签名为广西生产总值、第一产业、第二产业和第三产业。

2. 启动“分析家”选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。

选择主菜单“File(文件)”→“Open By SAS Name”,打开“Select A Member”对话框,选择数据集gdp。

3. 通过Summary Statistics菜单计算描述性统计量选择主菜单“统计(S)”→“描述性统计(D)”→“汇总统计量(S)”,打开“Summary Statistics”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量X1,X2,X3。

单击确定。

得表如图所示,在三大产业中,第二产业的均值为1106.78,远远高于第一产业的均值686.7484211,第三产业的均值1080.27与第二产业相差不大。

如此,可以得出:第二产业第三产业在我国的国民经济中,起着主导地位。

随着经济的发展,我国的第三产业,即:除第一、二产业以外的其他各业,位居第二。

通过观察我们发现,第二产业的最大值与最小值的差值达到了3240.52,故我们可以预测,随着科技的进步,经济的发展以及人们思想的转变,广西的第二产业的发展拥有无限潜力。

2.2 双因素方差分析1.程序:data gdp;do i=1991to2009;do g=1to3;input y;output;end;end;cards;1991 518.59 195.17 141.02 182.401992 646.60 233.03 187.48 226.091993 871.70 250.11 321.10 300.491994 1198.29 333.79 469.81 394.691995 1497.56 453.15 535.86 508.551996 1697.90 534.88 587.37 575.651997 1817.25 582.74 614.07 620.441998 1911.30 586.70 667.29 657.311999 1971.41 567.72 682.34 721.352000 2080.04 557.38 732.76 789.902001 2279.34 576.34 771.18 931.822002 2523.73 601.99 846.89 1074.852003 2821.11 658.78 984.08 1178.252004 3433.50 817.88 1253.70 1361.922005 3984.10 912.50 1510.68 1560.922006 4746.16 1032.47 1878.56 1835.122007 5823.41 1241.35 2425.29 2156.762008 7021.00 1453.75 3037.74 2529.512009 7759.16 1458.49 3381.54 2919.13title'双因素方差分析';proc anova;class i g;model y= i g;run;2.结果和分析:从图中,我们可以得知:a、模型的显著水平α=0.05>0.0001,非常显著,模型效果好。

b、图中的i因素一行,显著水平α=0.05>0.0001,非常显著,所以,有足够充分的理由拒绝原假设H0,说明各年之间有显著的差异。

同理,我们分析道,对于g行显著水平α=0.05<0.2373,显著性不好。

同时,我们也观察到R-Square值为0.984211,说明总体方差有98.4211%是来自组间变异,非常理想。

综上所述,每年各产业之间的具有显著的差异。

2.3用INSIGHT模块作回归分析建立第二产业对广西生产总值的回归方程。

1.分析1) 在INSIGHT模块中打开数据集dap。

选择菜单“Analyze”→“Fit(Y X)”,打开“Fit(Y X)”对话框;2) 在“Fit(Y X)”对话框中,将Y设为响应变量,将x2设为自变量;3) 单击“OK”按钮,得到分析结果。

2.显示的结果分为若干张表:第一张表提供关于拟合模型的一般信息,Y= x1表示这个分析是以Y为响应变量,x1为自变量的线性模型;第二张表给出回归方程:如图得回归方程为:Y=398.761+2.2363X2第三张表是带有回归直线的散点图,给出了回归的图形表示,如图;图的下面是参数回归拟合表。

其中判定系数R-Square(R2)高达0.9934,说明了回归方程已经高度拟合;第四张表提供拟合的汇总度量:响应变量的均值是变量Y的平均值,均方残差平方根是对各观测点在直线周围分散程度的一个度量值,为随机误差ε的标准差(也是实测值Y 的标准差)σ的无偏估计。

第五张方差分析表(图4-16)包含对回归方程的显著检验:看到p值<0.0001,拒绝原假设并可作出回归系数不为零的结论,说明所建模型的线性关系是显著的。

第六张Ⅲ型检验表提供与方差分析表一样的检验,如图第七张参数估计表给出了回归直线截距和斜率的估计值及其显著性检验等内容。

在这个例子里,截距的p值< α = 0.05,表示模型为回归直线。

斜率的t检验p值< 0.0001,表明自变量广西生产总值对因变量第二产业有显著的线性关系,如图所示。

2. 回归诊断在显示窗的底部有一个残差R_Y,这个图可以帮助验证模型的假定。

从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。

2.4.广西GDP时间序列分析由于原始序列非平稳但取对数且一阶差分后平稳,故采用求和自回归移动平均模型(ARIMA),差分后的序列也就是ARMA模型4.1数据的分析与处理4.1.1 平稳性检验根据广西2010统计年鉴中GDP数据,从用SAS软件绘制的时序图中可以看出我国GDP序列含有指数趋势,并具有很强的非平稳性。

4.1.2 数据平稳化取对数过后的GDP依旧存在非平稳性,需要对其进行差分,先进行一阶差分,绘制一阶差分后的时间序列图。

从图很难看出一阶差分后的序列是否平稳。

首先考察序列的样本自相关图,从直观上检验该序列的平稳性。

其次,对该序列进行ADF单位根检验。

编写命令行如下:data gdp;input s@@;difx=dif(s);difx4=dif4(dif(s));t=intnx('year','1jan1991'd,_n_-1);format date year4.;cards;1991 518.59 195.17 141.02 182.401992 646.60 233.03 187.48 226.091993 871.70 250.11 321.10 300.491994 1198.29 333.79 469.81 394.691995 1497.56 453.15 535.86 508.551996 1697.90 534.88 587.37 575.651997 1817.25 582.74 614.07 620.441998 1911.30 586.70 667.29 657.311999 1971.41 567.72 682.34 721.352000 2080.04 557.38 732.76 789.902001 2279.34 576.34 771.18 931.822002 2523.73 601.99 846.89 1074.852003 2821.11 658.78 984.08 1178.252004 3433.50 817.88 1253.70 1361.922005 3984.10 912.50 1510.68 1560.922006 4746.16 1032.47 1878.56 1835.122007 5823.41 1241.35 2425.29 2156.762008 7021.00 1453.75 3037.74 2529.512009 7759.16 1458.49 3381.54 2919.13;proc gplot;plot s*t difx*t difx4*t;symbol v=star c=blue i=join;run;时序图显示该序列具有线性递增的长期趋势和周期长度为一年的稳定的季节变动。

输出的一阶差分序列图如下:观察可见1 阶差分提取了线性递增趋势。

1 阶差分序列图呈现典型的季节波动。

故在1 阶差分基础上再进行4 步的周期差分,提取季节波动信息。

周期差分后序列{∇4∇x t }时序图如下:时序图显示差分后该序列已无显著趋势或周期,随机波动比较平稳。

三.总结广西的三大产业包括农业(种植业、林业、牧业、副业和渔业),工业和建筑业,以及除了第一二产业以外的其他部门,通过对其均值的比较,我们发现第二产业,即工业和建筑业在整个广西国民经济中依然占主导地位,原因要归咎于我国的国情,我国自改革开放以后,各个产业有了巨大的改变,但是,第二产业为主导的产业结构,依旧没有动摇。

相关主题