基于SPSS的多元统计分析三种算法的实例研究摘要本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。
关键词:多元回归分析,因子分析,判别分析,SPSS第一章 多元线性回归分析1.1 研究背景消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。
根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。
本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。
1.2 问题提出与描述、数据收集按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。
为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。
文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。
本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。
1.3 模型建立 1.3.1 理论背景多元线性回归模型如下:εββββ+++++=p p X X X Y ......22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。
对于n 组观测值,其方程组形式为εβ+=X Y 即模型假设: ⑴零均值假设:()0i E ε= i=1,2,…,n⑵同方差:()2i Var εσ=⑶无自相关:⑷误差与自变量不相关:(),0ik i Cov X ε= i=1,2,…,n , k=0,1,…,p ⑸自变量之间无多重共线性 ()1r a n k X p =+1.3.2模型建立及SPSS 运算结果分析假设因变量Y (农村居民年人均生活消费支出)与自变量X 1(农村居民人均纯收入)、X 2(商品零售价格定基指数)、X 3(消费价格定基指数)、X 4(家庭恩格尔系数)、X 5(人均住宅建筑面积)满足下述等式:01122334455y X X X X X ββββββ=+++++强行回归:在SPSS 中进行强行回归,会得到如下表格:⑴输入变量从表1-1中可以看到,本文先强行将五个自变量与因变量进行线性拟合,希望得到一个线性函数。
表1-1 输入的变量输入/移去的变量模型输入的变量移去的变量方法1X5, X2, X4, X1, X3a. 输入a. 已输入所有请求的变量。
描述性统计量均值标准偏差N Y 1847.2585 983.03837 20 X1 2391.890 1292.8874 20 X2 335.255 59.9815 20 X3 298.050 69.4300 20 X4 50.952 6.3407 20 X5 24.943 4.8762 20⑵拟合优度检验表1-2 拟合优度检验模型汇总b模型RR方调整 R方标准估计的误差更改统计量Durbin-WatsonR 方更改 F 更改df1df2Sig. F 更改1 .999a .998.997 56.89386 .998 1131.6725 14 .000 1.197a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-2是对回归方程的拟合优度检验的说明样本决定系数20.998R ,说明自变量可以解释因变量99.8%的变化,而调整后的样本决定系数2211(1)0.9971n R R n p -=--=--,这两个值非常接近1,所以拟合程度比较高。
⑶方程显著性检验表1-3 方程显著性检验Anova b模型平方和 df 均方 F Sig. 1回归 1.832E7 5 3663121.534 1131.672.000a 残差 45316.766 14 3236.912总计1.836E719a. 预测变量: (常量), X5, X2, X4, X1, X3。
b. 因变量: Y表1-3是对回归方程显著性检验的说明统计量1131.672F =,对应的概率值0.000p =,说明回归方程显著成立(我们给定显著水平为0.05)。
⑷参数求解及其显著性检验表1-4 参数求解及显著性检验系数a模型非标准化系数标准系数 tSig.相关性共线性统计量B标准 误差 试用版 零阶 偏 部分 容差 VIF 1(常量) -1457.646 936.744-1.556 .142X1 .836.065 1.100 12.808 .000 .998 .960 .170 .024 41.819 X23.417 3.837 .209 .891 .388 .755 .232.012 .003310.892 X3 -5.293 4.780 -.374 -1.107 .287 .888 -.284 -.015 .002 646.608X4 16.657 11.904 .107 1.399 .184 -.896 .350.019 .030 33.443X5 35.611 24.308 .177 1.465 .165 .969 .365.019 .012 82.463a. 因变量: Y表1-4是对参数的求解及显著性检验的说明我们可以从上表看出系数向量()012345,,,,,Tβββββββ=的估计值,其中01457.646β∧=-,10.836β∧=,2 3.417β∧=,3 5.293β∧=-,416.657β∧=,535.611β∧= 则拟合的回归方程为123451457.6460.836 3.417 5.29316.65735.611Y X X X X X =-++-++另外,由上表中的t 检验(我们给定显著水平为0.10)知:只有自变量X 1(其对应的概率p=0.000)与因变量Y 在总体上存在比较显著的线性关系,其余自变量与因变量的线性关系不显著。
⑸多重共线性检验表1-5 共线性检验共线性诊断a模型 维数 特征值 条件索引方差比例(常量) X1 X2 X3 X4 X5 11 5.782 1.000 .00 .00 .00 .00 .00 .00 2.201 5.357 .00 .01 .00 .00 .00 .00 3 .014 20.626 .00 .04 .00 .00 .00 .00 4 .003 44.800 .00 .36 .00 .00 .04 .06 5 .000218.270.88 .29 .01 .01 .49 .87 63.947E-5 382.720.12.29.99.99.47.06a. 因变量: Y关于多重共线性的检测,我们采用计算条件索引或方差膨胀因子的方式。
当条件索引小于30的时候,说明共线性不明显。
从表1-5中可以看出,X 3、X 4、X 5所对应的条件索引都大于30,说明有一定的共线性。
另外从表1-4中可以看出方差膨胀因子VIF i (一般认为该值小于10时,说明不存在共线性)都大于10,说明变量之间存在严重的共线性。
⑹自相关检验从表1-2的Durbin-Watson 列我们得到回归模型的 1.197DW =,在(0,2)区间范围内,属于部分正自相关。
1.4 模型修正再运算与结果分析虽然上述的强行回归建立的线性回归方程具有很好的拟合度,并且方程的显著性也很高,但是部分参数的显著性并不高且具有比较严重的多重共线性关系。
所以本文又分别用逐步回归、向前回归、向后回归、岭回归对模型进行一定的修正,所得结果如下。
㈠逐步回归所谓逐步回归就是在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,然后从两端分别将影响显著的自变量选入和将影响不显著的变量剔除。
通过SPSS对附表一中的数据做逐步回归分析,得到下列数据表格:表1-6输入/移去的变量a模型输入的变量移去的变量方法1 X1 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
2 X4 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
3 X3 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a. 因变量: Y表1-7模型汇总d模型R R 方调整 R 方标准估计的误差Durbin-Watson1 .998a.995 .995 70.621792 .998b.996 .996 63.892823 .999c.997 .997 57.49027 1.045a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-8Anova d模型平方和df 均方 F Sig.1 回归 1.827E7 1 1.827E7 3663.434 .000a 残差89773.881 18 4987.438总计 1.836E7 192 回归 1.829E7 2 9145762.730 2240.350 .000b 残差69398.978 17 4082.293总计 1.836E7 193 回归 1.831E7 3 6102680.780 1846.426 .000c 残差52882.098 16 3305.131总计 1.836E7 19a. 预测变量: (常量), X1。
b. 预测变量: (常量), X1, X4。
c. 预测变量: (常量), X1, X4, X3。
d. 因变量: Y表1-9系数a模型非标准化系数标准系数t Sig.相关性共线性统计量B标准误差试用版零阶偏部分容差VIF1 (常量)33.053 33.879 .976 .342X1 .758 .013 .998 60.526 .000 .998 .998 .998 1.000 1.0002 (常量)-741.801348.188-2.130 .048X1 .815 .028 1.071 29.525 .000 .998 .990 .440 .169 5.923 X4 12.569 5.626 .081 2.234 .039 -.896 .476 .033 .169 5.9233 (常量)-605.786319.15-1.898 .076X1 .866 .034 1.138 25.696 .000 .998 .988 .345 .092 10.903 X4 13.275 5.072 .086 2.617 .019 -.896 .548 .035 .168 5.946 X3 -.985 .441 -.070 -2.235 .040 .888 -.488 -.030 .186 5.385a. 因变量: Y表1-10共线性诊断a模型维数特征值条件索引方差比例(常量) X1 X4 X3 11 1.885 1.000 .06 .062 .115 4.044 .94 .942 1 2.805 1.000 .00 .00 .002 .194 3.800 .00 .13 .003 .001 53.599 1.00 .87 1.003 1 3.793 1.000 .00 .00 .00 .002 .200 4.359 .00 .06 .00 .003 .007 24.004 .01 .54 .02 .994 .001 62.482 .99 .40 .98 .01a. 因变量: Y从上述表格可以看出,SPSS在做逐步回归的时候,共得到了三个比较好的回归方程,及三种剔除变量的情况。