地理建模原理实验报告学号: 201220310262姓名:高义丰班级: 1223102专业:地理信息系统指导老师:陵南燕2015年6月27日目录一、实习项目 (3)二、实习目的 (3)三、实习内容 (3)1、简单相关分析 (3)2、偏相关 (5)3、距离过程 (6)4、因子分析 (7)5、回归分析 (9)6、多元线性回归 (11)7、时序分析 (12)8、实习总结 (15)一、实习项目1.学习SPSS软件,学会如何该软件进行因子分析与回归分析(课堂);2.学习SPSS软件,学会如何该软件随机时序分析(课堂);3.利用SPSS软件,完成数据文件里的一系列操作。
二、实习目的在实习后根据老师讲解的内容能够对spss软件有所了解并能够掌握如何用统计软件进行相关分析、因子分析和回归分析等用实习数据完成此类实习操作,相关分析与回归分析有相关系数、相关分析与偏相关分析、距离分析。
三、实习内容1、简单相关分析在进行相关分析时,散点图是重要的工具,分析前应先做散点图,以初步确定两个变量间是否存在相关趋势,该趋势是否为直线趋势,以及数据中是否存在异常点。
否则可能的出错误结论。
输入数据后,依次单击Graphs—Scatterplot散点图确定两个变量间是否存在相关趋势,该趋势是否为直线趋势Bivariate相关分析的步骤:(1)输入数据后,依次单击Analyze—Correlate—Bivariate,打开Bivariate Correlations对话框。
如图打开双变量相关后在点选项就会得到结果图右边结果,如图设置即可得到结果结果分析:描述性统计量表,如下:从表中可看出, Pearson相关系数为0.865,即小鸡的体重与鸡冠的相关系数为0.865,显著性水平是0.01,这两者之间不相关的双尾检验值为0.001。
从统计结果可得到,小鸡的体重与鸡冠重之间存在正相关关系,当小鸡的体重越大时,则小鸡的鸡冠越重。
并且,否定了小鸡的体重与鸡冠重之间不相关的假设。
2、偏相关当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。
即控制了其它一个或多个变量的影响下,计算两个变量的相关性。
偏相关系数是用来衡量任何两个变量之间的关系的大小。
选择Analyze—Correlate—Partial打开偏相关,如下:在统计学中,自由度(DF)指的是计算某一统计量时,取值不受限制的变量个数。
通常df=n-k。
其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。
自由度通常用于抽样分布中。
结果分析:在固定变量x2下Y与x1的偏相关系数为0.9483在a=0.001下线性关系显著。
3、距离过程距离相关分析是:对观测量之间或变量之间相似或不相似的程度的一种测量,可用于同一变量内部各个取值间,以考察其相互接近程度;也可以用于变量间,以考察预测测值对实际值的拟合优度。
距离相关分析的结果给出的是个变量或记录之间的距离大小,以供用户自行判断相似性。
选择Analyze—Correlate—Distances 距离分析设置如图所示点击确定就可以达到结果:Proximity MatrixCorrelation between Vectors of Valuesh1h2h3h1 1.000.573.731h2.573 1.000.088h3.731.088 1.000This is a similarity matrix三次测量结果的相关系数矩阵。
第一次测量与第二次测量结果的r = 0.573,第一次测量与第三次测量结果的r = 0.731,第二次测量与第三次测量结果的r = 0.088,由此可见,后两次测量的结果一致性较差,这意味着第一次恰好是后两次的“均值”,故对该指标作重复测量意义不大。
4、因子分析因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与聚类分析不同),以较少的几个因子反映原资料的大部分信息。
选择[Analyze]=>[Data Reduction]=>[Factor],显示的[Factor Analysis]结果分析:共同度(公共因子方差),共同度越大表示Xi对因子的共同依赖程度越大,因子描述变量越有效。
两个因子对所有变量的共同度都很大,在0.880 到0.988 之间。
从结果可以看出五个变量在第一个因子上都具有大的正负荷,尤其是X4 的负荷特别大。
在第二个因子上变量X1 和X3 都有较大的正负荷,X2和X5 都有较大的负荷,X1、X3 和X2、X5 形成了鲜明的对照,而在X4上的负荷非常小。
因子得分:对公共因子的取值进行估计,计算各个样本的公共因子得分。
在公共因子的空间中,按照各个样本的因子得分值标出其对应的位置。
结果如下图所示:5、回归分析如果在研究变量之间的相关关系时,把其中的一些因素作为所控制的变量(自变量),而另一些随机变量作为它们的因变量,这种关系分析就称为回归分析。
(1)一元线性回归选择主菜单[Analyze]=>[Regression]=>[Linear]打开线性回归因变量为y,自变量为x,得到下列参数分析表:拟合优度检验:样本观察值聚集在样本回归直线周围的紧密程度利用判定系数R2来判定R2越大模型拟合度越高相关系数显著性检验:两个变量间的线性相关程度,用相关系数R来判别,SXY 称为X 与Y 的样本协方差,SX 称为X 的样本标准差,SY 称为Y 的样本标准差。
根据给定的显著性水平α和样本容量n,查相关系数表得到临界值rα。
若|r|>rα,则X 与Y 有显著的线性关系,否则X 与Y 的线性相关关系不显著。
TSS=ESS+RSS (ESS可由回归直线解释,RSS不可解释的残差e)回归方程的显著性检验(F 检验):对回归总体线性关系是否显著的一种假设检验根据给定的显著水平α确定临界值Fα(1,n-2),或者计算F 值所对应的p 值来判定。
如果F 值大于临界值Fα(1,n-2)(或者p<α),回归方程的线性关系是显著的。
输出结果中的非标准化的系数估计值(B)及其标准误差(Std.Error)。
可以看出,系数估计值分别为b 0= 0.607和 b1 = 0.542,则。
0.607+ 0.542X。
Std.Error表示b i与β i之间的差异,其值越小证明b i越可靠。
回归参数的显著性检验(t 检验):根据样本估计结果对总体回归参数的有关假设进行检验t检验的临界值是由显著水平α和自由度决定的,如果t 的绝对值大于临界值(或者p(实际显著性水平)<α),说明X 对Y具有显著的影响作用。
6、多元线性回归选择主菜单[Analyze]=>[Regression]=>[Linear]运行结果如下图所示:拟合优度检验:1.R2=0. 902,说明Y的变动中95%可由x1,x2解释2.调整判定系数去除自变量个数对拟合优度的影响3.复相关系数R等于R2开平方,反映样本观测值与拟合直线间的线性相关程度。
R=0.95,说明y与x1,x2之间相关程度为95%。
7、时序分析系统中某一变量的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。
它是系统中某一变量受其它各种因素影响的总结果。
特征识别认识时间序列所具有的变动特征,以便在系统预测时选择采用不同的方法。
(1)随机性:均匀分布、无规则分布,可能符合某统计分布。
(用因变量的散点图和直方图及其包含的正态分布检验随机性,大多数服从正态分布。
)(2)平稳性:样本序列的自相关函数在某一固定水平线附近摆动,即方差和数学期望稳定为常数。
平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近0,前者测度当前序列与先前序列之间简单和常规的相关程度,后者是在控制其它先前序列的影响后,测度当前序列与某一先前序之间的相关程度基本步骤(1)作直方图:检验正态性、零均值。
按图形Graphs—直方图Histogram如上图所示可得直方图结果:(2)作相关图:检验平稳性、周期性。
按分析—预测—自相关Autocorrelations打开选项:因为一般要求时间序列样本数据n>50,滞后周期k<n/4,所以此处控制最大滞后数值Maximum Number of Lags设定为16。
设置如下图所示:确定后得到结果:我们从上图中看出样本序列数据的自相关系数在某一固定水平线附近摆动,且按周期性逐渐衰减,所以该时间序列基本是平稳的。
相关图法:运行自相关图后,出现自相关图和偏自相关图从图中看出:自相关系数和偏相关系数具有相似的衰减特点:衰减快,相邻二个值的相关系数约为0.3,滞后二个周期的值的相关系数接近0.1,滞后三个周期的值的相关系数接近0.05。
所以,基本可以确定该时间序列为ARMA(p,q)模型形式,但还不能确定是ARMA (1,1)或是ARMA(2,2)模型。
但若前四个自相关系数分别为0.40、0.16、0.064、0.0256,则可以考虑用AR(1) 模型实际上,具体应用自相关图进行模型选择时,在观察ACF与PACF函数中,应注意的关键问题是:函数值衰减的是否快;是否所有ACF之和为-0.5,即进行了过度差分;是否ACF 与PACF的某些滞后项显著和容易解释的峰值等。
但是,仅依赖ACF图形进行时间序列的模型识别是比较困难的。
8、实习总结spss是我们专业接触的第一个统计软件,功能强大,虽然对它很多的输出结果还不会做出解释,但是随着学习的深入,这将使我们的一个好帮手,帮助我们完成很多的任务在SPSS 学习中,对它的认识由浅入深,循序渐进,实践中遇到的各种问题逐个攻克,学习这种在日常工作中有价值的分析方法,使我们更能轻易应付日后的社会的信息工作;掌握这种高级的技能,对我们工作就业提供了竞争优势。
在做时序分析的时候,借着前面的讲解,后面的操作还是比较好做的,比较棘手的是输出结果的解释,有的时候是上网搜的,有的时候是翻翻书,实在不行了只能问同学,其实大家都不太懂这个,才刚刚这种课程,还不能轻松的对输出结果进行解释,但是以后我们一定会掌握好这个软件的。
Spss的实习也是我们开始认识统计开始熟悉统计的过程,少部分东西在统计学原理上已经学过了,很多还没有学到,等学过之后我想我们就能很轻松地对结果进行解释了。