物流统计实验作业<一>:试述聚类分析的基本思想以及SPSS操作的基本步骤?系统聚类的基本思想是聚类分析法又称集群分析法,它是研究样品或指标分类问题的一种多元统计方法。
寻找一种能客观反应事物之间亲疏关系或合理评价事物性质相似程度的统计量,然后根据这种统计量和规定的分类准则把事物进行分类。
操作步骤:1. 在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出系统聚类分析主界面,并将变量移入Variables框中。
在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。
在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。
这里我们选择系统默认值,点击Continue按钮,返回主界面。
3. 点击Plots,设置结果输出窗口给出的聚类分析统计图。
选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。
单击Continue,返回主界面。
4. 点击Method,设置系统聚类的方法选项。
Cluster Method下拉列表用于指定聚类的方法,包括组间连接法、组内连接法、最近距离法、最远距离法等;Measure栏用于选择对距离和相似性的测度方法;剩下的Transform Values和Transform Measures栏用于选择对原始数据进行标准化的方法。
这里我们仍然均沿用系统默认选项。
单击Continue,返回主界面。
5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。
None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。
这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。
点击Continue,返回主界面。
6. 点击OK按钮,运行系统聚类过程。
<二>:利用2001年全国31个省自治区各类小康和现代化指数的数据,利用K-均值聚类方法对地区进行聚类分析。
并且对SPSS分析的结果进行分析。
文件名为“小康指数.sav”。
31个省市自治区小康和现代化指数的K-Means聚类分析结果(一)这张表展示了3类的初始类中心点的情况。
由表可知第二类各指数均是最优的,第一类次之,第三类各指数最不理想。
31个省市自治区小康和现代化指数的K-Means聚类分析结果(二)表中展示了3个类中心点每次迭代时的偏移情况。
由表可知,第一次迭代后,3个类的中心点分别偏移了24.387,6.307.23.579,第三类中心点偏移最大;第二次迭代后,3个类的中心点的偏移均小于指定的判定标准(0.02),聚类分析结束。
31个省市自治区小康和现代化指数的K-Means聚类分析结果(三)展示了3个类的最终类中心点的情况。
由表可知,第二类各指数均是最优的,第一类次之,第三类各指数最不理想。
31个省市自治区小康和现代化指数的K-Means聚类分析结果(四)表中展示了3个类的类成员情况。
第1类(中游水平)有7个省市自治区,第2类(上游水平)有3个省市自治区,第3类(下游水平)有21个省市自治区。
31个省市自治区小康和现代化指数的K-Means聚类分析结果(五)展示了各指数在不太类的均值比较情况,通过该表可以看出各指数的均值在3类中差异是最著。
31个省市自治区小康和现代化指数的K-Means聚类分析结果(六)<三>:根据“高校科研研究.sav”的数据,利用层次聚类分析对各省市的高校科研情况进行聚类分析。
(1)根据凝聚状态表,利用碎石图对聚类类数进行研究(2)绘制聚类树形图,说明哪些省市聚在一起。
(3)绘制各类科研指标的均值对比图。
(4)利用方差分析方法分析各类在哪些科研指标上存在差异。
凝聚状态表碎石图通过碎石图可以得出:随着类的不断凝聚,类目数的不断减少,类间的距离在逐渐增大。
在聚成7类之前,类距增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大形成极为“平坦的碎石路”。
根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的“拐点”碎石,以它作为确定分类数目的参考。
在本例中,可以考虑聚成3类或4类。
2、31个省市自治区小康和现代化指数的层次聚类分析结果* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *Dendrogram using Average Linkage (Between Groups)Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+青海 29 ⇩宁夏 30 ⇩▫西藏 26 ⇩▫贵州 24 ⇩▫海南 21 ⇩▫云南 25 ⇩⇳⇩新疆 31 ⇩▫⇔广西 20 ⇩▫⇔甘肃 28 ⇩▫⇔黑龙江 8 ⇩▫⇔重庆 22 ⇩▫▫⇩⇩⇩⇩⇩⇩⇩⇩⇩内蒙 5 ⇩⇔⇔山西 4 ⇩⇔⇔福建 13 ⇩▫⇔⇔安徽 12 ⇩▫⇔⇔吉林 7 ⇩⇳⇩⇔四川 23 ⇩▫⇔陕西 27 ⇩▫⇔河北 3 ⇩▫▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩江西 14 ⇩▫⇔⇔天津 2 ⇩▫⇔⇔河南 16 ⇩⇔⇔上海 9 ⇩⇔⇔广东 19 ⇩⇳⇩⇩⇩⇔⇔湖北 17 ⇩⇔⇔⇔辽宁 6 ⇩▫⇩⇔⇔浙江 11 ⇩⇳⇩⇔⇔⇔⇔湖南 18 ⇩▫⇩▫⇩⇩⇩⇩⇩⇔山东 15 ⇩⇩⇩⇔⇔江苏 10 ⇩⇩⇩⇩⇩⇩⇩⇔北京 1 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩ 由上图可以看出:北京为一类(第1类),天津、河北、由图可知,青海、宁夏、西藏、贵州、海南、云南、新疆、广西、甘肃、黑龙江、重庆、内蒙的相似性较高,较早聚成了一类;山西、福建、安徽、吉林、四川、陕西、河北、江西、天津、河南的相似性较高,较早聚成了一类;上海、广东、湖北的相似性较高,较早聚成了一类。
辽宁、浙江、湖南聚成一类;山东、江苏、北京各自成一类。
若分成3类,则北京自成一类(第1类);上海、广东、湖北、辽宁、浙江、湖南、山东、江苏为一类(第3类);其它的为第二类。
<四>:试述因子分析的基本思想以及SPSS操作的基本步骤?因子分析基本思想:从主成分分析模型和理论入手,用等价性的方法建立因子分析精确模型和理。
通过对变量相关系数矩阵内部结构的研究把变量分组,使得同一组内的变量之间相关性较高,但不同组的变量相关性较低。
每组变量代表一个基本结构,这个基本结构称为公共因子。
对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。
操作步骤1.在SPSS窗口中选择Analyze→Data Reduction→Factor,调出因子分析主界面,并将变量移入Variables 框中。
2. 点击Descriptives按钮,展开相应对话框,见图7.2。
选择Initial solution复选项。
这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。
单击Continue按钮,返回主界面。
3. 点击Extraction按钮,设置因子提取的选项,。
在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。
在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。
在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。
在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。
单击Continue按钮,返回主界面。
4.点击Rotation按钮,设置因子旋转的方法。
这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。
单击Continue按钮,返回主界面5.点击Scores按钮,设置因子得分的选项。
选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。
选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。
单击Continue按钮返回主界面。
6. 单击OK按钮,运行因子分析过程<五>:利用“各地区年平均收入.sav”数据,对全国各地区间年人均收入的差异性和相似性进行研究。
具体需要分析的内容如下:(1)考察原有变量是否适合进行因子分析?(2)提取因子,给出因子分析模型?(3)给出旋转后的因子载荷矩阵,并对因子进行命名解释?(4)给出因子得分函数,计算因子得分?(5)利用因子得分变量对地区进行对比研究?原有变量的相关系数矩阵该表是原有变量的相关系数矩阵。
可以看到:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。
因子分析中的变量共同度(一)因子分析中的变量共同度(二)由上面的表可知,表3所有变量的共同度均较高,各个变量的信息丢失都较少。
因此,第二次因子提取的总体效果较理想。
因子载荷矩阵因子分析模型:港澳台经济单位=0.995*F1-0.095*F2集体经济单位= 0.923*F1+0.057*F2外商投资经济单位= 0.911*F1-0.159*F2股份制经济单位= 0.886*F1+0.176*F2国有经济单位= 0.872*F1+0.086*F2联营经济单位= 0.774*F1+0.462*F2其他经济单位= 0.770*F1-0.527*F2旋转后的因子载荷矩阵可知:联营经济单位、股份制经济单位、集体经济单位、国有经济单位在地1个因子上有较高的载荷,第1个个因子主要解释了这几个变量,可解释为内部投资经济单位;其他经济单位、外商投资经济单位、港澳台经济单位在第2个因子上有较高的载荷,第2个因子主要解释了这几个变量,可解释为外来投资经济单位。