当前位置:文档之家› 聚类分析和判别分析实验报告

聚类分析和判别分析实验报告

聚类分析实验报告一、实验数据2013年,在国内外形势错综复杂的情况下,我国经济实现了平稳较快发展。

全年国内生产总值568845亿元,比上年增长7.7%。

其中第三产业增加值262204亿元,增长8.3%,其在国内生产总值中的占比达到了46.1%,首次超过第二产业。

经济的快速发展也带来了就业的持续增加,年末全国就业人员76977万人,其中城镇就业人员38240万人,全年城镇新增就业1310万人。

随着我国城镇化进程的不断加快,加之农业用地量的不断衰减,工业不断的转型升级,使得劳动力就业压力的缓解需要更多的依靠服务业的发展。

(一)指标选择根据指标选择的可行性、针对性、科学性等原则,分别从服务业的发展规模、发展结构、发展效益以及发展潜力等方面选择14个指标来衡量服务业的发展水平,指标体系如表1所示:表1 服务业发展水平指标体系(二)指标数据本次实验采用的数据是我国31个省(市、自治区)2012年的数据,原数据均来自《2013中国统计年鉴》以及2013年各省(市、自治区)统计年鉴,不能直接获得的指标数据是通过对相关原始数据的换算求得。

原始数据如表2所示:表2(续)二、实验步骤本次实验是在SPSS中分别利用系统聚类法和K均值法进行聚类分析,具体步骤如下:(一)系统聚类法⒈在SPSS窗口中选择Analyze—Classify—Hierachical Cluster,调出系统聚类分析主界面,将变量X1-X14移入Variables框中。

在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。

在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

⒉点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。

这里选择系统默认值,点击Continue按钮,返回主界面。

⒊点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。

选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。

单击Continue按钮,返回主界面。

⒋点击Method按钮,设置系统聚类的方法选项。

Cluster Method下拉列表用于指定聚类的方法,这里选用W ard’s method,Measure中的Interval中选择Squared Euclidean distance,在Transform Values中的Standardize中选择Z scores,表示对原始数据进行标准化,其他选择默认选项。

单击Continue 按钮,返回主界面。

⒌点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。

这里选用Range of solutions,并在后面的两个矩形框中分别输入3和4,即生产三个新的分类变量,分别表示将样品分为3类、4类和5类时的聚类结果。

点击Continue,返回主界面。

(二)K均值法1.在SPSS窗口中选择Analyze—Descriptive Statistics—Descriptives…,调出Descriptives主界面,将变量X1-X14移入Variables 框中,选中Save standardized values as variables复选框,然后点击OK,即对原始数据进行标准化,以消除量纲的影响。

2.在SPSS窗口中选择Analyze—Classify—K-Means Cluster,调出K均值聚类分析主界面,将变量X1-X14移入Variables框中。

将标志变量Region移入Label Case by框中,在Method框中选择Iterate classify,即使用K-means 算法不断计算新的类中心,并替换旧的类中心。

在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里输入4,即将31个省、市、自治区分为4类,其他按钮均为系统默认。

⒊点击Iterate按钮,对迭代参数进行设置,这里采用系统默认的标准。

单击Continue,返回主界面。

⒋点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量,选中Cluster membership(建立一个代表聚类结果的变量,默认变量名为qcl_1)和Distance from cluster center(建立一个新变量,代表各观测变量与其所属类中心的欧几里得距离),单击Continue按钮返回主界面。

⒌点击Options 按钮,指定要计算的统计量,选中Initial cluster centers 和Cluster information for each case复选框,这样在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离,单击Continue按钮返回主界面。

6.点击OK,进行K均值聚类分析程序。

三、实验结果(一)系统聚类法结果在结果输出窗口中可以看到分类结果表(表3)和聚类树形图(图1),具体见表1和图2所示:从表3和图1可以清楚的看到,可将样品分成如下四类:第一类:北京、天津、上海第二类:河北、辽宁、安徽、福建、河南、湖北、湖南、四川第三类:山西、内蒙古、吉林、黑龙江、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆第四类:江苏、浙江、山东、广东Dendrogram using Ward MethodRescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+湖北 17 -+湖南 18 -+河北 3 -+-+河南 16 -+ |四川 23 -+ +--------+安徽 12 -+ | |辽宁 6 -+-+ |福建 13 -+ |贵州 24 -+-+ +--------------------------------------+ 宁夏 30 -+ +----+ | | 内蒙古 5 ---+ | | | 吉林 7 -+ | | | 新疆 31 -+ | | | 青海 29 -+ +---+ | 江西 14 -+ | | 广西 20 -+---+ | | 云南 25 -+ | | | 甘肃 28 -+ | | | 陕西 27 -+ +-+ | 山西 4 -+ | | 重庆 22 -+-+ | | 黑龙江 8 -+ +-+ | 海南 21 -+-+ | 西藏 26 -+ | 江苏 10 -+ | 浙江 11 -+-+ | 山东 15 -+ +-------------------+ | 广东 19 ---+ +---------------------------+ 天津 2 -----+---+ |上海 9 -----+ +-------------+北京 1 ---------+图1 聚类树形图(二)K均值法结果由表4可知,将31个省(直辖市、自治区)分为四类的结果为:第一类:北京第二类:天津、上海第三类:河北、山西、内蒙古、吉林、黑龙江、安徽、福建、江西、河南、湖北、湖南、广西、海南、重庆、四川、贵州、云南、西藏、山西、甘肃、青海、宁夏、新疆第四类:辽宁、江苏、浙江、山东、广东(三)聚类结果分析从系统聚类结果和K均值法聚类结果可以看出,二者最终的聚类结果是有差距的。

因而,在实际的聚类案例中,我们应该具体问题具体分析,选择合适的聚类方法,进行合理的聚类。

判别分析实验报告为研究我国服务业发展水平,已按系统聚类法将27个已知省(直辖市、自治区)分为4类,现对另4个未知省(直辖市、自治区)分属哪一类进行判别,指标含义及原始数据分别如表1和表2所示:表1 服务业发展水平指标含义表2 2012年我国服务业发展水平统计数据表表2(续)一、操作步骤(一)在SPSS窗口中选择Analyze—Descriptive Statistics—Descriptives…,调出Descriptives主界面,将变量X1-X14移入Variables 框中,选中Save standardized values as variables复选框,然后点击OK,即对原始数据进行标准化,以消除量纲的影响。

(二)在SPSS窗口中选择Analyze—Classify—Discriminate,调出判别分析主界面,将左边的变量列表中的type变量选入分组变量Grouping Variable 中,将X1-X14变量选入自变量Independents中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。

(三)点击Define Range按钮,定义分组变量的取值范围。

这里分类变量的范围为1到4,所以在最小值和最大值中分别输入1和4。

单击Continue按钮,返回主界面。

(四)单击Statistics…按钮,指定输出的描述统计量和判别函数系数。

选中Function Coefficients栏中的Fisher’s(给出贝叶斯判别函数的系数)和Unstandardized(给出为标准化的费希尔判别函数),单击Continue按钮,返回主界面。

(五)单击Classify…按钮,定义判别分组参数和选择输出结果。

选择Display栏中的Casewise results,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组合预测编号等。

其余的均保留系统默认选项。

单击Continue按钮,返回主界面。

(六)单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predicted group membership(存放判别样品所属组别的值);Discriminant scores(存放费希尔判别得分的值);Probabilities of group membership(存放样品属于各组的贝叶斯后验概率),这里将三个复选框均选中,单击Continue按钮返回主界面。

(七)返回判别分析主界面,单击OK按钮,运行判别分析过程。

二、个案观察结果表3为标准化典型判别函数的系数表,由该表可以得到典型判别函数为:Y 1=-1.077X1-0.951X2+1.890X3-0.862X4-26.097X5+5.976X6-1.408X7+1.183X8+19.433X9+0.268X10-11.585X11+1.764X12+0.443X13+0.687X14Y 1=-2.380X1+1.143X2+17.628X3-0.176X4-1.867X5+0.835X6+1.174X7+0.108X8+1.796X9-0.220X10-1.507X11+0.030X12-0.374X13+0.576X14Y 1=-1.699X1+1.285X2+6.112X3-0.533X4-7.635X5+2.285X6-0.992X7-0.120X8+6.959X9-0.279X10-3.211X11+0.885X12+0.628X13+0.465X14表4为未标准化的典型判别函数的系数表。

相关主题