K聚类
一、实验过程
1.将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区
放到label cases中,设定聚类数=3。
2.点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续
3.点击“保存”,选择“聚类成员”及“与聚类中心的距离”
4.点击“选项”,选择如下
点击继续
5.点击确定后,得到如下实验结果:
二、实验结果分析:
1. 给出初始的聚类中心
初始聚类中心
聚类
2. 给出每次迭代结束后类中心的变动
从表中可以看出共经历了4次迭代,即4次迭代后,聚类中心的变化为0,迭代停止。
表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。
综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。
这一类聚类中心8个产业的产值分别为1165.95,
143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类包括天津和上海,剩下的24个地区为第三类。
表中给出的是三类聚类中心间的距离
6. 进行单因素方差分析
结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。
7. 最终分类各类中的地区数
每个聚类中的案例数
聚类 1 5.000
2 2.000
3 24.000
有效31.000
缺失.000
综合上述表格,按照个产业的发展水平将中国31个地区分成3类:
第一类为北京,江苏,浙江,山东,广东,属于经济发达地区。
该类中心的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类为天津和上海,属于较发达地区。
该类中心的产值分别为
2064.94,170.58,272.73,445.55,80.96,266.19,251.86,717.59亿元。
第三类为余下的24个地区,属于欠发达地区。
该类中心的产值分别为
428.07,82.50,73.91,89.18,26.04,28.29,38.64,185.03亿元。