应用多元统计分析第五章聚类分析
主讲:孔幸
组员:杨海生
王晶晶
田艳霞
龚禄娃
第五章聚类分析
习题5.8
试使用系统聚类法和K-均值法分别对这些地区进行聚类分析,并对结果进行比较分析。
将数据导入SPSS,分析得到以下结果:
5.8.1 系统聚类分析(类平均法)
1.系统聚类分析树状图
使用平均联接(组间)的树状图
重新调整距离聚类合并
图5.8-1系统聚类法树状图
如图5.8-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。
从树状图可见,将16个地区分成4类:第一类:上海,经济相对发达地区,农民每人平均生活消费支出情况的六个经济指标相对于16个地区来说都比较大,说明上海农民的平均生活消费水平在
16个地区中最高的。
第二类:北京和浙江,经济中上等地区,农民每人平均生活消费支出的六个经济指标相对于其他的13个地区(除上海外)都比较高,说明北京和浙江地区农民的平均生活消费水平在16个地区中属于中上等水平。
第三类:天津、江苏、辽宁、福建、江西、安徽、内蒙古、黑龙江和吉林,经济中等地区,这7个地区农民的平均生活消费水平在16个地区中属于中等水平。
第四类:河北、河南、山西和山东,经济中下等地区,这4个地区农民的平均生活消费水平在16个地区中中下等水平,即在16个地区中是相对较低的。
5.8.2 K-均值法
通过上述的系统聚类分析(类平均法)我们发现,16个地区农民的平均生活消费水平可以分成4类,因此,我们运用K-均值法做快速聚类分析时,将16个地区聚成的类数设定为4类。
在SPSS中的运行结果解释具体如下:
1.首先分析方差分析表,见表5.8-1
表5.8-1 方差分析表
聚类误差
F Sig.
均方df 均方df
食品5127.237 3 96.784 12 52.976 0.000
衣着100.666 3 28.916 12 3.481 0.050
燃料24.794 3 11.122 12 2.229 0.137
住房3015.542 3 124.862 12 24.151 0.000 交通和通讯341.567 3 60.105 12 5.683 0.012
娱乐教育文化 4.539 3 2.555 12 1.777 0.205
从表5.8-1中可见,聚成的四类在食品、衣着、燃料、住房、交通和通讯以及娱乐教育文化六个经济指标的均值间无差异的原假设下,出现目前值或更极端值的概率分别为0.000、0.050、0.137、0.000、0.012和0.205,故变量食品、衣着、住房以及交通和通讯在分类过程中均在统计学上有显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娱乐教育文化变量无统计学上的显著性意义(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娱乐教育文化变量后重新做聚类分析。
剔除燃料和娱乐教育文化后重新做的聚类分析结果解释如下:
2.迭代过程分析
表5.8-2 迭代过程中类中心得变化量
迭代聚类中心内的更改
1 2 3 4
1 15.305 0.000 12.195 22.664
2 0.000 0.000 0.000 0.000
表5.8-2显示了迭代过程的基本情况,它表明迭代到第二次时,类中心点已没有太大变化达到收敛。
3.给出个观测量所属的类及与所属类中心的距离
表5.8-3 各观测量所属类成员表
表5.8-3中聚类列给出了观测量所属的类别,距离列给出了观测量与所属类中心的距离。
4.给出聚类结果形成的中心的各变量值
表5.8-4 最终的类中心表
聚类
1 2 3 4
食品180.13 221.11 106.65 141.78
衣着38.17 38.64 26.23 28.15
住房53.83 115.65 19.98 25.09 交通和通讯41.68 50.82 23.4 26.01 结合表5.8-3和表5.8-4,我们可以看出16个地区被分成4类,第一类包括:北京和浙江,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为180.13、38.17、53.83和41.68,这类地区农民每人平均生活消费水平在16个地区中属于中上等。
第二类为上海,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为221.11、38.64、115.65和50.82,上海农民每人平均生活消费水平在16个地区中属于最高的。
第三类包括:河北、山西、黑龙江、
山东和河南,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为106.65、26.23、19.98和23.4,这类地区农民每人平均生活消费水平在16个地区中属于中等。
第四类包括:天津、内蒙古、辽宁、吉林、江苏、安徽、福建和江西,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为141.78、28.15、25.09和26.01,这类地区农民每人平均生活消费水平在16个地区中是相对较低的。
5.给出分类变量的方差分析表
表5.8-5 方差分析表
聚类误差
F Sig.
均方df 均方df
食品5127.237 3 96.784 12 52.976 0.000
衣着100.666 3 28.916 12 3.481 0.050
住房3015.542 3 124.862 12 24.151 0.000 交通和通讯341.567 3 60.105 12 5.683 0.012
表5.8-5给出了分类变量的方差分析表,从表中可见用来聚类的4个变量食品、衣着、住房以及交通和通讯在分四类过程中,均有统计学上的显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),表明用这4个变量将16各地区分成四类的快速聚类过程是成功的,聚类效果有统计学意义。
综上所述,将我国16个地区农民支出情况的抽样调查数据通过系统聚类分析和K-均值法聚类分析可以看出,运用这两种方法分析得出的结果基本上一致,但是也有两点不同:
(1)在系统分类法分析的结果中,将黑龙江地区与天津、内蒙古和江西等地区归为一类,而在K-均值法聚类分析结果中,将黑龙江地区与河南、河北、山东和山西等地区归为一类。
(2)在系统分类法分析的结果中,将上海地区分成第一类,北京和浙江地区分成第二类,天津、内蒙古和江西等地区分成第三类,河南、河北、山东和山西等地区分成第四类;而在K-均值法聚类分析结果中,北京和浙江地区分成第一类,上海地区分成第二类,河南、河北、山东和山西等地区分成第三类,天津、内蒙古和江西等地区分成第四类。
习题5.9
试利用两种不同的聚类法对城市进行聚类分析。
将数据导入SPSS,分析得到以下结果:
5.9.1系统聚类分析(类平均法)
1. 系统聚类分析树状图
使用平均联接(组间)的树状图
重新调整距离聚类合并
图5.9-1系统聚类法树状图
如图5.9-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。
从树状图可见,将34个我国部分省会城市和计划单列市分成4类:
第一类:深圳,经济较发达城市。
第二类:重庆和成都,经济中等城市
第三类:上海和广州,经济中上等城市
第四类:长春、南昌、哈尔滨、昆明、石家庄、兰州、西宁、南宁、太原、银川、乌鲁木齐、合肥、福州、海口、贵阳、郑州、西安、沈阳、长沙、济南、青岛、武汉、杭州、宁波、南京、天津、大连、北京和厦门。
经济中下等城市。
5.9.2系统聚类分析(中间距离法)
1.系统聚类分析树状图
使用中位数联接的树状图
重新调整距离聚类合并
图5.9-2 系统聚类法树状图
如图5.9-2所示,选择的聚类方法为中间距离法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。
从树状图可见,将34个我国部分省会城市和计划单列市分成4类:
第一类:深圳,经济较发达城市。
第二类:重庆和成都,经济中等城市。
第三类:杭州、宁波、南京、天津、沈阳、长沙、青岛、济南、武汉、大连、北京、厦门、上海和广州。
经济中上等城市。
第四类:长春、南昌、哈尔滨、昆明、石家庄、兰州、西宁、南宁、太原、银川、乌鲁木齐、合肥、福州、海口、贵阳、郑州、和西安。
经济发展相对缓慢城市。
综上所述,通过运用两种不同的系统聚类法(类平均法和中间距离法)对城市进行聚类分析,我们可以看出虽然两种不同的系统聚类法都可以讲城市分成4类,但是分类结果并不是完全相同的。
其中,两种不同的方法分成的第一类和第二类结果是完全一致的,然而,第三类和第四类的差距有点大,类平均法将上海和广州分成第三类,中间距离法分成的第三类不仅包括了上海和广州,而且还包括了杭州、宁波和厦门等12个城市。
总体来看,本题中采用中间距离法聚类分析的结果要优于类平均法聚类分析的结果。