当前位置：文档之家› 《统计分析与SPSS的应用第五版》课后练习答案第10章.doc

《统计分析与SPSS的应用第五版》课后练习答案第10章.doc

《统计分析与S P S S的应用（第五版）》（薛薇）
课后练习答案
第10章SPSS的聚类分析
1、根据“高校科研研究.sav”数据，利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。

要求：1）根据凝聚状态表利用碎石图对聚类类数进行研究。

2）绘制聚类树形图，说明哪些省市聚在一起。

3）绘制各类的科研指标的均值对比图。

4）利用方差分析方法分析各类在哪些科研指标上存在显著差异。

采用欧氏距离，组间平均链锁法
利用凝聚状态表中的组间距离和对应的组数，回归散点图，得到碎石图。

大约聚成4类。

步骤：分析→分类→系统聚类→按如下方式设置……
结果：
凝聚计划
阶段
组合的集群
系数
首次出现阶段集群
下一个阶段集群 1 集群 2 集群 1 集群 2
1 26 30 328.189 0 0 2
2 26 29 638.295 1 0 7
3 20 25 1053.423 0 0 5
4 4 12 1209.922 0 0 15
5 8 20 1505.035 0 3 6
6 8 16 1760.170 5 0 9
7 24 26 1831.926 0 2 10
8 7 11 1929.891 0 0 11
9 5 8 2302.024 0 6 22
10 24 31 2487.209 7 0 22
11 2 7 2709.887 0 8 16
12 22 28 2897.106 0 0 19
13 6 23 2916.551 0 0 17
14 10 19 3280.752 0 0 25
15 4 21 3491.585 4 0 21
16 2 3 4229.375 11 0 21
17 6 13 4612.423 13 0 20
18 9 18 5377.253 0 0 25
19 14 22 5622.415 0 12 24
20 6 15 5933.518 17 0 23
21 2 4 6827.276 16 15 26
22 5 24 7930.765 9 10 24
23 6 27 9475.498 20 0 26
24 5 14 14959.704 22 19 28
25 9 10 19623.050 18 14 27
26 2 6 24042.669 21 23 28
27 9 17 32829.466 25 0 29
28 2 5 48360.854 26 24 29
29 2 9 91313.530 28 27 30
30 1 2 293834.503 0 29 0
将系数复制下来后，在EXCEL中建立工作表。

选中数据列，点击“插入”菜单→拆线图……
碎石图：
由图可知，北京自成一类，江苏、广东、上海、湖南、湖北聚成一类。

其他略。

接下来，添加一个变量CLU4_1，其值为类别值。

（1、2、3、4），再数据→汇总→设置……→确定。

均值对比，依据聚类解，利用分类汇总，计算各个聚类变量的均值
方差分析结果：分析→比较均值→单因素ANOVA→设置……→确定
不同组在各个聚类变量上的均值均存在显著差异。

2、试说明当变量存在数量级上的差异，进行层次聚类分析时为什么要对数据进行标准化处理？
因为数量级将对距离产生较大影响，并影响最终聚类结果。

3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响？为什么？
会。

如果所选变量之间存在较强的线性关系，能够相互替代，在计算距离时同类变量将重复“贡献”，占有较高权重，而使最终的聚类结果偏向该类变量。

4、试说明K-Mean聚类分析的基本步骤。

K-Means聚类分析步骤：
确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。

是一个反复迭代的分类过程。

在聚类过程中，样本所属的类会不断调整，直至达到最终稳定为止。

5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据，数据文件名为：“消费结构.sav”，变量包括：地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。

若采用层次聚类法（个体间距离定义为平方欧氏距离，类间距离定义为组间平均链锁距离），绘制的碎石图如下：
（1）依据上图，数据聚成几类较为恰当？
（2）试采用K-MEANS聚类方法，从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。

（1）聚成3类较为恰当。

注：碎石图可按第9章第1题方式绘制，也可按如下方式绘制。

步骤：分析→降维→因子分析→导入全部变量到变量框中（地区变量除外）→抽取：选中碎石图→继续→确定。

得到：（可以看出，分成3类恰当）
（2）用K-MEANS聚类方法进行分类，比较分类数为2、3、4时的差别。

步骤：分析→分类→K-平均聚类→地区变量导入到标注个案，其他变量全部导入到变量框中→聚类数填2→选项：选中初始聚类中心和ANOVA→继续→确定。

得到：
将上图中的聚类数修改为3，则得到：
ANOVA
聚类错误
均方df 均方df
F 显著性
食品8311754.509 2 159294.770 28 52.178 .000
衣着100878.509 2 41645.317 28 2.422 .107
居住565811.147 2 16508.690 28 34.274 .000
家庭设备用品及服务237257.836 2 12833.027 28 18.488 .000
医疗保健198689.996 2 33054.746 28 6.011 .007
交通和通信4709934.064 2 90458.748 28 52.067 .000
教育文化娱乐服务2676015.304 2 67059.926 28 39.905 .000
杂项商品和服务150742.666 2 4829.555 28 31.213 .000
仅当出于描述目的时才应该使用 F 检验，因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的
显著性级别并未因此得到更正，所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量
聚类 1 1.000
2 25.000
3 5.000
有效31.000
缺失.000
将上图中的聚类数修改为4，则得到：
ANOVA
聚类错误
均方df 均方df
F 显著性
食品6461251.597 3 62963.251 27 102.619 .000
衣着135334.013 3 35623.106 27 3.799 .022
居住237725.271 3 32618.140 27 7.288 .001
家庭设备用品及服务142250.914 3 15077.322 27 9.435 .000
医疗保健111992.289 3 36553.186 27 3.064 .045
交通和通信3596731.324 3 43056.263 27 83.536 .000
教育文化娱乐服务1812882.568 3 66335.586 27 27.329 .000
杂项商品和服务97486.291 3 5342.741 27 18.246 .000
仅当出于描述目的时才应该使用 F 检验，因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的
显著性级别并未因此得到更正，所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量
聚类 1 1.000
2 3.000
3 15.000
4 12.000
有效31.000
缺失.000
从3个ANOVA表可以看出，分为2类时，P-值均小于0.05，表明有显著差异；分为3类时，出现了“衣着”的P-值为0.107，大于0.05；分为4类时，P-值均小于0.05，表明有显著差异。

表明仅从ANOVA表看，分为3类，不合适。

再看F值，F值大表明组间差大，组内差小，即类内相似性大，类间差异性大，经比较可以看出，分类2类时，组间方差和组内方差均较大，而分为4类时，组间方差和组内方差相对来说，组内方差缩小得明显一些。

故分为4类较为恰当。

e商务文档

《统计分析与SPSS的应用第五版》课后练习答案第10章.doc

相关文档推荐：