当前位置:文档之家› 《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)

《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)

《统计分析与SPSS的应用(第五版)》(薛薇)
课后练习答案
第10章SPSS的聚类分析
1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。

要求:
1)根据凝聚状态表利用碎石图对聚类类数进行研究。

2)绘制聚类树形图,说明哪些省市聚在一起。

3)绘制各类的科研指标的均值对比图。

4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。

采用欧氏距离,组间平均链锁法
利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。

大约聚成4类。

步骤:分析分类系统聚类按如下方式设置……
结果:
凝聚计划
阶段
组合的集群
系数
首次出现阶段集群
下一个阶段集群1集群2集群1集群2
12630002 22629107 32025005 44120015 5820036 6816509 724260210 87110011 9580622 1024317022 11270816 1222280019 136230017 1410190025 154214021 162311021 1761313020 189180025 19142201224 2061517023 2124161526 2252491024 2362720026 24514221928 25910181427 2626212328 2791725029 2825262429 2929282730 30120290
将系数复制下来后,在EXCEL中建立工作表。

选中数据列,点击“插入”菜单拆线图……
碎石图:
由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。

其他略。

接下来,添加一个变量CLU4_1,其值为类别值。

(1、2、3、4),再数据汇总设置……确定。

均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值
方差分析结果:分析比较均值单因素ANOVA设置……确定
不同组在各个聚类变量上的均值均存在显著差异。

2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理
因为数量级将对距离产生较大影响,并影响最终聚类结果。

3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响为什么
会。

如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复
“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。

4、试说明K-Mean聚类分析的基本步骤。

K-Means聚类分析步骤:
确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。

是一个反复迭代的分类过程。

在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。

5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构.sav”,变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。

若采用
层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制的碎石图如下:
(1)依据上图,数据聚成几类较为恰当
(2)试采用K-MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。

(1)聚成3类较为恰当。

注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。

步骤:分析降维因子分析导入全部变量到变量框中(地区变量除外)抽取:选中碎石图继续确定。

得到:(可以看出,分成3类恰当)
(2)用K-MEANS聚类方法进行分类,比较分类数为2、3、4时的差别。

步骤:分析分类K-平均聚类地区变量导入到标注个案,其他变量全部导入到变量框中聚类数填2选项:选中初始聚类中心和ANOVA继续确定。

得到:
ANOVA
聚类错误
均方df均方df
F显著性食品.967129.000衣着129.011居住129.000家庭设备用品及服务129.000医疗保健129.005交通和通信.457129.000教育文化娱乐服务129.000杂项商品和服务129.000仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量
聚类1
2
有效
缺失.000
ANOVA
聚类错误
均方df均方df
F显著性
食品228.000
衣着228.107居住228.000家庭设备用品及服务228.000医疗保健228.007交通和通信228.000教育文化娱乐服务228.000杂项商品和服务228.000仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量
聚类1
2
3
有效
缺失.000
将上图中的聚类数修改为4,则得到:
ANOVA
聚类错误
均方df均方df
F显著性
食品327.000衣着327.022居住327.001家庭设备用品及服务327.000医疗保健327.045交通和通信327.000教育文化娱乐服务327.000杂项商品和服务327.000仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量
聚类1
2
3
4
有效
缺失.000
从3个ANOVA表可以看出,分为2类时,P-值均小于,表明有显著差异;分为3类时,出现了“衣着”的P-值为,大于;分为4类时,P-值均小于,表明有显著差
异。

表明仅从ANOVA表看,分为3类,不合适。

再看F值,F值大表明组间差大,组内差小,即类内相似性大,类间差异性大,经比较可以看出,分类2类时,组间方差和组内方差均较大,而分为4类时,组间方差和组内方差相对来说,组内方差缩小得明显一些。

故分为4类较为恰当。

相关主题