当前位置：文档之家› SPSS数据分析教程-10 聚类分析

SPSS数据分析教程-10 聚类分析

案
例 1 2 3 4 5 6 7 8 9 10 11
号
Model Cavalier Malibu Impala Mustang Taurus Focus Civic Accord Grand Am Corolla Camry
聚 1 3 . 3 2 . 1 2 3 1 2
类
距
离
18.262 13.093 . 18.652 16.338 . 38.008 12.773 6.133 21.783 11.101
10.3 10.4 10.5 10.6

类之间的距离系统聚类算法过程系统聚类案例 K-均值聚类
10.6.1 K-均值法简介 10.5.2 K-均值法案例 10.7.1 两步法简介 10.7.2 两步法案例分析

10.7 两步法聚类

10.8 聚类分析注意事项
本章学习目标

类 3 113.369 12.760 21.560 3.8 190 101.3 73.1 183.2 3.203 15.7 24
245.815 10.055 17.885 3.0 155 108.5 73.0 197.6 3.368 16.0 24
案例号 1 2 3 4 5 6 7 8 9 10 11
类 3 113.369 12.760 21.560 3.8 190 101.3 73.1 183.2 3.203 15.7 24
245.815 10.055 17.885 3.0 155 108.5 73.0 197.6 3.368 16.0 24
聚 1 Sales in thousands 4-year resale value Price in thousands Engine size Horsepower Wheelbase Width Length Curb weight Fuel capacity Fuel efficiency 145.519 9.250 13.260 2.2 115 104.1 67.9 180.9 2.676 14.3 27 2
群集组合群集 1 6 8 2 1 1 2 2 5 1 1 群集 2 7 11 9 6 10 3 4 8 5 2
系数 7.396 13.695 53.086 131.020 205.295 235.419 429.792 553.439 1353.892 3535.162
首次出现阶群集群集 1 0 0 0 0 4 3 6 0 5 9 群集 2 0 0 0 1 0 0 0 2 8 7
聚类数量

（1）自动确定：可以选择自动确定，这里可以限定类个数的上限。默认最多15个类。也可以据需要修改类个数的最大值。（2）指定固定值：如果很有把握，那么你可以输入你想要的类个数。
聚类准则

有AIC和BIC两个准则，这两个模型选择准则在选择模型方面基本类似，都是综合考虑样本数和模型的复杂程度。AIC或者BIC的值越小，模型越好。
两阶段聚类算法的两个阶段

第1步：建立一个聚类特性树。第2步：应用凝聚算法对聚类特性树的叶节点进行分类。
两步法的距离度量

两步法的距离度量有两种（1）对数似然（SPSS 翻译为对数相似值）：这里由于聚类指标中含有分类变量，所以只能选择该项。（2）欧式距离（Euclidean）：当聚类指标不含有分类变量时可以选择该距离。

选择【分析】 →【分类】→ 【K-均值聚类】
聚 1 Sales in thousands 4-year resale value Price in thousands Engine size Horsepower Wheelbase Width Length Curb weight Fuel capacity Fuel efficiency 145.519 9.250 13.260 2.2 115 104.1 67.9 180.9 2.676 14.3 27 2

第8步：最后，按下列原则构成类关系图。

若两个样品在已经连接成的组中未出现过，则它们连接成一个新组。若两个样品中有一个在某组中出现过，则另一个就加入该组。若两个样品都在同一组中，则这对样品不再分组。若两个样品都在不同组中出现过，则把这两组连接在一起。
10.5 系统聚类案例

下一阶 4 8 6 5 9 7 10 9 10 0
案 1:Cavalier 2:Malibu 3:Impala 4:Mustang 5:Taurus 6:Focus 7:Civic 8:Accord 9:Grand Am 10:Corolla 11: Camry
例
3 群集 1 2 2 2 3 1 1 3 2 1 3

聚类分析不必事先知道分类对象的结构，从一批样品的多个观测指标中，找出能度量样品之间或指标（变量）之间相似程度或亲疏关系的统计量，构成一个对称相似性矩阵，并按相似程度的大小，把样品或变量逐一归类。根据对样品聚类还是对变量聚类，聚类分析分 Q型聚类和R型聚类。对变量的聚类称为R型聚类，而对样品（即观测值）聚类称为Q型聚类。通俗讲，R型聚类是对数据中的列分类，Q型聚类是对数据中的行分类。

打开本章的数据文件Cluster_cars.sav。该数据是市场上一些品牌汽车的资料，它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱，还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。按照这些数据对当前市场上的车进行聚类，看看哪些品牌的车定位有类似之处，制造商可以据此制定相应的策略。
10.7 两步法聚类

两步法聚类又称两阶段聚类，它与系统聚类相似，是揭示数据所蕴含的自然组别的一种探索性分析方法。
两步法聚类的特点

（1）聚类变量可以是连续变量，也可以是分类变量。两步法聚类充分考虑到这两种变量的不同性质，采用对数似然距离来衡量相似性。（2）它能自动确定出类的个数。（3）能够有效地分析大数据集。
10.4 系统聚类算法过程
系统聚类的步骤

第1步：数据标准化。把原始数据标准化得到标准化数据矩阵。第2步：计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。

第3步：选出有最大相似系数的样品组。第4步：把该组样品加权平均，这样就形成了一个新的组合样品。第5步：用新的样品类代替原来的一对样品点。第6步：对新形成的样品与其余样品数据重新计算相似系数矩阵。第7步：如此重复第2步到第5步的过程，直到把所有样品都归类完毕。
10.2.2 分类数据之间的距离

卡方度量 Phi方度量
10.3 类之间的距离

SPSS提供了7种计算两个类距离的方法。

组间连接法（Between-groups Linkage）组内连接法（Within-Groups Linkage）最近邻元素法（Nearest Neighbor）最长距离法（Furthest Neighbor）质心聚类法（Centroid Clustering）中位数聚类法（Median Clustering) 离差平方和法（Ward’s Method）
SPSS数据分析教程
—《SPSS数据分析教程》
第10章聚类分析
目录

10.1 聚类分析简介 10.2 个案间的距离

10.2.1 定距数据（Scale Mearsurement）距离定义方式 10.2.2 分类数据的频数数据（Count） 10.2.3 二分类数据

理解聚类分析的基本概念；了解个案之间距离的定义方式；了解类之间距离的定义方式；掌握系统聚类方法；掌握两步法聚类方法；掌握K均值聚类方法。
10.1 聚类分析简介

根据对象的某些属性把它们分到一些组中，使得同组内的对象尽可能地相似，不同组中的对象尽可能地不一样，即所谓的聚类分析。聚类分析方法被称为“无监督的分析方法”，意即没有因变量。而另外一种分类的方法是判别分析，它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量（即事先确定的类别），是“有监督的分析方法”。

选择【分析】→【分类】→【系统聚类】把从“Price in thousand”到“Fuel efficiency”的所有变量选入右边的“变量框”。把“Model”变量选入“标注个案”框。依次单击【统计量】、【绘制】、【方法】和【保存】按钮
阶 1 2 3 4 5 6 7 8 9 10
K-均值法案例

打开本章的数据文件Cluster_cars.sav。该数据是市场上一些品牌汽车的资料，它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱，还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。按照这类似之处，制造商可以据此制定相应的策略。
两步法案例分析

数据文件Twosteps_car.sav 选择【分析】→【分类】→【两步聚类】
两步法聚类选项设置（1）
两步法聚类选项设置（2）

评估字段：评估字段不用于聚类过程，但是可以用它们来描述两步法生成的类的特征。
两步法聚类的模型摘要
两步法模型视图
两步法模型视图
两步法模型视图
2 群集 1 2 2 2 1 1 1 1 2 1 1
10.6 K-均值聚类
K-均值聚类的算法过程

第1步：用户给定聚类个数K。第2步：给出初始类中心。第3步：计算所有个体到这K个类中心的距离，然后按照到K个类中心距离最短原则，把所有个体分别划分到距最近的中心点所在的类中，这样形成了K个类，完成一次迭代过程。第4步：重新计算K个类的类中心。第5步：重复进行第3步、第4步。直到迭代次数达到限制的次数或者类中心不再变化为止。

e商务文档

SPSS数据分析教程-10 聚类分析

相关文档推荐：