当前位置:
文档之家› SPSS数据分析教程-10 聚类分析
SPSS数据分析教程-10 聚类分析
案
例 1 2 3 4 5 6 7 8 9 10 11
号
Model Cavalier Malibu Impala Mustang Taurus Focus Civic Accord Grand Am Corolla Camry
聚 1 3 . 3 2 . 1 2 3 1 2
类
距
离
18.262 13.093 . 18.652 16.338 . 38.008 12.773 6.133 21.783 11.101
10.3 10.4 10.5 10.6
类之间的距离 系统聚类算法过程 系统聚类案例 K-均值聚类
10.6.1 K-均值法简介 10.5.2 K-均值法案例 10.7.1 两步法简介 10.7.2 两步法案例分析
10.7 两步法聚类
10.8 聚类分析注意事项
本章学习目标
类 3 113.369 12.760 21.560 3.8 190 101.3 73.1 183.2 3.203 15.7 24
245.815 10.055 17.885 3.0 155 108.5 73.0 197.6 3.368 16.0 24
案 例 号 1 2 3 4 5 6 7 8 9 10 11
类 3 113.369 12.760 21.560 3.8 190 101.3 73.1 183.2 3.203 15.7 24
245.815 10.055 17.885 3.0 155 108.5 73.0 197.6 3.368 16.0 24
聚 1 Sales in thousands 4-year resale value Price in thousands Engine size Horsepower Wheelbase Width Length Curb weight Fuel capacity Fuel efficiency 145.519 9.250 13.260 2.2 115 104.1 67.9 180.9 2.676 14.3 27 2
群集组合 群集 1 6 8 2 1 1 2 2 5 1 1 群集 2 7 11 9 6 10 3 4 8 5 2
系数 7.396 13.695 53.086 131.020 205.295 235.419 429.792 553.439 1353.892 3535.162
首次出现阶群集 群集 1 0 0 0 0 4 3 6 0 5 9 群集 2 0 0 0 1 0 0 0 2 8 7
聚类数量
(1)自动确定:可以选择自动确定,这里可 以限定类个数的上限。默认最多15个类。也可 以据需要修改类个数的最大值。 (2)指定固定值:如果很有把握,那么你可 以输入你想要的类个数。
聚类准则
有AIC和BIC两个准则,这两个模型选择准则在 选择模型方面基本类似,都是综合考虑样本数 和模型的复杂程度。AIC或者BIC的值越小,模 型越好。
两阶段聚类算法的两个阶段
第1步:建立一个聚类特性树。 第2步:应用凝聚算法对聚类特性树的叶节点 进行分类。
两步法的距离度量
两步法的距离度量有两种 (1)对数似然(SPSS 翻译为对数相似值): 这里由于聚类指标中含有分类变量,所以只能 选择该项。 (2)欧式距离(Euclidean):当聚类指标不 含有分类变量时可以选择该距离。
选择【分析】 →【分类】→ 【K-均值聚类】
聚 1 Sales in thousands 4-year resale value Price in thousands Engine size Horsepower Wheelbase Width Length Curb weight Fuel capacity Fuel efficiency 145.519 9.250 13.260 2.2 115 104.1 67.9 180.9 2.676 14.3 27 2
第8步:最后,按下列原则构成类关系图。
若两个样品在已经连接成的组中未出现过,则它们 连接成一个新组。 若两个样品中有一个在某组中出现过,则另一个就 加入该组。 若两个样品都在同一组中,则这对样品不再分组。 若两个样品都在不同组中出现过,则把这两组连接 在一起。
10.5 系统聚类案例
下一阶 4 8 6 5 9 7 10 9 10 0
案 1:Cavalier 2:Malibu 3:Impala 4:Mustang 5:Taurus 6:Focus 7:Civic 8:Accord 9:Grand Am 10:Corolla 11: Camry
例
3 群集 1 2 2 2 3 1 1 3 2 1 3
聚类分析不必事先知道分类对象的结构,从一 批样品的多个观测指标中,找出能度量样品之 间或指标(变量)之间相似程度或亲疏关系的 统计量,构成一个对称相似性矩阵,并按相似 程度的大小,把样品或变量逐一归类。 根据对样品聚类还是对变量聚类,聚类分析分 Q型聚类和R型聚类。对变量的聚类称为R型聚 类,而对样品(即观测值)聚类称为Q型聚类。 通俗讲,R型聚类是对数据中的列分类,Q型聚 类是对数据中的行分类。
打开本章的数据文件Cluster_cars.sav。 该数据是市场上一些品牌汽车的资料,它包括 汽车制造商、型号、新车价钱、4年以后的二 手车价钱,还有功率、引擎大小、车重、车体 长、车体宽、车轮大小、油耗等诸多属性。 按照这些数据对当前市场上的车进行聚类,看 看哪些品牌的车定位有类似之处,制造商可以 据此制定相应的策略。
10.7 两步法聚类
两步法聚类又称两阶段聚类,它与系统聚类相 似,是揭示数据所蕴含的自然组别的一种探索 性分析方法。
两步法聚类的特点
(1)聚类变量可以是连续变量,也可以是分 类变量。两步法聚类充分考虑到这两种变量的 不同性质,采用对数似然距离来衡量相似性。 (2)它能自动确定出类的个数。 (3)能够有效地分析大数据集。
10.4 系统聚类算法过程
系统聚类的步骤
第1步:数据标准化。把原始数据标准化得到 标准化数据矩阵。 第2步:计算相似系数矩阵。这里以余弦距离 为例。计算Q型聚类任意两个样品xj和xk的相似 系数矩阵。
第3步:选出有最大相似系数的样品组 。 第4步:把该组样品加权平均,这样就形成了 一个新的组合样品 。 第5步:用新的样品类代替原来的一对样品点。 第6步:对新形成的样品与其余样品数据重新 计算相似系数矩阵。 第7步:如此重复第2步到第5步的过程,直到 把所有样品都归类完毕。
10.2.2 分类数据之间的距离
卡方度量 Phi方度量
10.3 类之间的距离
SPSS提供了7种计算两个类距离的方法。
组间连接法(Between-groups Linkage) 组内连接法(Within-Groups Linkage) 最近邻元素法(Nearest Neighbor) 最长距离法(Furthest Neighbor) 质心聚类法(Centroid Clustering) 中位数聚类法(Median Clustering) 离差平方和法(Ward’s Method)
SPSS数据分析教程
—《SPSS数据分析教程》
第10章 聚类分析
目录
10.1 聚类分析简介 10.2 个案间的距离
10.2.1 定距数据(Scale Mearsurement) 距离定义方式 10.2.2 分类数据的频数 数据(Count) 10.2.3 二分类数据
理解聚类分析的基本概念; 了解个案之间距离的定义方式; 了解类之间距离的定义方式; 掌握系统聚类方法; 掌握两步法聚类方法; 掌握K均值聚类方法。
10.1 聚类分析简介
根据对象的某些属性把它们分到一些组中,使 得同组内的对象尽可能地相似,不同组中的对 象尽可能地不一样,即所谓的聚类分析。 聚类分析方法被称为“无监督的分析方法”, 意即没有因变量。而另外一种分类的方法是判 别分析,它是把样本归入到已知的事先已经确 定下来的类中去, 它有因变量(即事先确定的 类别),是“有监督的分析方法”。
选择【分析】→【分类】→【系统聚类】 把从“Price in thousand”到“Fuel efficiency”的所有变量选入右边的“变量 框”。 把“Model”变量选入“标注个案”框。 依次单击【统计量】、【绘制】、【方法】和 【保存】按钮
阶 1 2 3 4 5 6 7 8 9 10
K-均值法案例
打开本章的数据文件Cluster_cars.sav。 该数据是市场上一些品牌汽车的资料,它包括 汽车制造商、型号、新车价钱、4年以后的二 手车价钱,还有功率、引擎大小、车重、车体 长、车体宽、车轮大小、油耗等诸多属性。 按照这类似之处,制造商可以 据此制定相应的策略。
两步法案例分析
数据文件Twosteps_car.sav 选择【分析】→【分类】→【两步聚类】
两步法聚类选项设置(1)
两步法聚类选项设置(2)
评估字段:评估字段不用于聚类过程,但是可 以用它们来描述两步法生成的类的特征。
两步法聚类的模型摘要
两步法模型视图
两步法模型视图
两步法模型视图
2 群集 1 2 2 2 1 1 1 1 2 1 1
10.6 K-均值聚类
K-均值聚类的算法过程
第1步:用户给定聚类个数K。 第2步:给出初始类中心。 第3步:计算所有个体到这K个类中心的距离, 然后按照到K个类中心距离最短原则,把所有 个体分别划分到距最近的中心点所在的类中, 这样形成了K个类,完成一次迭代过程。 第4步:重新计算K个类的类中心。 第5步:重复进行第3步、第4步。直到迭代次 数达到限制的次数或者类中心不再变化为止。