当前位置：文档之家› SPSS聚类分析详解复习过程

SPSS聚类分析详解复习过程

数据标准化处理：
存储中间过程数据
数据标准化处理，并存储。
指定5类
收敛标准值
存储最终结果输出情况，在数据文件中（QCL-1、QCL-2）
初始聚心选项，输出方差分析表
初始聚类中心表
最终聚类中心表具体城市看后表
聚类结果：QCL-1说明聚类结果，QCL-2说明聚类的长度情况
系统聚类法
聚类分析
聚类分析是研究（样品或指标）分类问题的一种多元统计方法。类是指相似元素的集合。分类： 1、系统聚类法------（分层聚类）系统聚类法是应用最广泛的一种
（Hierarchical Cluster过程） 1）、聚类原则：都是相近的聚为一类，即距离最近或最相似的聚为一类。 2）、分层聚类的方法可以用于样本聚类（Q）型，也可以用于变量聚类
km 1
xikxjk
22
按就近原则将每个观测量选入一个类中，然后计算各个类的中心位置，即均值，作为新的聚心。
3、使用计算出来的新聚心重新进行分类，分类完毕后继续计算各类的中心位置，作为新的聚心，如此反复操作，直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时，或者到达迭代次数的上限时，停止迭代。
按上述四条原则反复进行，直到把所有样品都分类完毕，最后以分类图形式表示
2、分类方法例：设有7个样品，每个样品测得P个指标，数据如表
样品指标
X1 X2 XP
X1 X2 X3 X4 X5 X6 X7
要求对此7个样品进行聚类，采用的聚类统计量是相似系数（夹角余弦）
Cosij
XiXj Xi Xj
指标地区（样品） 1
2
3
456
性能
9 1 10
928
颜色
827
946
式样
728
357
用分类法对6个样品进行分类，以估计哪些地区最有可能经销这类新产品？
按公式计算两两样品间的相似系数，得相似矩阵
Q (Coij) s(qij)
1
2
3
4
5
6
1 1
2 0.933 1
Q=
3
0.994
0.914
1
（R型）。 2、非系统聚类法-----（快速聚类法----K-均值聚类法）（K-means Cluster) 3、两步聚类法-----一种探索性的聚类方法（TwoStep Cluster）
K-均值聚类分析
K-means Cluster
又称为快速样本聚类法，是非系统聚类中最常用的聚类法。优点：
是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。缺点：
4 0.955 0.841 0.927 1
5 6
0.910 0.994
0.994 0.928
0.899 1
0.787 0.921
1 0.916
1
按四条原则进行分类
作聚类分析图
X3
1
X6
0.994
X1
0.955
X4
X2
0.994
X5
0.933
一、问题提出聚类分析——对一批样品或指标进行分类的一种统
2）形成一个由小到大的分析系统。 3）把整个分类系统画成一张分类图
二、聚类统计量
首先定义一些分类统计指标 —— 刻画样或指标之间的相似程度（这些统计指标称为聚类统计量）
在市场研究中，样品 —— 用作分类的事物
指标 —— 用来作为分类依据的变量。（如：年龄、收入、销售量）
（一）相似系数（夹角余弦）
相似密切
Xi和Xj相重合时，夹角 ij 0 相似程度为 CoisjCo00s1
Xi和Xj相互垂直时， ij
2
相似程度为
Cosij
Cos0
2
解析几何知识：相似系数
Cosij
XiXj Xi Xj
p
XikXjk
k1
p
p
Xi2k
X2jk
k1
k1
其中：
X i1
X
i
X i2
X ip
X j1
Hierarchical Cluster
系统聚类法优点：既可以对观测量（样品）也可对变量进行
聚类，既可以连续变量也可以是分类变量，提供的距离计算方法和结果显示方法也很丰富。
应用实例
某电冰箱厂开发某一新产品，在投放市场前希望对以往经销的国内6个地区征集对新产品的评价，若对新产品的评价指标有三项：式样、性能、颜色，评价的调整表采用10分制，调查结果的数据如下表
用相似系数作为聚类统计量时的分类方法
1、分类原则：
（1）若选出一对样品，在已分好的类中未出现，则形成一个独立新类。
（2）若选出两个样品中，有一个是在已分好的类中出现过，则把另一个样品也加入到该类中去。
（3）若选出一对样品，都分别出现已经分好的两类中，则把这两个类联结在一起。
（4）若选出的一对样品都出现在同一组中，则这对样品就不1Coisj1
如果把上述n个样品的任何两个样品的相似系数
Ci o ( ji,j s 1 ,2 , ,n )都计算出来并排列成一
个矩阵：
Cos11 Cos12
C Cooss2n11
Cos22
Cosn2
Cos1n Cos2n Cosnn
根据算出的
，就可对n个样品进行聚类
一般式：假定每个样品包含有P项指标，若有几个样品
的调查数据
每一个样品都可看成P 维空间中的一个向量
X 11
X
1
X 12
X 1 p
X 21
X
2
X 22
X 2 p
X n 1
X
n
X n2
X np
对于任意两个样品Xi和Xj的相似程度可用这两个向量之间
的夹角余弦 Cosij 来表示：
p
XikXjk
k1
p
p
Xi2k X2jk
k1
k1
首先计算所有的两个样品间的相似系数
应用范围有限，要求用户制定分类数目(要告知)，只能对观测量（样本）聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量。
基本原理
具体做法
1、按照指定的分类数目n，按某种方法选择某些观测量，设为
{Z1，Z2，…Zn}，作为初始聚心。
1
2、计算每个观测量到各个聚心的欧氏距离。即dijxi zj
计方法。
具体处理方法：（思路）
1、具体研究的分类对象：样品或指标 2、方法：把“性质相似”或“相互关系密切”的样品
或指标聚在一起。 3、步骤：1）首先给出度量“相似”或“关系密切”的
统计指标
指标：（1）统计指标是相似系数。根据相似性归为一类，否则为另一类。
（2）统计指标是样品（空间的点）之间的距离将距离近的点归成一类，否则为另一类。（3）相关系数（4）关联系数

e商务文档

SPSS聚类分析详解复习过程

相关文档推荐：