当前位置:文档之家› SPSS聚类分析详解复习过程

SPSS聚类分析详解复习过程


数据标准化处理:
存储中间过程数据
数据标准 化处理, 并存储。
指定5类
收敛标准值
存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)
初始聚心选项,输出方差分析表
初始聚类中心表
最终聚类中心表 具体城市看后表
聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况
系统聚类法
聚类分析
聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元 素的集合。 分类: 1、系统聚类法------(分层聚类)系统聚类法是应用最广泛的一种
(Hierarchical Cluster过程) 1)、 聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。 2)、 分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类
km 1
xikxjk
22
按就近原则将每个观测量选入一个类中,然后计算各个类的中 心位置,即均值,作为新的聚心。
3、使用计算出来的新聚心重新进行分类,分类完毕后继续计 算各类的中心位置,作为新的聚心,如此反复操作,直到两次 迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小 距离的倍数时,或者到达迭代次数的上限时,停止迭代。
按上述四条原则反复进行,直到把所有样品都分类完毕, 最后以分类图形式表示
2、分类方法 例:设有7个样品,每个样品测得P个指标,数据如表
样品 指标
X1 X2 XP
X1 X2 X3 X4 X5 X6 X7
要求对此7个样品进行聚类,采用的聚类统计量是 相似系数(夹角余弦)
Cosij
XiXj Xi Xj
指标 地区(样品) 1
2
3
456
性能
9 1 10
928
颜色
827
946
式样
728
357
用分类法对6个样品进行分类,以估计哪些地区最有可能经销 这类新产品?
按公式计算两两样品间的相似系数,得相似矩阵
Q (Coij) s(qij)
1
2
3
4
5
6
1 1
2 0.933 1
Q=
3
0.994
0.914
1
(R型)。 2、非系统聚类法-----(快速聚类法----K-均值聚类法)(K-means Cluster) 3、两步聚类法-----一种探索性的聚类方法(TwoStep Cluster)
K-均值聚类分析
K-means Cluster
又称为快速样本聚类法,是非系统聚类中最常用的聚类法。 优点:
是占内存少、计算量小、处理速度快,特别适合大样本的 聚类分析。 缺点:
4 0.955 0.841 0.927 1
5 6
0.910 0.994
0.994 0.928
0.899 1
0.787 0.921
1 0.916
1
按四条原则进行分类
作聚类分析图
X3
1
X6
0.994
X1
0.955
X4
X2
0.994
X5
0.933
一、问题提出 聚类分析——对一批样品或指标进行分类的一种统
2)形成一个由小到大的分析系统。 3)把整个分类系统画成一张分类图
二、聚类统计量
首先定义一些分类统计指标 —— 刻画样或指标之间 的相似程度(这些统计指标称为聚类统计量)
在市场研究中,样品 —— 用作分类的事物
指标 —— 用来作为分类依据的变量。(如: 年龄、收入、销售量)
(一)相似系数(夹角余弦)
相似密切
Xi和Xj相重合时,夹角 ij 0 相似程度为 CoisjCo00s1
Xi和Xj相互垂直时, ij
2
相似程度为
Cosij
Cos0
2
解析几何知识:相似系数
Cosij
XiXj Xi Xj
p
XikXjk
k1
p
p
Xi2k
X2jk
k1
k1
其中:
X i1
X
i
X i2
X ip
X j1
Hierarchical Cluster
系统聚类法优点: 既可以对观测量(样品)也可对变量进行
聚类,既可以连续变量也可以是分类变量,提 供的距离计算方法和结果显示方法也很丰富。
应用实例
某电冰箱厂开发某一新产品,在投放市场前希望对以往经销 的国内6个地区征集对新产品的评价,若对新产品的评价指 标有三项:式样、性能、颜色,评价的调整表采用10分制, 调查结果的数据如下表
用相似系数作为聚类统计量时的分类方法
1、分类原则:
(1)若选出一对样品,在已分好的类中未出现,则形 成一个独立新类。
(2)若选出两个样品中,有一个是在已分好的类中出 现过,则把另一个样品也加入到该类中去。
(3)若选出一对样品,都分别出现已经分好的两类中, 则把这两个类联结在一起。
(4)若选出的一对样品都出现在同一组中,则这对样 品就不1Coisj1
如果把上述n个样品的任何两个样品的相似系数
Ci o ( ji,j s 1 ,2 , ,n )都计算出来并排列成一
个矩阵:
Cos11 Cos12
C Cooss2n11
Cos22
Cosn2
Cos1n Cos2n Cosnn
根据算出的
,就可对n个样品进行聚类
一般式:假定每个样品包含有P项指标,若有几个样品
的调查数据
每一个样品都可看成P 维空间中的一个向量
X 11
X
1
X 12
X 1 p
X 21
X
2
X 22
X 2 p
X n 1
X
n
X n2
X np
对于任意两个样品Xi和Xj的相似程度可用这两个向量之间
的夹角余弦 Cosij 来表示:
p
XikXjk
k1
p
p
Xi2k X2jk
k1
k1
首先计算所有的两个样品间的相似系数
应用范围有限,要求用户制定分类数目(要告知),只能对 观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变 量必须都是连续性变量。
基本原理
具体做法
1、按照指定的分类数目n,按某种方法选择某些观测量,设为
{Z1,Z2,…Zn},作为初始聚心。
1
2、计算每个观测量到各个聚心的欧氏距离。即dijxi zj
计方法。
具体处理方法:(思路)
1、具体研究的分类对象:样品或指标 2、方法:把“性质相似”或“相互关系密切”的样品
或指标聚在一起。 3、步骤:1)首先给出度量“相似”或“关系密切”的
统计指标
指标:(1)统计指标是相似系数。 根据相似性归为一类,否则为另一类。
(2)统计指标是样品(空间的点)之间的距离 将距离近的点归成一类,否则为另一类。 (3)相关系数 (4)关联系数
相关主题