当前位置:文档之家› 聚类分析

聚类分析


聚类分析过程选项,主对话框选择项中共有四个按钮: 1.选择要输出的统计量。在“Display”栏中,单击【 Statistics】按钮,展开统计量选择对话框。
选择聚类方法,单击主对话中的【Method】按钮,打开 “Method”对话框
选择要求输出的统计图。在主对话框中的“Display”栏中选中 “Plots”复选项,单击【Plots】按钮,展开统计图表选择对话框
对指标(变量)分类(R型)
设Cij表示变量Xi与Xj间的相似系数,一般 相似系数应满足如下三个条件: 1.|Cij|≤1 2.Cij=〒1 3.Cij=Cji 对一切i,j; 当且仅当Xi=aXj
(a≠0是一个常数);
对一切i,j。
相似系数的定义
夹角余弦(Cosine)
相似矩阵
变量间相似矩阵
计算n个样品两两之间的距离,构成距离矩阵 合并距离最近的两类为一新类 计算新类与当前各类的距离。再合并、计算 ,直至只有一类为止
画聚类图,解释
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.重心法(centroid method) 4.平均连接(average-groups linkage) 5.离差平方和法(Ward's method) 6.中间距离法(median method)
30.55 29.38 24.69 29.24 25.47 32.32 26.31 28.46 31.59 26.43 23.74 19.97 16.87 18.84 25.18 26.55 23.16 22.57 23.04 19.14 22.53 21.65 14.65 13.85 3.85 24.36 16.85 17.76 20.27
例1
设抽取五个样品,每个样品只侧一个指标,他
们是1,2,3.5,7,9,试用最短距离法对五个
样品进行分类。
D(0)
D(0) G1={X1}G2={X2}G3={X3}G4={X4}G5={X5} 0 1.5 5 0 3.5 0 G1={X1} 0 G2={X2} 1 G3={X3} 2.5 G4={X4} 6
G5={X5}
8
7
5.5
2
0
表2
D(1) G6={X1, X2} G3={X3} G4={X4} G5={X5} G6 0
D(ห้องสมุดไป่ตู้)
G3 G4 G5
2.5 6 8
0 3.5 5.5 0 2 0
D(2)
表3
D(2) G6={X1, X2} G7={X4,X5} G3={X3} G6 0 8 2.5 0 5.5 0 G7 G3
5.5
2
0
D(3)
D(3) G7={X1, X2,X3} G8={X4,X5} G7 0 3.5 0 G8
聚类谱系图
案例1:为了更深入了解我国人口的文化程 度状况,现利用1990年全国人口普查数据见表 3-1所示,对全国30个省、直辖市、自治区进 行聚类分析。分析选用了三个指标:(1)大 学以上文化程度的人口占全部人口比例(DXBZ); (2)初中文化程度的人口占全部人口的比例 (CZBZ) ;(3)文盲半文盲人口占全部人口的 比例(WMBZ)。分别用来反应较高、中等、较低 文化程度人口的状况。
应聘者得分如下
应聘者 X Y Z 1 2 3 4 5 6 7 8 9 10
28 18 11 21 26 20 16 14 24 22 29 23 22 23 29 23 22 23 29 27 28 18 16 22 26 22 22 24 24 24
例如,对上市公司的经营业绩进行分类; 例如,根据经济信息和市场行情,客观地对
2 3 4 5 6 7 8 9 样品 1 身高 160 159 160 157 169 162 165 154 160 X1 体重 49 46 53 41 49 50 48 43 45 X2
二、相似系数
研究样品间的关系常用距离,研究指标( 变量)间的关系常用相似系数。 相似系数常用的有:夹角余弦与相关系数
0
4 0
D2(2)
G7
G7
0
G4
G5
G4
G5
20.25
42.25
0
4 0
D2(3)
G7={X1, X2,X3} G8={X4,X5 }
G7
0 30.25
G8
0
3.重心法
(Centroid clustering): 类类间:两类重心之间的距离即均 值点间的距离


注意:初始距离用欧式距离则有下列
递推公式
D2(0)
G1
G2
G3
G4
G5
G1={X1}
G4
G5
G2={X2}
G3={X3} G4={X4} G5={X5}
1
6.25 36 64
0
2.25 25 49 0 12.25 30.25 0 4 0
D2(1) G6={X1, X2} G3={X3}
G6 0 4
G3
G4
G5
0
G4={X4}
G5={X5}
30.25
56.25
12.25
30.25
设:dij表示样品X(i)与X(j)之间的距离, G1、G2、…表示类,
Dij表示类Gi与类Gj之间的距离。
1.最短距离法也称最近邻法 (single linkage,nearest neighbor)
x11• x12 •
d13
x21• x22•
类类间:两类间两两
样品距离最短

递推公式
最短距离法聚类的步骤
4 Clusters 1 1 2 2 2 2 2 2 1 2 2 3 2 2 2 2 2 2 2 2 2 2 3 3
25:Case 25
26:Case 26 27:Case 27 28:Case 28
4
2 3 3
29:Case 29
3
本例聚为四类:
第一类:北京、天津、上海,文化程度较高
的地区。 第三类:贵州、云南、甘肃、青海、安徽、 宁夏,文化程度较落后的地区。 第四类:西藏,文化程度最落后地区。 第二类:其他省、市、自治区,文化程度中 等水平的地区。
聚类的种类
根据分类的对象可将聚类分析分为: (1)Q型(即样品的聚类clustering
for individuals)
(2)R型(即变量或指标的聚类 clustering for variables)
第一节 相似程度的测定
对样品分类(Q型)
常用的距离的定义
样本资料矩阵
样本资料矩阵
一、距离
2.欧氏距离(Euclidean distance)
3.明科夫斯基距离(Minkowski metrics)
4.切贝谢夫距离(Chebyshev)
5.马氏距离(mahalanobis)
距离矩阵
样品间距离矩阵
绝对值距离实例
欧氏Euclidian距离实例
马氏距离实例
例 题
学生的身高与体重资料
第三步:单击主菜单中“Analyze”展开下拉菜单,在下拉菜单中寻 找“Classify”,弹出小菜单,在小菜单中寻找“Hierarchical Cluster”(分层聚类、系统聚类)或“K—Means Cluster”(快速 聚类)。本例选“Hierarchical Cluster”,展开聚类分析对话 框,。
假使每个样品有p个变量,则每个样品 都可以看成p维空间中的一个点,n个
样品就是p维空间中的n个点,则第i样
品与第j样品之间的距离记为dij
定义距离的准则
定义第i个和第j个样品间的距离要求满足如 下四个条件(距离可以自己定义,只要满足 距离的条件):
1.布洛克距离(Block metric)
也称绝对值距离
不同商品、不同用户及时地进行分类。
例如,当我们对企业的经济效益进行评价时,
建立了一个由多个指标组成的指标体系,由
于信息的重叠,一些指标之间存在很强的相
关性,所以需要将相似的指标聚为一类,从
而达到简化指标体系的目的。
聚类分析内容
系统聚类 动态聚类 模糊聚类 图论聚类
描述亲疏程度有两个途径: 1、把每个样品看成p维(变量的个数为 p个)空间的一个点,在p维坐标中, 定义点与点之间的距离。 2、用某种相似系数来描述样品之间的亲 疏程度。
D(3)
表4
D(3) G7={X4,X5 } G8={X1, X2,X3} G7 0 8 0 G8
6.中间距离法Median method
如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新 Gr的距离公式为:

时,由初等几何知就是上面三角形的中线。
D2(0)
G1={X1}
G1
0
G2
G3
1、定义样品之间的距离,计算初始距离矩阵D(0)
2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的
两类Gp和Gq合并成一个新类,记为Gr ,即Gr=(Gp, Gq) 3、计算新类与其它类之间的距离,得距离矩阵D(1) 。 4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去 直到所有样品合并成一类为止。
皮尔逊相关系数(Pearson correlation)
变量Xi与Xj
相似矩阵
三、数据的标准化
i=1,2,┈,n;j=1,2,┈,p
第二节 聚类方法
clustering method
一、系统聚类法 (Hierarchical Cluster Methods)
系统聚类法按下列步骤进行:
将n个样品各作为一类
WMBZ
相关主题