当前位置:文档之家› 用SPSS进行聚类分析

用SPSS进行聚类分析


Stage Cluster First Appears
Cluster 1 Cluster 2
0
0
0
0
0
0
2
0
3
0
4
0
0
6
1
0
0
0
7
8
10
5
0
0
11
0
0
0
13
0
12
0
9
15
14
17
16
18
0
19
Next Stage 8 4 5 6
11 7
10 10 17 11 13 16 15 18 17 19 18 19 20
组间平均连锁法 (Between-groups Linkage)
组内平均连锁法 (Within-groups Linkage)
重心法 (Centroid clustering)
离差平方和法 (Ward’s Method)
聚类的步骤
➢ 分析研究对象,明确若干相关变量(指 标);
➢ 收集变量对应的样本数据; ➢ 对数据进行预处理,比如填补缺失值; ➢ 对变量进行标准化; ➢ 开展聚类分析,形成聚类谱系图; ➢ 对结果开展分析讨论。
层次聚类法
层次聚类法基本思想
➢ 层次累类的基本思想首先是,在聚类分析的开 始.每个样本自成一类;然后,按照某种方法度 量所有样本之间的亲疏程度,并把其中最亲密或 称最相似的样本首先聚成一小类;接下来.度量 剩余的样本和小类问的亲疏程度,并将当前最亲 密的样本或小类再聚成一类;再按下来,再度量 剩余的样本和小类[或小类和小类)间的亲疏程度, 并将当前最亲密的样本或小类再聚成一类;如此 反复,直到所有样本聚成一类为止。
例子:农业区的聚类
21个农业区
数据
标准化
在Descriptives….中可标准化
聚类
关于参数选择的一些解释
对Cases进行聚类,称为Q聚类 对变量矩形聚类,称为R聚类
输出一些统计指标以及绘图
聚类方式 距离衡量方法
关于Method按钮中距离计算的说明
结果判读-聚集表
Average Linkage (Between Groups)
XXXXXXXXXXXXXXX
XXX
12
X
X
XXXXX
XXXXX
XXXXXXXXX
XXX
13
X
X
XXXXX
XXXXX
XXXXXXXXX
X
X
14
X
X
XXXXX
X
XXX
XXXXXXXXX
X
X
15
X
X
XXXXX
X
XXX
XXXXXXX
X
X
X
16
X
X
XXXXX
X
XXX
X
XXXXX
X
X
X
17
X
X
X
XXX
X
XXX
Number of clusters
1
XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
2
XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
3
XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
4
XXXXXXXXXXXXXXXXXXXXXXXXXXXXX
5
XXXXXXXXXXXXXXXXXXXXXXXXX
0
第1次(Stage),将第9个农 业区和第10个农业区聚在一 起,距离是 .209。该小类将 在第8次聚类用到。
其余类推
所聚的两类分别由第7次和第8 次聚类所生成
结果判读-垂直冰柱图
Vertical Icicle Case
11 21 18 19 17 20 10 9 16 15 13 12 7 8
一个小例子
样本(小类)亲疏程度用距离来衡量,下面这个小例子用于展示不同的 距离的计算方法
距离的衡量(1)
➢ 假设两样本(x, y)用k个变量来描述。
距离的衡量(2)
距离的衡量(3)
另外,还有Pearson简单相关系数(即平时说的相关系数) 还有 夹角余弦 COSINE(x, y)等,参见薛薇的《统计分析与SPSS的应用》
XXX
6
XXXXXXXXXXXXXXXXXXXXXXXXX
XXX
7
X
XXXXXXXXXXXXXXXXXXXXXXX
XXX
8
X
XXXXXXXXXXXXXXXXXXXXXXX
XXX
9
X
X
XXXXXXXXXXXXXXXXXXXXX
XXX
10
X
X
XXXXXXXXXXXXXXXXXXXXX
XXX
11
X
X
XXXXX
5
7
21
3
14
7
11
2
4
6
7
3
6
2
3
1
2
Co effi ci e nts .209 .641 .872
1.298 1.560 1.692 1.850 2.112 2.192 2.976 3.371 4.279 5.840 6.171 8.034 10.898 10.919 15.507 32.486 51.468
用SPSS进行聚类分析
广州大学地理科学学院 蔡砥
参考文献: 薛薇 《统计分析与SPSS的应用》 徐建华 《计量地理学》
前言
➢ 聚类分析实质是一种建立分类的方法,它 能够将一批样本按照它们在性质(变量) 上的亲疏程度在没有先验知识的情况下自 动进行分类。这里,一个类就是一个具有 相似性的个体的集合,不同类之间具有非 相似性。聚类过程中,不必事先给出一个 分类标准,聚类分析能够从样本数据出发, 根据所采用的聚类方法产生分类标准,并 且绘制处聚类的谱系图。
X
XXXXX
X
X
X
18
X
X
Hale Waihona Puke XXXXX
XXX
X
X
XXX
X
X
X
19
X
X
X
X
X
X
XXX
X
X
XXX
X
X
X
20
X
X
X
X
X
X
XXX
X
X
X
X
X
X
X
从最后一行观察起,第9和第10个Case中间有一个×,表面两者聚成一类, 所以剩下20类,依次往上,每聚1次,类的数量减少1。
聚类谱系图
距离矩阵
小类与小类间亲疏程度的度量
➢ 最短距离法(Nearest Neighbor),参见徐 建华《计量地理学》
➢ 最长距离法(Furthest Neighbor),参见 徐建华《计量地理学》
➢ 组间平均连锁法(Between-groups Linkage)
➢ 组内平均连锁法(Within-groups Linkage) ➢ 重心法(Centroid clustering) ➢ 离差平方和法(Ward’s Method)
Agglomeration Schedule
Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Cluster Combined
Cluster 1 Cluster 2
9
10
12
13
17
19
12
15
17
18
12
16
7
12
9
20
6
8
7
9
7
17
2
相关主题