当前位置:文档之家› spss聚类分析

spss聚类分析


参加科研人数(人) 投入经费(元)
410
4380000
336
1730000
490
220000
立项课题数() 19 21 8
欧氏距离

万元
(1,2)
265000
81.6
(1,3)
218000
193.7
(2,3)
47000
254.8
从距离的定义来看,所有变量都会在距离 中做出贡献,若变量间存在较高的线形相 关性,能够相互替代,那么计算距离就会 重复替代,将在距离计算中有较高的权重 ,从而使最终的聚类结果更倾向此变量
二、变量相似性的度量
R型聚类分析中,常用相似系数表示变量间的相似性。 1、夹角余弦
cosij
n
x ki x kj
k 1
n
n
[(
x
2
ki
)(
x
2
kj
)]1 / 2
k 1
k 1
x ki 变量i的第k个取值
xkj 变量j的第k个取值
显然,∣cos ij∣ 1。
二氧化碳影响因素聚类
2.相关系数
时统一的标准都是距离最近.
引申出一个问题,到底选择哪一种类间距离 公式更好呢?
最短距离法是用得比较多的
第四节 K均值聚类 一、核心思想
这种算法的基本思想是将每一个样品分配给最近中 心(均值)的类中,具体的算法至少包括以下三个 步骤:
1.指定聚类数; 2.确定初始类的中心. 用户指定或系统指定. 3.根据距离最近原则进行分类.
计算每个样本到各类中心点的距离,并按距离最近 原则对所有样品进行分类.
4.重新确定各类中心 。 利用分配过来的样本重新计算类均值. 5.判断是否满足终止聚类的条件. 跌代次数:SPSS默认为10 类中心点偏移程度:新确定的类中心点距离上个类中
心点的最大偏移量小于指定量.
系统聚类与K均值聚类的区别与联系 K均值法和系统聚类法一样,都是以距离的远 近亲疏为标准进行聚类的. 系统聚类可以选择分类数, 而K—均值法只能 产生指定类数的聚类结果。所以有时也借助 系统聚类法以一部分样品为对象进行聚类, 其结果作为K—均值法确定类数的参考。
Dw2 Dpq Dp Dq
Dp为p类的离差平方和 Dq为q类的离差平方和 Dpq为p和q组成总类的离差平方和
5.组间平均链接
该个体与小类中每个个体距离的平均
6.组内平均链接
该个体与小类中每个给体距离,以及小类内部每 个个体距离的平均
case
欧氏距离
1
2
3
4
5
1
0
8.062 17.804 26.907 30.414
聚类
(A、B) (C、D)
中心坐标
X1
X2
2
2
-1
-2
中心坐标是通过原始数据计算得来的,比如(A、B)类的
X1
5
(1) 2
2
第二步:计算某个样品到各类中心的欧氏平方距离,然后将 该样品分配给最近的一类。对于样品有变动的类,重新计算 它们的中心坐标,为下一步聚类做准备。先计算A到两个类 的平方距离:
d 2 ( A, ( AB)) (5 2)2 (3 2)2 10 d 2 ( A, (CD)) (5 1)2 (3 2)2 61
由于A到(A、B)的距离小于到(C、D)的距离,因此A不用 重新分配。计算B到两类的平方距离:
d 2 (B, ( AB)) (1 2)2 (1 2)2 10 d 2 (B, (CD)) (1 1)2 (1 2)2 9
2
8.062 0
25.456 34.655 38.21
3
17.804 25.456 0
9.22 12.806
4
26.907 34.655 414 38.21 12.806 3.606 0
三、分类数的确定
可以根据碎石图确定: X轴表示分几类 Y轴表示聚合系数
四、聚类分析步骤
系统聚类 模糊聚类 K均值聚类 有序样品聚类
第三节 系统聚类
一 系统聚类的基本思想 二 类间距离与系统聚类法 三 类间距离的统一性
一、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量) 先聚成类,距离相远的后聚成类,过程一直进行下 去,每个样品(或变量)总能聚到合适的类中。
1
DG ( p, q) npnq iGp jGj dij
.1
. 2
.
.4
3
D d13 d14 d 23 d 24
2*2
4. 重心法 重心法定义类间距离为两类重心(各类样品的均值)的距 离。
Dc ( p, q) dxpxq
注意:每次得到一个新的合并类后要重新计算重心
5. 离差平方和法 又称为Ward法。如果分类正确,同类样品的离差平方和应当 较小,类与类的离差平方和较大。 具体做法是先将n个样品各自成一类,然后每次缩小一类,每 缩小一类,离差平方和就要增大,选择使方差增加最小的两 类合并,直到所有的样品归为一类为止。
G1
G2
G3
G4
G1
0
G2
12.25
0
G3
30.25
4
0
G4
64
20.25
6.25
0
(3)在D2(1)中最小值是D234=4,那么G3与G4合并一个新类 G9,其与与其它类的距离D2(2)
G7
G9
G8
G7
0
G9
20.25
0
G8
64
12.5
0
(4)在中最小值是=12.5,那么与合并一个新类,其与与 其它类的距离
【例5.3】假定我们对A、B、C、D四个样品分别测量两个 变量,得到结果。
样品
A B C D
变量
X1
X2
5
3
-1
1
1
-2
-3
-2
试将以上的样品聚成两类。
第一步:按要求取K=2,为了实施均值法聚类,我们将这些 样品随意分成两类,比如(A、B)和(C、D),然后计算这 两个聚类的中心坐标,见表5.10所示。
G7
G10
G7
0
G10
39.0625
0
(5)最后将G7和G10合并成G11,这时所有的六个样品聚为一类, 其过程终止。
上述重心法聚类的可视化过程见图5.3所示,横坐标的刻度表 示并类的距离。
系统聚类总结:
要选择初始样品(指标)的相似形测度公式 聚成新类后要选择类与类间的距离公式 在选择哪些样品(指标)或是哪些类聚合为一类
2.马氏距离 两个样品间的马氏距离为
di2j (M ) (Xi X j )Σ1(Xi X j ) 马氏距离又称为广义欧氏距离。 优点: (1)考虑了观测变量之间的相关性。
如果各变量之间相互独立,即观测变量的协方差矩阵 是对角矩阵。 (2) 不再受各指标量纲的影响。
4.距离选择的原则
(1)要考虑所选择的距离公式在实际应用中有明 确的意义。如欧氏距离就有非常明确的空间距离 概念。马氏距离有消除量纲影响的作用。
入状况的指标有:标准工资收入\职工奖金….. 样品是什么?
你所研究的11户居民. 进一步解读指标:
间隔尺度
有序尺度
名义尺度
思考:能不能对指标进行聚类?
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
Q型聚类分析,常用距离来测度样品之间的相似程度。 选择p个变量对n个样品聚类:可以把n个样品看成p
【例5.2】针对例5.1的数据,试用重心法将它们聚类。 (1)假设样品采用欧氏距离,样品间的平方距离阵D2(0)
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
16
9
0
G4
36
25
4
0
G5
64
49
16
4
0
G6
81
64
25
9
1
0
(成2G)7,DG2(5和0)G中6合最并小成的G元8,素新是类D2与12=其D它25类6=的1距,离于得是到将距G1和离G阵2合D2并(1)
系统聚类过程是:假设总共有n个样品(或变量)
第一步:将每个样品(或变量)独自聚成一类,共有 n类;
第二步:根据所确定的样品(或变量)“距离”公式, 把距离较近的两个样品(或变量)聚合为一类,其 它的样品(或变量)仍各自聚为一类,共聚成n 1 类;
第三步:将“距离”最近的两个类进一步聚成一类, 共聚成n 2类;……,以上步骤一直进行下去,最后 将所有的样品(或变量)全聚成一类。
聚类分析
第一节 聚类分析核心思想 第二节 相似性的量度 第三节 系统聚类分析法 第四节 K均值聚类分析 第五节 实例分析与计算机实现
第一节 核心思想
“物以类聚,人以群分”。 “近朱者赤,近墨者黑” 在生物学中,为了研究生物的演变,生物学家需要根据各种
生物不同的特征对生物进行分类。 在经济学中,根据经济发展的不同阶段对世界各个国家进行
最小元素的类同时合并。
【例5.1】设有六个样品,每个只测量一个指标,分别是1,2, 5,7,9,10,试用最短距离法将它们分类。
(1)选择样品距离公式,绝对距离最简单,形成D(0)
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
相关主题