聚类分析ppt课件
第2章
2.1 聚类分析概述 2.2 相似性度量 2.3 系统聚类 2.4 K-Means聚类
聚类分析是多元分析的主要方法之一,主要用来 对大量的样品或变量进行分类。
同一类别内的个体具有尽可能高的同质性。 类别之间应具有尽可能高的异质性。
聚类的实质
根据样品(变量)间的亲疏关系将样品(变量)分为 类,相近的归为一类,差别较大的归为另一类。所获 得的分类应有一定的意义。
区域发展水平:根据经济及社会发展水平把全国各地 市(县)分类 产品市场细分:按照消费者的需求特征分成不同的细 分市场 客户分类:银行根据贷款者的收入水平、抵押状况、 信用记录对信息,对贷款者的资信分类并给予相应的 贷款额度
根据分类的方法:
系统/层次聚类(hierarchical clustering )
7
8
8
3
6
8
6
9
7
4
3
2
3
4
4
5
2
3
2
3
2
相关测度更大程度上反映了案例在聚类变量上变化模式的 相似性,变量值大小的差异对其影响不大,也被称为形状 测度。
相关测度的缺点在于忽视了变量值大小的差异,高度相关
的两个样本提供的信息可能相差甚远。
聚类分析的大部分应用中更重视变量值大小的差异,而不
是值的变化模式,以此相关测度在聚类分析中的应用并不
马氏距离既排除了各指标间相关性的干扰,并不受各指 标量纲的影响。
和相关测度不同,距离测度更侧重于变量值 的大小,
不考虑案例在聚类上的变化模式,认为靠得近的案例
为相似案例
距离测度:欧式距离
案例
1
2
3
2
8.72
3
7.21
2.83
4
3.74
9.90
9.38
5
4.24
2.75
10.86
按照距离
越近,相
聚类分析的一般规则
亲疏关系的判别:相似性与距离(不相似性) 将相似性较大的点或距离较小的点归为同一类 将相似性较小的点或距离较大的点归为不同类
根据分类的对象
样品/记录聚类(clustering for cases/individuals) 指标/变量聚类(clustering for variables)
p
[ (xik x jk )2 ]1 2 k 1
x2
x12
①
两样品p个指标值之
d21 (x21 x11)2 (x22 x12 )2 差平方和的平方根
x22- x12
x22
x21- x2
②
x2
x21
欧式距离是最广泛使 用的距离指标。
x1
两样品p个指标值绝对差的最大值
dij ()
k
连续变量和分类变量在聚类时常用的测量方式不同。
连续变量一般采用欧氏平方距离 分类变量一般用卡方作为距离指标 多数传统聚类方法只能使用其中单一各类的变量进行
分析 数据中如果同时有这两类变量,可考虑只采用连续变
量进行分析;或者将分类变量转换成虚拟变量的形式, 按照连续变量进行分析
xik
x jk
,称为切比雪夫(Chebychey)距离
各指标同等对待(权数相同),不能反映各指标 变异程度上的差异
距离的大小与各指标的观测单位有关,有时会出 现不合理结果
没有考虑指标之间的相关性
当各指标的测量值相差悬殊时,可以先对数据标 准化,然后用标准化后的数据计算距离。
di2j (Xi X j )' 1(Xi X j ) 其中为p维随机向量的协方差矩阵
max
1k p
xik
x jk
两样品p个指标值绝对差 的q次幂总和的q次方根
p
dij [
1
xik x jk q ]q
k 1
p
当q 1,dij (1) xik x jk ,为绝对距离; k 1
当q 2,即为欧氏距离;
当q
,dij ()
max
1k p
聚类分析过程基本上与分布理论和显著性检验无 关,一般不从样本推断总体。
聚类分析可通过将众多个体聚集成几个类别而简 化数据,可作为其他多元统计的预备过程。
聚类分析主要用于探索性的研究,最终的解需要 研究者的主观判断和后续分析。
聚类分析的解完全依赖于所选择的聚类变量,增 删变量对于聚类解会产生实质性影响。
在m维空间中定义点与点的距离,距离越近的点, 相似程度越高,越可能归为一类。
dij满足下列条件
dij≥0 dii =0 dij = dji dij ≤ dik + dkj
两样品p个指标值绝对差的总和
p
dij (1) xik x jk k 1
dij (xi1 x j1)2 (xi2 x j2 )2 (xip x jp )2
开始将样品/指标各视为一类,根据类与类之间的距离/相 似程度,将最相似的类加以合并,再计算新类与其他类之 间的相似程度,并选择最相似的类加以合并,每合并一次 就减少一类,不断重复,直到所有样本/指标都合并为一类。
快速/K-均值/动态聚类(k-means clustering)
开始按照一定方法选取一批聚类的中心,让样品向最近 的聚心凝聚,然后按最近距离原则不断修改不合理分类, 直到合理为止。
4
似度越高
的原则,2
和3归为一
类,1、4、
5归为一类。
2.83
关联测度用于度量聚类变量为分类变量的相似性。
简单匹配系数
对于二分类变量,关联测度是要估计研究对象在回答这些问 题时的一致程度。
简单匹配系数是两个案例在所有聚类变量上答案相同的情况 出现的频率。
在聚类分析技术的发展过程中,形成了很多种测度相 似性的方法,主要分为三类:
相关测度 距离测度 关联测度
应用最广泛的相关测度是皮尔逊相关系数(Pearson
correlation),聚类分析中用它来测量案例之间的
相似程度。
原始数据
案例
变量
x1
x2
x3
X4
x5
1
2
5
3
6
4
2
8
7
普遍。
相关测度:相关系数
案例
1
2
3
4
2
0.00
3
0.97
0.14
4
0.19
0.76
017
0.91
-0.22
样品间的亲疏关系通常用距离描述
Block距离 欧式距离 明氏距离 切比雪夫距离 马氏距离 兰氏距离
距离的定义:
距离测度的出发点是把每个案例看成是m维空间中 (m 为变量个数)的一个点。