当前位置：文档之家› 聚类分析ppt课件

聚类分析ppt课件

第2章
2.1 聚类分析概述 2.2 相似性度量 2.3 系统聚类 2.4 K-Means聚类
聚类分析是多元分析的主要方法之一，主要用来对大量的样品或变量进行分类。
同一类别内的个体具有尽可能高的同质性。类别之间应具有尽可能高的异质性。
聚类的实质
根据样品（变量）间的亲疏关系将样品（变量）分为类，相近的归为一类，差别较大的归为另一类。所获得的分类应有一定的意义。
区域发展水平：根据经济及社会发展水平把全国各地市（县）分类产品市场细分：按照消费者的需求特征分成不同的细分市场客户分类：银行根据贷款者的收入水平、抵押状况、信用记录对信息，对贷款者的资信分类并给予相应的贷款额度
根据分类的方法：
系统/层次聚类(hierarchical clustering )
7
8
8
3
6
8
6
9
7
4
3
2
3
4
4
5
2
3
2
3
2
相关测度更大程度上反映了案例在聚类变量上变化模式的相似性，变量值大小的差异对其影响不大，也被称为形状测度。
相关测度的缺点在于忽视了变量值大小的差异，高度相关
的两个样本提供的信息可能相差甚远。
聚类分析的大部分应用中更重视变量值大小的差异，而不
是值的变化模式，以此相关测度在聚类分析中的应用并不
马氏距离既排除了各指标间相关性的干扰，并不受各指标量纲的影响。
和相关测度不同，距离测度更侧重于变量值的大小，
不考虑案例在聚类上的变化模式，认为靠得近的案例
为相似案例
距离测度：欧式距离
案例
1
2
3
2
8.72
3
7.21
2.83
4
3.74
9.90
9.38
5
4.24
2.75
10.86
按照距离
越近，相
聚类分析的一般规则
亲疏关系的判别：相似性与距离（不相似性）将相似性较大的点或距离较小的点归为同一类将相似性较小的点或距离较大的点归为不同类
根据分类的对象
样品/记录聚类(clustering for cases/individuals) 指标/变量聚类(clustering for variables)
p
[ (xik x jk )2 ]1 2 k 1
x2
x12
①
两样品p个指标值之
d21 (x21 x11)2 (x22 x12 )2 差平方和的平方根
x22- x12
x22
x21- x2
②
x2
x21
欧式距离是最广泛使用的距离指标。
x1
两样品p个指标值绝对差的最大值
dij ()
k
连续变量和分类变量在聚类时常用的测量方式不同。
连续变量一般采用欧氏平方距离分类变量一般用卡方作为距离指标多数传统聚类方法只能使用其中单一各类的变量进行
分析数据中如果同时有这两类变量，可考虑只采用连续变
量进行分析；或者将分类变量转换成虚拟变量的形式，按照连续变量进行分析
xik

x jk
，称为切比雪夫（Chebychey）距离
各指标同等对待（权数相同），不能反映各指标变异程度上的差异
距离的大小与各指标的观测单位有关，有时会出现不合理结果
没有考虑指标之间的相关性
当各指标的测量值相差悬殊时，可以先对数据标准化，然后用标准化后的数据计算距离。
di2j (Xi X j )' 1(Xi X j ) 其中为p维随机向量的协方差矩阵

max
1k p
xik

x jk
两样品p个指标值绝对差的q次幂总和的q次方根
p
dij [
1
xik x jk q ]q
k 1
p
当q 1，dij (1) xik x jk ，为绝对距离； k 1
当q 2，即为欧氏距离；
当q

，dij ()

max
1k p
聚类分析过程基本上与分布理论和显著性检验无关，一般不从样本推断总体。
聚类分析可通过将众多个体聚集成几个类别而简化数据，可作为其他多元统计的预备过程。
聚类分析主要用于探索性的研究，最终的解需要研究者的主观判断和后续分析。
聚类分析的解完全依赖于所选择的聚类变量，增删变量对于聚类解会产生实质性影响。
在m维空间中定义点与点的距离，距离越近的点，相似程度越高，越可能归为一类。
dij满足下列条件
dij≥0 dii =0 dij = dji dij ≤ dik + dkj
两样品p个指标值绝对差的总和
p
dij (1) xik x jk k 1
dij (xi1 x j1)2 (xi2 x j2 )2 (xip x jp )2
开始将样品/指标各视为一类,根据类与类之间的距离/相似程度,将最相似的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,每合并一次就减少一类,不断重复,直到所有样本/指标都合并为一类。
快速/K-均值/动态聚类(k-means clustering)
开始按照一定方法选取一批聚类的中心，让样品向最近的聚心凝聚，然后按最近距离原则不断修改不合理分类，直到合理为止。
4
似度越高
的原则，2
和3归为一
类，1、4、
5归为一类。
2.83
关联测度用于度量聚类变量为分类变量的相似性。
简单匹配系数
对于二分类变量，关联测度是要估计研究对象在回答这些问题时的一致程度。
简单匹配系数是两个案例在所有聚类变量上答案相同的情况出现的频率。
在聚类分析技术的发展过程中，形成了很多种测度相似性的方法，主要分为三类：
相关测度距离测度关联测度
应用最广泛的相关测度是皮尔逊相关系数（Pearson
correlation），聚类分析中用它来测量案例之间的
相似程度。
原始数据
案例
变量
x1
x2
x3
X4
x5
1
2
5
3
6
4
2
8
7
普遍。
相关测度：相关系数
案例
1
2
3
4
2
0.00
3
0.97
0.14
4
0.19
0.76
017
0.91
-0.22
样品间的亲疏关系通常用距离描述
Block距离欧式距离明氏距离切比雪夫距离马氏距离兰氏距离
距离的定义：
距离测度的出发点是把每个案例看成是m维空间中（m 为变量个数）的一个点。

e商务文档

聚类分析ppt课件

相关文档推荐：