当前位置：文档之家› 聚类分析综述

聚类分析综述

划分方法
• 给定一个包含n个对象或数据行，划分方法将数据集划分为k个子集（划分）。其中每个子集均代表一个聚类（k）。也就是说将数据分为k组，这些组满足以下要求：
– 每组至少应包含一个对象； – 每个对象必须只能属于某一组。需要注意的是后一个要求在一些模糊划分方法中可以放宽。
• 其中d (i, j)表示对象i与j的相异度，它是一个非负的数值。当对象i和j越相似或“接近”时，d (i, j)值越接近 0；而对象i和j越不相同或相距“越远”时，d (i, j)值越大。显然，d (i, j)=d (j, i)，d (i, i)=0。相异度矩阵是对象-对象结构的一种数据表达方式。
序数型变量
比例标度型变量
• 比例标度型变量:一个比例数值变量就在非线性尺度上所获得的正测量值，如：指数比例，可以用以下公式近似描述： AeBt or Ae-Bt
• 方法:
– 将比例数值变量当作间隔数值变量来进行计算处理；但这不是一个好方法，因为比例尺度时非线性的。 –利用对数转换方法 yif = log(xif) –最后就是将xif当作连续顺序数据，即将其顺序值作为间隔数值来进行相应的计算处理。
• 一个序数型变量可以是离散的也可以是连续的; • 序号是重要的, 例如., rank • 处理方法与间隔数值变量的处理方法类似 • -scaled – 用xif的序数值替换 xif，rif { 1 ,...,M f } –由于每个顺序变量的状态个数可能不同。因此有必要将每个顺序变量的取值范围映射到[0,1] 区间，以便使每个变量的权值相同。 r 1 if zif M f 1 –用有关间隔数值变量的任一个距离计算公式，来计算用顺序变量描述的对象间距离；
• 可以使用权重函数
二元变量
• 二元属性的可能性表
Object j
1
Object i
0 b d
sum a b cd p
1 0a csu源自 a c b d• 简单匹配相关系数(不变相似性，如果二元变量是对称的): bc d (i, j) a bc d • Jaccard相关系数 (非变相似性，如果二元变量是非对称的):
cij cos ij
k 1 n 2 n ki k 1 k 1

n
xki xkj
2 xkj
x
2 2 dij 1 Cij
25
(1) 所选择的亲疏测度指标在实际应用中应有明确的意
选择原则
义。如在经济变量分析中，
(2) 亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。 (3) 如在标准化变换之下，夹角余弦实际上就是相关系数；又如若在进行聚类分析之前已经对变量的相关性
聚类分析处理的数据类型
• 区间标度（ Interval-scaled variables ）属性； • 二元(Binary variables)属性； • 标称(Nominal variables)属性; • 序数型(Ordinal, and ratio variables)属性; • 比例(Ratio variables)属性;
聚类分析
提纲
• • • • • • • • 聚类分析简介聚类分析中的数据类型划分方法层次方法基于密度的方法基于网格的方法基于模型的聚类方法孤立点分析
聚类（Clustering）
• 聚类:是一个数据集 –聚类（Clustering）是对物理的或抽象的对象集合分组的过程； –将数据集划分为若干组（class）或簇（cluster）的过程，并使得同一个组内的数据对象具有较高的相似度； –而不同组中的数据对象是不相似的。 • 聚类生成的组称为簇（Cluster） –簇是数据对象的集合。簇内部的任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。相异度可以根据描述对象的属性值计算，对象间的距离是最常采用的度量指标。
xif m f zif sf
• 使用平均的绝对偏差比使用标准差更加健壮：异常数
据的Z－分值不会变得太小，从而使得异常数据仍是可识别的。
区间标度的相似度(1)
• 由间隔数值所描述对象之间的差异（或相似）程度可以通过计算相应两个对象之间距离来确定； • Minkowski 举例:
d (i, j) q (| x x |q | x x |q ... | x x |q ) i1 j1 i2 j2 ip jp
d (i, j) bc a bc
二元变量的相似度
• 示例
Name Jack Mary Jim Gender M F M Fever Y Y Y Cough N N P Test-1 P P N Test-2 N N N Test-3 N P N Test-4 N N N
– gender 是对称属性 – 其余属性是非对称属性 – 可将其Y和P设为1；N设为0。
if f
相似系数的算法（1）相似系数
x (x 和 , x j 2 ,, x jp ) 设 j j1 x i xi1 , xi 2 , , xip 是第 i 和 j 个样品的观测值，则二者之间的相似测度为:
( xik
p
其中
ij
k 1 p
xi )( x jk x j )
提纲
• • • • • • • 聚类分析简介聚类分析中的数据类型划分方法层次方法基于密度的方法基于网格的方法基于模型的聚类方法
数据矩阵（Data Matrix）
• 设有n个对象，可用p个变量（属性）描述每个对象，则np矩阵
x11 x12 x1 p x21 x22 x2 p x x x np n1 n 2
i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是两个n维的数据,其中q为一个正整数； • 如果 q = 1, d 是Manhattan 距离
d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j2 ip jp
01 0.33 2 01 11 d ( jack, jim ) 0.67 111 1 2 d ( jim , mary) 0.75 11 2 d ( jack, mary)
标称变量（1）
• 标称变量是二元变量的一个推广。标称变量可以对两个以上的状态进行描述。例如：地图颜色map_color 变量就是一个标称变量；它可以表示五种状态，即红、绿、篮、粉红和黄色。
聚类分析的一些典型要求
• 可扩展性 • 处理不同类型属性的能力 • 发现任意形状的聚类 • 需要（由用户）决定的输入参数最少 • 处理噪声数据的能力 • 对输入记录顺序不敏感
• 高维问题
• 基于约束的聚类 • 可解释性和可用
什么是好的聚类方法?
• 一个好的聚类方法可以产生高质量的聚类： – 类的内部具有较高的相似度
• 方法1:简单匹配方法
m d (i, j) p p – 其中m表示对象i和对象j中取同样状态的标称变量个
数（匹配数）；p为所有的标称变量个数。
– 为增强的作用，可以给它赋予一定的权值；对于拥有许多状态的标称变量，可以相应赋予更大的权值。
标称变量（2）
• 方法2:通过为标称变量的每个状态创建一个新二元变量，能够将标称变量表示为非对称的二元变量。对于具有给定状态的一个对象，代表一个状态的二元变量置为1；而其它的二元变量置为0。
2 p
2 [ k ( x x ) ][ ( x x ) ] ik i jk j 1 k 1
2
（2）夹角余弦
夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 x x , x , , x xi x1i , x2i ,, xni j 1j 2j nj
• 属性的组合。
区间标度变量
• 数据标准化（数据预处理） – 计算平均的绝对偏差:
sf 1 n (| x1 f m f | | x2 f m f | ... | xnf m f |) 1 (x1 f x2 f ... xnf ). mf n
– 计算标准化的度量值 (z-score)
聚类分析：机器学习观点
• 从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
聚类分析：其它观点
• 从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。 • 就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。 • 聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。 • 数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。
作了处理，则通常就可采用欧氏距离，而不必选用斜
交空间距离。 (4) 所选择的亲疏测度指标，还须和所选用的聚类分析方法一致。如聚类方法若选用离差平方和法，则距离只能选用欧氏距离。
2
提纲
• • • • • • • 聚类分析简介聚类分析中的数据类型划分方法层次方法基于密度的方法基于网格的方法基于模型的聚类方法
– 类间具有较低的相似度
• 聚类结果的质量依赖于相似度评价方法以及它们的应用； • 聚类结果的质量也取决于它发现隐藏模式的能力。
聚类分析在数据挖掘中的应用
• 作为一个独立的分析工具，用于了解数据的分布情况,观察每个簇的特点, 对特定的某些簇做进一步的分析. • 作为其它算法的一个数据预处理步骤,这些算法再在生成的簇上进行处理. • 应用领域(举例): 市场销售:帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区；保险: 对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户；城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅；地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类。

e商务文档

聚类分析综述

相关文档推荐：