当前位置:文档之家› 大数据聚类分析

大数据聚类分析

大数据技术概论 大数据聚类分析 技术创新,变革未来 什么是聚类分析? 。聚类分析 2将物理或抽象对象的集合分组成为 由类似的对象组成的多个类的过程 。聚类(簇):数据对象的集合 Q在同一个聚类(簇)中的对象彼此 相似 2不同簇中的对象则相异 什么是聚类分析? 。聚类是一种无指导的学习:没有预定 义的类编号 。聚类分析的数据挖掘功能 Q作为一个独立的工具来获得数据分 布的情况 2作为其他算法(如:特征和分类) 的预处理步骤O

聚类分析的典型应用 O模式识别 。空间数据分析 。商务应用中 O万维网 聚类分析的典型应用 •市场销售:帮助市场人员发现客户中的不同 群体,然后用这些知识来开展一个目标明确 的市场计划; 宸土地使用:在一个陆地观察数据库中标识那 墮土地使用相似的地区; O保险:对购买了汽车保险的客户,标识那些

肴较高平均赔偿成本的客户聚类分析的典型应用 •城市规划:根据类型、价格、地理位置等来 划分不同类型的住宅; O地震研究:根据地质断层的特点把已观察到

的地震中心分成不同的类;什么是好的聚类分析?什么是好的聚类分析? •一个好的聚类方法要能产生高质量的聚类结果一 簇,这些簇要具备以下两个特点: A高的簇内相似性 »低的簇间相似性 •聚类结果的好坏取决于该聚类方法采用的相似性 评估方法以及其具体实现; •聚类方法的好坏还取决于该方法发现隐含模式的 能力; . 数据挖掘对聚类分析的要求(1) ・可扩展性(可伸缩性)

JM/E ............ ・处理不同数据类型的能力

「績舫显眸分类型/标称型’序数 ・发现任意形状的能力

-裁距霞礬騒鱷驚韓萨的 数据挖掘对聚类分析的要求(1)

。用于决定输入参数的领域知识最小化 Q对于高维数据,参数很难决定,聚 类的质量也很难控制 。处理噪声数据的能力(抗噪性、健壮 丿

性、性)

Q对空缺值、离群点、数据噪声不敏 感数据挖掘对聚类分析的要求(2)

O对于输入数据的顺序不敏感 2同一个数据集合,以不同的次序提 交给同一个算法,应该产生相似的 结果 O高维性 2高维的数据往往比较稀松,而且高 度倾斜数据挖掘对聚类分析的要求(2)

。基于约束的聚类 Q找到既满足约束条件,又具有良好 聚类特性的数据分组 O可解释性和可用性

2聚类要和特定的语义解释和应用相 联系聚类分析中的数据类型和距离计算聚类分析中的数据类型 ・许多基于内存的聚 类算法采用以下两 种数据结构 -数据矩阵(对象- 变量结构,n*p): 用P个变量来表示 n个对象

•也叫二模矩阵, 行与列代表不同 实体d(n^l) d{n^2) 0

X1P

• • •

Xip

• • •

xnp

0 "(3,2) 0

• • • •

xnl

0 d(2,l) d(3,l) ■ 聚类分析中的数据类型 2相异度矩阵(对 条-对条结 构,n*n):存储n 个对象两两之间 的临近度 。也叫单模矩阵, 行和列代表相同 的实体d(n^l) d{n^2) 0

X1P

• • •

Xip

• • •

xnp

0 "(3,2) 0

• • • •

xnl

0 d(2,l) d(3,l) ■ 相异度计算 。许多聚类算法都是以相异度矩阵为基 础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。相异度计算 ・许多聚类算法都是以相异度矩阵为基

础,如果数据是用数据矩阵形式表示, 则往往要将其先转化为相异度矩阵。 ・相异度力的具体计算会因所使用 的数据类型不同而不同,常用的数据 类型包括:

区间标度变量、二元变量、标称型、 序薮型、比例标度型变量、混合类 型的变量 区间标度变量 。区间标度度量是一个粗略线性标度的 连续度量,比如重量、高度等 。选用的度量单位将直接影响聚类分析 的结果,因此需要实现度量值的标准 化,将原来的值转化为无单位的值, 给定一个变量f的度量值,可使用以 下方法进行标准化:区间标度变量 -计算平均的绝对偏差 $广氨% —竹 I +1% -mf\ +...+% -mf I) 苴中

mf=

訴I f + X2f + -+Xnf)

-计算标准化的度量值(z-score)

x -m 7 = JL__L

轉瞌髄差往往比使用标 对象间的相似度和相异度(1)

。对象间的相似度和 相异度是基于两个 对象间的距离来计 算的 zEucl j de

日刀距离 ___________________

d(i,j)= /(lx. -x , I2 +lx. -x . I2 +...+ lx. -x . I2) V Z1 丿 1 12 丿 2 lP JP

v^Manha t力日刀住巨离

x. — X •丨+丨兀・—X •丨+…+lx. — X • 21 丿 1 】2 J2 lP J\ 对象间的相似度和相异度(2) ^Manha t加刀距离和Euclidean^离的性质

od(i,j) > 0

o d (i, i) - 0 od(i, j) = d(j, i) od(i, j) < d(i, k) + d(k, j)对象间的相似度和相异度(2) ^Minko 后距离

d(/, j) = q\(\x. -x . \e/ +\x. -x . \q +...+ \x. -x . T) V 21 Ji 12 J2 Ip Jp

。上式中,q为乎整数,如果厂/刎表示 Manha t加门距离,如果q二幺则表示

Euclidegn 距离a b a+b c d c+d a+c b+d p

二元变量(1)

・一个二元变量只有呼申状态:0或1; e. g. smoker来表示是否吸烟

・一个对象可以包含多个二元变量。

・二元丢量白勺可能性表:

如何计算两个二元变量之间的相似度?

Object j 1 0 sum a b a+b c d c+d a+c b+d p

Object i 0 sum二元变量(2)

。对称的VS.不对称的 二元变量 Q对称的二元变量指变量的两个状态具有 同等价值,相同权重;e.g•性别 e基于对称的二元变量的相似度称为恒定 的相似度,可以使用简单匹配系数评估 它们的相异度:

1 0 lab 0 c d sum a+c b+d

+ d(zj)二

c+d P

b+c o+/?+c+d =l-m 二元变量(2)

e不对称的二元变量中,变量的两个状态 的重要性是不同的;e. g. HIV阳性VS HIV阴性 e基于不对称的二元变量的相似度称为非 怛是的箱攸度,可以使ffljaccard系藪 评估它们的相异度

1 o lab

0 c d sum a+c b+d

sum a+b d(ij)二

c+d

P

b+c 二]

AnB

o+/?+c Au B 〃(张明,李力)=? = 0・67 •

示例 姓名 发烧 咳嗽 检查1 检查2 检查3 检查4 张明 是 否 不正常 正常 正常 正常 王枚 是 否 不正常 正常 不正常 正常 李力 是 是 正常 正常 正常 正常 • • • • • • • • • • • • • • • • • •• 〃(张明,王枚)=—=0.33 〃(张明,李力)=一 =0.67

3 〃(李力王枚)=—=

0.75 4

从左边的计算知道: (1) 李力和王枚不大

可能有相同疾病,因 为

发烧 咳嗽 检查1 检查2 检查3 检查4 张明 是 否 不正常 正常 正常 正常 王枚 是 否 不正常 正常 不正常 正常 李力 是 是 正常 正常 正常 正常 • • • • • • • • • • • • • • • • • •• 〃(张明,王枚)=丄=0.33

相关主题