当前位置：文档之家› 聚类算法入门教程PPT课件

聚类算法入门教程PPT课件

3
聚类图示
聚类中没有任何指导信息，完全按照数据的分布进行类别划分
4
什么是分类?
• 数据集合D a ta ，类别标记集合 C
x D a ta , C la ss(x ) C
• 数据集合：训练数据 TrainData 待分类数据 ClassData
• 已知 x T r a i n D a t a ; k o n w C l a s s ( x ) & & C l a s s ( x ) C • 问题： t C la s s D a ta ;C la s s (t) ？ • 方法：根据训练数据获得类别划分标准 f ( x )
14
Rand
• Set any two data in testing corpus as a pair-point; • If testing corpus has n data, there is n*(n-1)/2 pair-points • a) One pair-point is in same cluster in testing corpus, and in
属于不同维度的特征的关系以 Semantic(Aim,Ajn)表示
• Unbalance Similarity
r
U nbalance(A i,A j) w m (A imA jm )2 m 1
不同特征在数据相似度计算中的作用不同
10
聚类有效性函数（一）
• 最小误差（J e ）:
c个类别，待聚类数据 x， m i为类别 Ci的中心，
• Precision and Recall • Purity • Rand Value • Intra-cluster similarity
Inter-cluster similarity
13
Purity
测试数据首先被人工标注为不同的类别;
测试数据在聚类结果中又被重新划分为多个类别;
nq
测试语料中被标记为第 q个类别的数据数;
clustering results it is in same cluster; • b) One pair-point is in same cluster in testing corpus, and in
clustering results it isn’t in different cluster; • c) One pair-point is in different cluster in testing corpus,
通过何种类别划分方式使类别划分结果达到有效性函数;
8
相似度分类（一）
• Euclidean Distance
r
Euclidean(Ai,Aj) (AimAjm)
• 交叉熵
m1
H ( A i ,A j ) - i r 1 ( A i m 2 A j m ) l o g 2 ( A i m A j m ) 1 2 i n 1 ( A i m * l o g 2 A i m ) i n 1 ( A j m * l o g 2 A j m )
nr
在聚类结果中被划分到第r个类别的数据数;
nrq nq nr
聚类结果的第r个类别中，被标记为第q个类别的数据数;
寻找具有最大数据数的
n
q r
作为类别 C
r 的代表;
类别 C r 的Purity:
P(Cr )
1 nr
c
mqa1x(nrq)
聚类算法的Purity:
Purity
c q1
nr n
max(nrq)
x
m ix Ci |Ci|
c
Je ||xm i||2 Je越小聚类结果越好 i1 x Ci
J e 衡量属于不同类别的数据与类别中心的的误差和;
• 最小方差:
Si
1
n2
xCi
||
x'Ci
xx'
||2
S i 衡量同一类别内数据的平均误差和;
11
聚类的有效性函数（二）
聚类熵（CE）:
pij Cj;
nj
pij
poj
i 1
nj
;
k
poj
Co
j 1
nj
;
k nj
k
En (
e( pij , poj )) e( poj , Co )
j 1 i 1
j 1
E n 第一部分衡量算法的类内相似度,类内相似度越大越好; 第二部分衡量算法的类间相似度,类间相似度越小越好; 12
聚类评价
聚类算法简介
报告人：刘铭
1
什么是聚类?
• 聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小;
2
对相似的文档或超链接进行聚类，由于类别数远小于文档数，能够加快用户寻找相关信息的速度;
为什么需要聚类?
and in clustering results it is in different cluster; • d) One pair-point is in different cluster in testing and in
7
聚类的基本要素
• 定义数据之间的相似度; • 聚类有效性函数（停止判别条件）;
1. 在聚类算法的不同阶段会得到不同的类别划分结果，可以通过聚类有效性函数来判断多个划分结果中哪个是有效的; 2. 使用有效性函数作为算法停止的判别条件，当类别划分结果达到聚类有效性函数时即可停止算法运行;
• 类别划分策略（算法）;
• Cosine
Cos(Ai, Aj)
r
AimAjm
m1
r
r
Aim2
Ajm2
m1
m1
数据表示为向量，向量中某一维对应数据某一特征或属性
仅计算了数据向量中属于同一维度特征的权值差距;
9
相似度分类（二）
• Based on Semantic
rr
S e m a n tic (A i,A j) S e m a n tic (A im ,A jn )(A im A jn )2 m 1 n 1
t C l a s s D a t a ; C l a s s ( t) f( t)
5
分类图示
训练数据
待分类数据12346
聚类与分类的区别
• 有类别标记和无类别标记; • 有监督与无监督; （有训练语料与无训练语料） • Train And Classification （分类）; • No Train（聚类）;

e商务文档

聚类算法入门教程PPT课件

相关文档推荐：