当前位置:文档之家› 常见聚类算法

常见聚类算法

1.选取K个点做为初始聚集的簇心(也可选择非样 本点); 2.分别计算每个样本点到 K个簇核心的距离(这里 的距离一般取欧氏距离或余弦距离),找到离该点 最近的簇核心,将它归属到对应的簇; 3.所有点都归属到簇之后, M个点就分为了 K个簇。 之后重新计算每个簇的重心(平均距离中心),将 其定为新的“簇核心”; 4.反复迭代 2 - 3 步骤,直到达到某个中止条件。
MinPts=3 核心对象:x1 x2由x1密度直达 x3由x1密度可达 x3于x4密度相连
DBSCAN算法将数据点分为三类: 1.核心点:在半径Eps内含有超过MinPts数目的点。 2.边界点:在半径Eps内点的数量小于MinPts, 但是落在核心点的邻域内的点。 3.噪音点:既不是核心点也不是边界点的点。
缺点: 由于聚类中心点选择过程中的内在有序性,导致聚类中心之间的依赖性 (第k个聚类中心点的选择依赖前k-1个聚类中心点的值)。
K-meansII
解决K-Means++算法缺点而产生的一种算法; 改变取样规则,每次获取K个样本,重复该取样操作O(logn)次, 然后再将这些抽样出来的样本聚类出K个点, 最后使用这K个点作为K-Means算法的初始聚簇中心点。 一般5次重复采用就可以2
则在CF Tree中,对于每个父节点中的CF节 点,它的(N,LS,SS)三元组的值等于这个CF 节点所指向的所有子节点的三元组之和。
B,每个内部节点的最大CF数; L,每个叶子节点的最大CF数; T,每个CF的最大样本半径阈值;
CF Tree的生成
弹性网络(Elastic Net)
即求
min
DBSCAN过程: 1.将所有的点标记为核心点、边界点、噪声点 2.删除噪声点 3.为距离在MinPts之内的所有核心点之间赋予一条边 4.每组联通的核心点形成一个簇。
MinPts = 4,点 A 和其他红色点是核心点,因为 它们的 ε-邻域(图中红色圆圈)里包含最少 4 个 点(包括自己),由于它们之间相互相可达,它 们形成了一个聚类。 点 B 和点 C 不是核心点,但它们可由 A 经其他 核心点可达,所以也属于同一个聚类。点 N 是局 外点,它既不是核心点,又不由其他点可达
1.将所有样本数据作为一个簇放到一个队列中; 2.从队列中选择一个簇进行K-means算法划分(第一次迭代时就是相当于将所有样本进行K=2的划分),
划分为两个子簇,并将子簇添加到队列中循环迭代第二步操作,直到中止条件达到(聚簇数量、 最小平方误差、迭代次数等) 3.队列中的簇就是最终的分类簇集合。
从队列中选择划分簇的方式有两种: 1.计算所有簇的SSE(误差的平方之和),选择SSE值最大的簇进行划分操作
本周学习情况汇报
聚类任务(clustering)
无监督学习,将数据集样本划分为若干个不相交的子集, 每个子集称为一个簇(cluster),每个簇对应一些潜在的概念。
聚类性能指标
外部指标 ——》对比参考模型 内部指标 ——》直接考察结果
常用外部指标 Jaccard系数 FM指数 Rand指数
常用内部指标 DB指数 Dunn指数
常用的中止条件有迭代次数、最小平方误差MSE、 簇中心点变化率;
k=2
K-means的K值需要预先给定,不同的K初始值导致的不同的簇划分。为了减小K值的影响,Kmeans衍生出二分K-Means算法、K-Means++算法、K-Means||算法、Canopy算法等
二分K-means 解决K-Means算法对初始簇心比较敏感的问题(对噪声的抗干扰能力差) 具体思路步骤如下:
BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)
BIRCH算法利用了一个树结构来帮助我们快速的聚类,这个树结构类似于平衡B+树,一般将它称之为 聚类特征树(Clustering Feature Tree,简称CF Tree)。这颗树的每一个节点是由若干个聚类特征 (Clustering Feature,简称CF)组成。
(4) 迭代求解:迭代 (2)、(3) 直至原型向量更新很小或者迭代次数到达上限为止。返回原型向量。
高斯混合聚类
相较于其他聚类采用距离描述相似度,采用概率模型来表达聚类原型(高斯分布即正态分布) 簇划分由原型对应后验概率确定
一维正态分布概率密度函数
f (x)
1
e
(
x )2 2 2
2
n维样本空间正态分布概率密度函数
令 mu,a 表示在属性 u 上取值为 a 的样本数,mu,a,i 表示在第 i 个样本簇中在属性 u 上取值为 a 的样本 数,k 为样本簇数,则属性 u上的两个离散值a与b之间的VDM距离为
VDMp (a,b)
k i1
mu, a, i mu, b, i mu, a mu, b
p
结合明氏距离和VDM可以处理混合属性集
DBSCAN 算法是一种基于密度的聚类算法: 1.聚类的时候不需要预先指定簇的个数 2.最终的簇的个数不确定
DBSCAN基于一组邻域参数(ε,MinPts)来刻画样本分布的紧密程度,MinPts为邻域密度阈值 在数据集D={x1,x2,x3,...xm}上定义以下概念: ε-邻域:对xj∈D,其ε-邻域包含样本集D中与xj的距离不大于ε的样本,即Nε (xj)={xi∈D|dist(xi,xj)≤ε}; 核心对象:若xj的一个ε-邻域至少包含MinPts个样本,即|Nε(xj)|≥MinPts,则xj是一个核心对象; 密度直达:若xj位于xi的ε-邻域中,且xi是核心对象,则称xj由xi密度直达; 密度可达:对xi于xj若存在样本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直达,则称xj由xi密度可达; 密度相连:对xi与xj,若存在xk使得xi与xj均由xk密度可达,则称xi与xj密度相连;
当聚类簇距离由dmin,dmax,davg计算时,AGENS算法被相应的称为“单连接”、“全连接”、“均连接”算法 AGENS会按照相应的度量不断进行聚类并更新距离,直到达到预设的聚类簇数
DIANA(Divisive ANAlysis) 是典型的分裂聚类算法,首先将所有样本归为一个簇,再根据距离度量分裂簇
·DBSCAN 层次聚类(hierarchial clustering) 层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚 合策略也可以采用“自顶向下”的分拆策略。
·AGNES
·DIANA
·BRICH
K均值算法(K-means) 通过将没有标注的 M 个样本通过迭代的方式聚集成K个簇。
n
1
明氏距离(Minkowski distance): distmk ( xi, xj) ( xiu xju ) p
p 1 时满足 距离基本性质
u 1
p 2 欧氏距离
n
2
disted
xi x j
2
xixj
u 1
p 1 曼哈顿距离(街区距离) p 切比雪夫距离
n
distman(xi, xj)
Canopy 粗聚类,一般作为K-means的前奏,避免单独使用K-means导致的误差过大
1.给定样本列表L=x 1 ,x, 2 …,x m 以及先验值TI 和T2 (TI >T2 ) 2.从列表L中获取一个节点P,计算P到所有聚簇中心点的距离(如果不存在聚簇中心,那么此时点P形成一 个新的聚簇),并选择出最小距离D(P,a j ) 3.如果距离D小于TI,表示该节点属于该聚簇,添加到该聚簇列表中 4.如果距离D小于T2,表示该节点不仅仅属于该聚簇,还表示和当前聚簇中心点非常近,所以将该聚簇的 中心点设置为该簇中所有样本的中心点,并将P从列表L中删除 5.如果距离D大于TI,那么节点P形成一个新的聚簇 6.直到列表L中的元素数据不再有变化或者元素数量为0的时候,结束循环操作。
每个节点包括叶子节点都有若干个CF, 而内部节点的CF有指向孩子节点的指针, 所有的叶子节点用一个双向链表链接起来。
CF是一个三元组结构,CF=(N,LS,SS)
N是子类中节点的数目,LS是N个节点的线性和, SS是N个节点的平方和
CF满足线性关系,即 CF1+CF2=(n1+n2, LS1+LS2, SS1+SS2)
p(x)
1
n
1 ( x )T 1 ( x )
e2
1
(2 ) 2 2
其中μ是n维均值向量,Σ是nxn的协方差矩阵
模型参数采用极大似然估计求得,并采用期望最大化算法迭代优化
DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 当数据集中的聚类结果是非球状结构时, 基于距离的聚类算法的聚类效果并不好。
Canopy算法得到的结果,聚簇之间可能存在重叠,但不会出 现某个对象不属于任何聚簇的情况
学习向量量化(Learning Vector Quantization) LVQ假设每个样本是有标签的,LVQ通过这些假设的标签来辅助聚类。
输入:训练集 D,聚类簇数量 p 输出:p 个原型向量 (1) 初始化原型向量; (2) 计算距离:在训练集 D 中随机抽取一个样本 xj,分别计算该样本与各个原型向量间的距离,然后找出最近 的原型向量 pi; (3) 重置均值向量:如果样本 xj 与原型向量 pi 的类别相同,则让原型向量靠近样本xj ,否则远离:
AGNES AGENS是一种自底向上聚合策略的层次聚类算法。它先将数据集中的每一个样本看作一个初始聚类,
然后在算法运行的每一步找出距离最近的两个聚类簇进行合并(归并思想),该过程不断重复,直至达到预设 的聚类簇的个数 每个簇是一个样本集合,可以使用最远样本、最近样本、两个簇的所用样本计算两个簇的最 远距离、最近距离和平均距离
相关主题