当前位置：文档之家› 常见聚类算法

常见聚类算法

1.选取K个点做为初始聚集的簇心（也可选择非样本点）; 2.分别计算每个样本点到 K个簇核心的距离（这里的距离一般取欧氏距离或余弦距离），找到离该点最近的簇核心，将它归属到对应的簇； 3.所有点都归属到簇之后， M个点就分为了 K个簇。之后重新计算每个簇的重心（平均距离中心），将其定为新的“簇核心”； 4.反复迭代 2 - 3 步骤，直到达到某个中止条件。
MinPts=3 核心对象：x1 x2由x1密度直达 x3由x1密度可达 x3于x4密度相连
DBSCAN算法将数据点分为三类： 1.核心点：在半径Eps内含有超过MinPts数目的点。 2.边界点：在半径Eps内点的数量小于MinPts, 但是落在核心点的邻域内的点。 3.噪音点：既不是核心点也不是边界点的点。
缺点：由于聚类中心点选择过程中的内在有序性，导致聚类中心之间的依赖性 (第k个聚类中心点的选择依赖前k-1个聚类中心点的值)。
K-meansII
解决K-Means++算法缺点而产生的一种算法；改变取样规则，每次获取K个样本，重复该取样操作O(logn)次，然后再将这些抽样出来的样本聚类出K个点，最后使用这K个点作为K-Means算法的初始聚簇中心点。一般5次重复采用就可以2
则在CF Tree中，对于每个父节点中的CF节点，它的(N,LS,SS)三元组的值等于这个CF 节点所指向的所有子节点的三元组之和。
B,每个内部节点的最大CF数； L,每个叶子节点的最大CF数； T,每个CF的最大样本半径阈值；
CF Tree的生成
弹性网络（Elastic Net）
即求
min
DBSCAN过程： 1.将所有的点标记为核心点、边界点、噪声点 2.删除噪声点 3.为距离在MinPts之内的所有核心点之间赋予一条边 4.每组联通的核心点形成一个簇。
MinPts = 4，点 A 和其他红色点是核心点，因为它们的 ε-邻域（图中红色圆圈）里包含最少 4 个点（包括自己），由于它们之间相互相可达，它们形成了一个聚类。点 B 和点 C 不是核心点，但它们可由 A 经其他核心点可达，所以也属于同一个聚类。点 N 是局外点，它既不是核心点，又不由其他点可达
1.将所有样本数据作为一个簇放到一个队列中； 2.从队列中选择一个簇进行K-means算法划分（第一次迭代时就是相当于将所有样本进行K=2的划分），
划分为两个子簇，并将子簇添加到队列中循环迭代第二步操作，直到中止条件达到(聚簇数量、最小平方误差、迭代次数等) 3.队列中的簇就是最终的分类簇集合。
从队列中选择划分簇的方式有两种： 1.计算所有簇的SSE（误差的平方之和），选择SSE值最大的簇进行划分操作
本周学习情况汇报
聚类任务（clustering）
无监督学习，将数据集样本划分为若干个不相交的子集，每个子集称为一个簇（cluster）,每个簇对应一些潜在的概念。
聚类性能指标
外部指标 ——》对比参考模型内部指标 ——》直接考察结果
常用外部指标 Jaccard系数 FM指数 Rand指数
常用内部指标 DB指数 Dunn指数
常用的中止条件有迭代次数、最小平方误差MSE、簇中心点变化率；
k=2
K-means的K值需要预先给定，不同的K初始值导致的不同的簇划分。为了减小K值的影响，Kmeans衍生出二分K-Means算法、K-Means++算法、K-Means||算法、Canopy算法等
二分K-means 解决K-Means算法对初始簇心比较敏感的问题（对噪声的抗干扰能力差）具体思路步骤如下：
BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies）
BIRCH算法利用了一个树结构来帮助我们快速的聚类，这个树结构类似于平衡B+树，一般将它称之为聚类特征树(Clustering Feature Tree，简称CF Tree)。这颗树的每一个节点是由若干个聚类特征 (Clustering Feature，简称CF)组成。
(4) 迭代求解：迭代 (2)、(3) 直至原型向量更新很小或者迭代次数到达上限为止。返回原型向量。
高斯混合聚类
相较于其他聚类采用距离描述相似度，采用概率模型来表达聚类原型（高斯分布即正态分布）簇划分由原型对应后验概率确定
一维正态分布概率密度函数
f (x)
1
e
(
x )2 2 2
2
n维样本空间正态分布概率密度函数
令 mu,a 表示在属性 u 上取值为 a 的样本数，mu,a,i 表示在第 i 个样本簇中在属性 u 上取值为 a 的样本数，k 为样本簇数，则属性 u上的两个离散值a与b之间的VDM距离为
VDMp (a,b)
k i1
mu, a, i mu, b, i mu, a mu, b
p
结合明氏距离和VDM可以处理混合属性集
DBSCAN 算法是一种基于密度的聚类算法： 1.聚类的时候不需要预先指定簇的个数 2.最终的簇的个数不确定
DBSCAN基于一组邻域参数（ε，MinPts）来刻画样本分布的紧密程度，MinPts为邻域密度阈值在数据集D={x1,x2,x3,...xm}上定义以下概念: ε-邻域：对xj∈D,其ε-邻域包含样本集D中与xj的距离不大于ε的样本，即Nε (xj)={xi∈D|dist(xi,xj)≤ε}; 核心对象：若xj的一个ε-邻域至少包含MinPts个样本，即|Nε（xj)|≥MinPts,则xj是一个核心对象；密度直达：若xj位于xi的ε-邻域中，且xi是核心对象，则称xj由xi密度直达；密度可达：对xi于xj若存在样本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直达，则称xj由xi密度可达；密度相连：对xi与xj，若存在xk使得xi与xj均由xk密度可达，则称xi与xj密度相连；
当聚类簇距离由dmin,dmax,davg计算时，AGENS算法被相应的称为“单连接”、“全连接”、“均连接”算法 AGENS会按照相应的度量不断进行聚类并更新距离，直到达到预设的聚类簇数
DIANA（Divisive ANAlysis）是典型的分裂聚类算法，首先将所有样本归为一个簇，再根据距离度量分裂簇
·DBSCAN 层次聚类（hierarchial clustering）层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略也可以采用“自顶向下”的分拆策略。
·AGNES
·DIANA
·BRICH
K均值算法（K-means）通过将没有标注的 M 个样本通过迭代的方式聚集成K个簇。
n
1
明氏距离（Minkowski distance）: distmk ( xi, xj) ( xiu xju ) p
p 1 时满足距离基本性质
u 1
p 2 欧氏距离
n
2
disted
xi x j
2
xixj
u 1
p 1 曼哈顿距离（街区距离） p 切比雪夫距离
n
distman(xi, xj)
Canopy 粗聚类，一般作为K-means的前奏，避免单独使用K-means导致的误差过大
1.给定样本列表L=x 1 ,x, 2 …,x m 以及先验值TI 和T2 (TI >T2 ) 2.从列表L中获取一个节点P，计算P到所有聚簇中心点的距离(如果不存在聚簇中心，那么此时点P形成一个新的聚簇)，并选择出最小距离D(P,a j ) 3.如果距离D小于TI，表示该节点属于该聚簇，添加到该聚簇列表中 4.如果距离D小于T2，表示该节点不仅仅属于该聚簇，还表示和当前聚簇中心点非常近，所以将该聚簇的中心点设置为该簇中所有样本的中心点，并将P从列表L中删除 5.如果距离D大于TI，那么节点P形成一个新的聚簇 6.直到列表L中的元素数据不再有变化或者元素数量为0的时候，结束循环操作。
每个节点包括叶子节点都有若干个CF，而内部节点的CF有指向孩子节点的指针，所有的叶子节点用一个双向链表链接起来。
CF是一个三元组结构，CF=（N，LS，SS）
N是子类中节点的数目，LS是N个节点的线性和， SS是N个节点的平方和
CF满足线性关系，即 CF1+CF2=（n1+n2, LS1+LS2, SS1+SS2）
p(x)
1
n
1 ( x )T 1 ( x )
e2
1
(2 ) 2 2
其中μ是n维均值向量，Σ是nxn的协方差矩阵
模型参数采用极大似然估计求得，并采用期望最大化算法迭代优化
DBSCAN（Density-Based Spatial Clustering of Applications with Noise）当数据集中的聚类结果是非球状结构时，基于距离的聚类算法的聚类效果并不好。
Canopy算法得到的结果，聚簇之间可能存在重叠，但不会出现某个对象不属于任何聚簇的情况
学习向量量化（Learning Vector Quantization） LVQ假设每个样本是有标签的，LVQ通过这些假设的标签来辅助聚类。
输入：训练集 D，聚类簇数量 p 输出：p 个原型向量 (1) 初始化原型向量； (2) 计算距离：在训练集 D 中随机抽取一个样本 xj，分别计算该样本与各个原型向量间的距离，然后找出最近的原型向量 pi； (3) 重置均值向量：如果样本 xj 与原型向量 pi 的类别相同，则让原型向量靠近样本xj ，否则远离：
AGNES AGENS是一种自底向上聚合策略的层次聚类算法。它先将数据集中的每一个样本看作一个初始聚类，
然后在算法运行的每一步找出距离最近的两个聚类簇进行合并（归并思想），该过程不断重复，直至达到预设的聚类簇的个数每个簇是一个样本集合，可以使用最远样本、最近样本、两个簇的所用样本计算两个簇的最远距离、最近距离和平均距离

e商务文档

常见聚类算法

相关文档推荐：