当前位置:
文档之家› 大数据应用基础-聚类算法(PPT 26页)
大数据应用基础-聚类算法(PPT 26页)
• 原理和上面人物照片是一致的。
18
K均值算法可以用于三个维度
• 前面图像 压缩的例 子是基于 一个维度。
• 这里抽象 展示了基 于三个维 度的聚类。
19
如何在软件中为K均值算法设定参数
• 在软件中,通常都要设定群的个数。
• 还可以指定距离的度量方式。例如选择欧几里德
距离或曼哈顿距离。大多数聚类分析都使用距离
12
K均值算法的步骤
• K均值算法,概括起来有五个步骤: 1. 设定一个数K,表明总共有几个群簇(组); 2. 从所有实例中随机选择K个实例,分别代表一
个群簇的初始中心; 3. 对剩余的每个实例,根据其与各个组的初始中
心的距离,将它们分配到离自己最近的一个群 簇中; 4. 然后,更新群簇中心,即:重新计算得出每个 群簇的新的中心点; 5. 这个过程不断重复(即:重复第3、4步),直 到每个群簇中心不再变化,即直到所有实例在 K组分布中都找到离自己最近的群簇。
• 其中,前两种方法最常用。
11
K均值算法
• K-means算法是无可争议的使用最多的 算法。
• 它是划分方法的一种。 • 它原理简单,容易实现。 • 它适合使用数值型属性,而不是类别型属性。 • 它的一个不足之处是:对于离两个群组的中心
都很近的点,你会不知道该放到哪个群组中。 这其实也是其他一些聚类算法的局限性。
6
聚类分析的最典型应用领域
• 客户分群,进 而制定差异化 的营销方案
7
聚类分析的最典型应用领域
• 客户分群,进而制定差异 化的营销方案
例子:如图, 按照收入和 年龄把客户 聚类为两类
8
聚类的其他应用
• 按照血型对学生进 行分班
• 确定婚礼客人如何 排座位
9
离群点检测
• 离群点检测和聚类是高度相关的。 • 聚类是发现数据集中的主要群体,而离群点检
聚类分析
1
注意我们考核非常松
• 尽可能全部高于80分。
2
一个简单的聚类例子
• 这是按照 颜色进行 一维聚类。
• 实践中, 维度经常 多于一个。
3
基本特点
• 聚类(clustering)是指根据“物以类聚” 原理,将本身尚未归类的样本根据多个 维度(多个属性)聚集成不同的组,这 样的一组数据对象的集合叫做簇或群组。
度量来衡量两个实例之间的远近。
20
如何在软件中为K均值算法设定参数
• 此外,还可以设定聚类时采用哪些属性 • 同时,数据标准化是聚类分析中最重要的一个数据预
处理步骤。如果之前没做过标准化,可以现在进行。
21
如何评价聚类分析的结果?
• 这方面和分类算法有一个显著不同: – 分类算法的评判有训练集、验证集的客观参 照。 – 而聚类结果的评判缺乏很明确、客观的、统 计学意义上的参照依据。
23
聚类之前的预处理——异常值
• K-means对数据的噪声和异常值比较敏感。 • 这些个别数据对于平均值的影响非常大。 • 为此,我们可以:
– 直接删除那些比其他任何数据点都要远离聚类 中心点的异常值。
– 与此类似地,在聚类之后,有些群体内样本数 量太少、这种群体在实际应用中可以忽略不计。
– 采用随机抽样。这样,作为稀有事件的数据噪 声和异常值能被抽进样本的概率会很小,这样 样本就比较干净。
• 对于聚类,业务专家从实践角度的评估是最重 要的评价层面。如果多数业务专家对于聚类的 结果都看不懂,那么这个结果很可能是值得怀 疑的。 – 如果聚类的结果比较容易理解、解释,业务 人员会更能实施这个结果。
22
聚类之前的预处理——特征筛选
• 在实践中,聚类中的输入变量不能太多,尤其 是在样本数量有限的情况下。否则:
– 运算耗时; – 更重要的是变量之间的相关性会损害聚类效果; – 变量太多会使人难以理解每个群的实际含义。
• 因此,通常会采用相关性分析、结合业务知识 进行变量筛选等方法来降维。然后根据少量几 个维度 进行聚类。
• 被筛掉的变量可以在聚类完成后再用于对每个 群的进一步分析,比如描述性统计、分类算法。
• 而聚类则是没有训练过程。在进行聚类 前,并不知道将要划分成几个组和什么 样的组。
– 聚类则没有事先预定的类别,类别数不确定。聚 类不需要人工标注和预先训练分类器,类别在聚 类过程中自动生成 。
5
聚类分析的主要应用领域 1. 作为独立的工具来分析数据 2. 发现离群点 3. 为其他算法做数据预处理
13
K均值算法——什么是中心值
14
K均值算法的步骤
注意看C点, 它离上面 的群的新 的的距离 中心比离 下面那个 群的新的 中心更近, 所以它被 重新划分 到上面那 个群了。
15
K均值算法的步骤
16
K均值算法的应用:图像压缩
• 群的个数越少,意味着图像被转化成颜色 数量很少的图像了。
17
K均值算法的应用:图像压缩
• 怎样聚类算成功呢?经过划分后,使得:
– 属于同一群组的样本之间彼此足够相似, – 属于不同群组的样本应该足够不相似。
4
分类与聚类的区别
• 分类(Classification)有训练过程。
– 分类是事先定义好类别 ,类别数不变 。分类器需 要由人工标注的分类训练数据集训练得到,属类
• 聚类算法主要包括:
– 划分方法(Partitioning Method):包括K均 值方法等
– 层次方法(Hierarchical Method) – 基于密度的方法( Density-based ) – 基于网格的方法( Grid-based ) – 基于模型的方法( Model-based )
24
聚类之前的预处理——标准化
• 正如之前讲到的,如果依据多个变 量进行聚类,就需要确保对这些变 量都做过标准化。
25
聚类算法小结
• K-means算法 • 标准化
26
(第14讲)考场作文开拓文路能力•分 解层次 (网友 来稿)
测则试图识别那些显著偏离多数实例的异常情 况。 • 离群点检测可以用聚类方法,但也可以用其它 方法,例如:分类方法。 • 其常见的目的是:信用卡欺诈检测。
– 这需要把和正常交易明显不同的交易识别出来。例 如,盗窃卡的人的购物地点和所购商品都很不同于 真正的卡主、也不同于大多数顾客。
– 比如,其一次购物量比卡主大得多,并且购物地点 远离卡主的通常的购物地点。