当前位置：文档之家› 快速聚类分析讲解

快速聚类分析讲解

和层次聚类分析一致，快速聚类分析的距离为样本间亲疏程度的标志。
两者的不同：层次聚类分析可以对不用的聚类类数产生一系列的聚类，而快速聚类只能产生固定类数的聚类，类数需要用户事先指定。
快速聚类分析计算过程
•迭代过程( Iteration History)
SPSS 逐一计算每一个记录到各个类别中心点的欧氏距离, 把各个记录按照距离最近的原则归入各个类别, 并计算新形成的类别中心点; 按照新的中心位置, 重新计算每一记录距离新的类别中心点的距离, 并重新进行归类, 更新类别中心点; 重复上面计算过程, 直到达到指定的迭代次数或终止迭代的判断要求为止。
聚类分析聚类分析基概念聚类分析实质上是建立一种分类方法，能够将一批样板数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类。聚类分析主要有两种：一种是“层次聚类分析方法” （Hierarchical Cluster Analysis），根据聚类对象不同分为样本型聚类和变量指标型聚类；另一种是“速聚类分析方法”（K-Means Cluster Analysis）（观察值在200 个以上）。
一、续变量的样本距离测量方法 1.欧式距离（Euclidean Distance） 2.欧式距离平方（Squared Euclidean Distance） 3.Chebychev距离 4.Block距离 5.Minkowski距离 6.Pearson相关系数 7.Sosine相似度
层次聚类分析
层次聚类分析中的样本型聚类
层次聚类分析
层次聚类分析中的变量指标型聚类
计算公式同上类似，不同是变量指标聚类针对变量间进行距离计算，样本型聚类针对样本间进行距离计算。
快速聚类分析（K-Means聚类分析）
快速聚类分析
基本概念
快速聚类法（又称K-均值法），是由 MacQueen于1967年提出的，快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。
快速聚类分析
思想：首先对数据进行初始分类，然后再依据样品间的距离按一定规则逐步调整，直至不能再调整为止。
适合于：样本数目较大的数据集的聚类分析
进行快速样本聚类首先要选择用于聚
类分析的变量和类数。参与聚类分析的变量必须是数值型变量，且至少要有一个。为了清楚地表明各观察量最后聚到哪一类，还应该指定一个表明观测量特征的变量作为标识变量，例如编号、姓名之类的变量。聚类必须大于等于2，但是聚类数不能大于数据文件中的观测数。
二、顺序或名义变量的样本亲疏程度测量方法 1．Chi-square measure（卡方度量） 2．Phi-square measure
层次聚类分析
层次聚类分析中的样本型聚类
三、样本数据与小类、小类与小类之间的亲疏程度测量方法 1.最短距离法 2.最长距离法 3.类间平均链锁法 4.类内平均链锁法 5.重心法 6.离差平方和法
快速聚类分析
局限性：需要事先指定分类的数目，而且此数目对最终分类结果有较大影响。
解决办法：实际中一般要对多个分类的数目进行尝试，以找出
合理的分类结果
快速聚类分析计算过程
•由研究者指定聚类成多少类( 如k个)
•SPSS 确定k个初始类中心点 SPSS 根据样本数据的情况选择k 个有代表性的样本数据作为初始类中心, 初始类中心也可以由用户自行指定。
层次聚类分析
基本概念
是根据观察值（样本）或变量之间的亲疏程度，将最相似的对象结合成在一起，以逐次聚合的方式将观察值分类，直到最后所有的样本都聚成一类。两种形式1.对样本（个案）进行分类。2.对研究对象的观察变量进行分类（主要为减少分析变量的个数）。
层次聚类分析
层次聚类分析中的样本型聚类

e商务文档

快速聚类分析讲解

相关文档推荐：