当前位置：文档之家› 聚类分析和判别分析

聚类分析和判别分析

常用的有快速( K-均值)聚类分析、系统聚类分析。
1、快速聚类
快速聚类也称为逐步聚类，它先对数据进行初始分类，然后系统采用标准迭代算法进行运算，逐步调整，把所有的个案归并在不同的类中，得到最终分类。它适用于大容量样本的情形。
快速聚类的分析计算过程如下：
(1)用户确定聚类的类别数,如k类。
例2：利用系统聚类分析对20家上市公司进行分类（Q型聚类）。 (1)打开文件:上市公司.sav。 (2)点击“分析/系统聚类”。 (3)选择变量、
个案标记依据、设置分类类型、设置输出结果。
下面对“统计量”“绘制”“方法”“保存”“选项” 说明
设置聚类分析的统计量
设置输出图形
设置聚类分析需要保存的结果。
判别分析的假设为 (1)预测变量服从正态分布； (2)预测变量之间没有显著的相关； (3)预测变量的平均值和方差不相关； (4)预测变量应是连续变量，因变量(类别或组别)是间断变量； (5)两个预测变量之间的相关性在不同类中是一样的。
在判别分析的各个阶段应把握以下原则：
(1)事前组别(类)的分类标准(作出判别分析的因变量)要尽可能准确和可靠，否则会影响判别函数的准确性，从而影响判别分析的效果；
(2)SPSS系统确定k个类的初始中心点。 SPSS会根据样本数据的实际情况，选择k个有代表性的样本数据作为初始中心。初始类中心也可以由用户自行指定，需要指定k组样本数据作为初始类中心点。
(3)计算所有样本数据点到k个类中心点的欧式距离，SPSS按照距K个类中心点的聚类最短原则，把所有样本分派到中心点所在的类中，形成一个新的k类，完成一次迭代过程。
(4)SPSS重新确定k个类的中心点。SPSS计算每个类中各个变量的变量值均值，并以均值点作为新的类中心点。
(5)重复上面(3)(4)两步计算过程，直到达到指定的迭代次数或者终止迭代的判别要求为止。
例1：利用快速聚类分析对20家上市公司进行分类。
SPSS实现 (1)打开文件:上市
公司.sav。 (2)点击“分析/分
垂直冰柱图
树状图是将实际的距离按比例调整到0-25 的范围内，用逐级连线的方式连线距离相近的样品和新类，直至成为一大类。
判别分析
判别分析也是一种常用比较常用的分类分析方法，它先根据已知类别的事物的性质(自变量)，建立函数式(自变量的线性组合，即判别函数)，然后对未知类别的新事物进行判断以将之归入已知的类别中。
统计分析与SPSS实用教程
张俊丽
➢聚类分析快速聚类系统聚类
➢判别分析
聚类分析
聚类分析也称群分析，它是根据事物本身的特性对被研究对象进行分类，使同一类中个体有较大的相似性，不同类中的个体有较大的差异性。在分类过程中，人们不必事前给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。
给出了每个样本的归类以及它们到本类中心的距离
以矩阵形式给出了各类中心间的距离，这里显示两类中心点的距离为 6.652
单因素方差分析表，是以最终形成的类为水平，针对各指标的单因素方差分析结果。这里 F统计量对应的尾概率Sig.都小于0.05，可以认为将样本分为两类是合理的。
2、系统聚类分析
系统聚类分析师根据个案或者变量之间的亲疏程度，将最相似的对象结合在一起，以逐次聚合的方式把所有个案分类，逐步合并直到最后合并成为一类。
根据聚类过程的不同可分为凝聚法和分解法。凝聚法是指一开始把每个个案都视为不同的类，然后通过距离的比较逐步合并直到把参与聚类的个案合并成事先规定的类别数为止。分解法是一开始把所有个案都视为同一个类，然后通过距离的比较逐层分解，直到把参与聚类的个案区分成事先规定的类别数为止。无论哪种聚类方法其原则都是相近的聚为一类，实际上上述两种方法是方向相反的两种聚类过程。
对话框中的2提供了7种计算类间距离的方法。区间：适合于连续型变量，提供了8 种计算样品距离的方法
计数：适用于顺序或名义变量
二分类：适用于二值变量
结果分析：
凝聚状态表
第一列表示聚类分析的步骤号，共进行了19次。第2列和第3列表示在聚类分析时那两个样品或类进行了合并，合并后的类用第2列的样品号或类别标志。第4列式聚类时两个样品或类间距离，可以看出最近的先聚类。第5列和第6列表示某步聚类时，是样本还是类参与合并。第7列表示本步的聚类结果在下面聚类的第几步用到。
(2)所分析的自变量应是因变量的重要影响因素，应该挑选既有重要特性又有区别能力的变量，达到以最少变量而有高辨别能力的目标；
(3)初始分析的数目不能太少。
类/K-均值聚类”。 (3)选择变量、个案标记依据、分类类别数。 (如图对话框中2 表示把所有个案分为两类)
下面对“迭代”“保存”“选项”说明
(4)“迭代”按钮显示迭代的最大次数，系统默认值为10.
“保存”按钮打开后， “聚类成员”表示用于储存聚类产生的每个个案所隶属的类别； “与聚类中心的距离”表示要求输出样本的分类信息以及它们到本类中心的聚类。
“选项”按钮下的统计量选项分别表示输出初始分类的凝聚点；针对最终分类中的每个变量作为单因素方差分析，并输出方差分析表；要求输出样本的分类信息以及它们到本类中心的距离。
(5)点击“确定”。
结果分析：
给出了两个凝聚点的具体指标值
给出了三次迭代后，最终形成的各个类的中心点的位置
给出了每次迭代后，每类中心间的距离变化情况，从表中可以看出，第三次迭代后类的中心已无改变，整个快速聚类只进行了三次就已完成。
聚类分析主要解决的问题：所研究的对象事前不知道应该分为几类，更不知道分类情况，需要建立一种分类方法来确定合理的分类数目，并按相似程度，相近程度对所有对象进行具体分类。
基本思路：在样本之间定义距离，在指标之间定义相关系数，按距离的远近，相似系数的大小对样本或指标进行归类。
SPSS实现：“分析/分类”命令。

e商务文档

聚类分析和判别分析

相关文档推荐：