聚类分析和判别分析
常用的有快速( K-均值)聚类分析、系统聚类 分析。
1、快速聚类
快速聚类也称为逐步聚类,它先对数 据进行初始分类,然后系统采用标准迭 代算法进行运算,逐步调整,把所有的 个案归并在不同的类中,得到最终分类。 它适用于大容量样本的情形。
快速聚类的分析计算过程如下:
(1)用户确定聚类的类别数,如k类。
例2:利用系统聚类分析 对20家上市公司进行分类 (Q型聚类)。 (1)打开文件:上市公 司.sav。 (2)点击“分析/系统聚 类”。 (3)选择变量、
个案标记依据、 设置分类类型、 设置输出结果。
下面对“统计量”“绘 制”“方法”“保存”“选项” 说明
设置聚类分析 的统计量
设置输出图形
设置聚类分析需 要保存的结果。
判别分析的假设为 (1)预测变量服从正态分布; (2)预测变量之间没有显著的相关; (3)预测变量的平均值和方差不相关; (4)预测变量应是连续变量,因变量(类别或 组别)是间断变量; (5)两个预测变量之间的相关性在不同类中是 一样的。
在判别分析的各个阶段应把握以下原则:
(1)事前组别(类)的分类标准(作出判别分析的 因变量)要尽可能准确和可靠,否则会影响 判别函数的准确性,从而影响判别分析的 效果;
(2)SPSS系统确定k个类的初始中心点。 SPSS会根据样本数据的实际情况,选 择k个有代表性的样本数据作为初始中 心。初始类中心也可以由用户自行指定, 需要指定k组样本数据作为初始类中心 点。
(3)计算所有样本数据点到k个类中心点的欧式 距离,SPSS按照距K个类中心点的聚类最短 原则,把所有样本分派到中心点所在的类中, 形成一个新的k类,完成一次迭代过程。
(4)SPSS重新确定k个类的中心点。SPSS计算 每个类中各个变量的变量值均值,并以均值 点作为新的类中心点。
(5)重复上面(3)(4)两步计算过程,直到达到指 定的迭代次数或者终止迭代的判别要求为止。
例1:利用快速聚类分析对20家上市公司进行分类。
SPSS实现 (1)打开文件:上市
公司.sav。 (2)点击“分析/分
垂直冰柱图
树状图是将实 际的距离按比 例调整到0-25 的范围内,用 逐级连线的方 式连线距离相 近的样品和新 类,直至成为 一大类。
判别分析
判别分析也是一种常用比较常用的分 类分析方法,它先根据已知类别的事物 的性质(自变量),建立函数式(自变量的 线性组合,即判别函数),然后对未知类 别的新事物进行判断以将之归入已知的 类别中。
统计分析与SPSS实用教程
张俊丽
➢聚类分析 快速聚类 系统聚类
➢判别分析
聚类分析
聚类分析也称群分析,它是根据事物 本身的特性对被研究对象进行分类,使 同一类中个体有较大的相似性,不同类 中的个体有较大的差异性。在分类过程 中,人们不必事前给出一个分类的标准, 聚类分析能够从样本数据出发,自动进 行分类。
给出了每个样本的 归类以及它们到本 类中心的距离
以矩阵形式给 出了各类中心 间的距离,这 里显示两类中 心点的距离为 6.652
单因素方差分析表,是以最终 形成的类为水平,针对各指标 的单因素方差分析结果。这里 F统计量对应的尾概率Sig.都 小于0.05,可以认为将样本分 为两类是合理的。
2、系统聚类分析
系统聚类分析师根据个案或者变量之间的亲疏程 度,将最相似的对象结合在一起,以逐次聚合的方 式把所有个案分类,逐步合并直到最后合并成为一 类。
根据聚类过程的不同可分为凝聚法和分解法。凝 聚法是指一开始把每个个案都视为不同的类,然后 通过距离的比较逐步合并直到把参与聚类的个案合 并成事先规定的类别数为止。分解法是一开始把所 有个案都视为同一个类,然后通过距离的比较逐层 分解,直到把参与聚类的个案区分成事先规定的类 别数为止。无论哪种聚类方法其原则都是相近的聚 为一类,实际上上述两种方法是方向相反的两种聚 类过程。
对话框中的2提供了7种计算类间距离的方法。 区间:适合于连续型变量,提供了8 种计算样品距离的方法
计数:适用于顺序或名义变量
二分类:适用于二值变量
结果分析:
凝 聚 状 态 表
第一列表示聚类分析的步骤号,共进行了19次。第2列和第3列表示在聚类 分析时那两个样品或类进行了合并,合并后的类用第2列的样品号或类别标 志。第4列式聚类时两个样品或类间距离,可以看出最近的先聚类。第5列 和第6列表示某步聚类时,是样本还是类参与合并。第7列表示本步的聚类 结果在下面聚类的第几步用到。
(2)所分析的自变量应是因变量的重要影响因 素,应该挑选既有重要特性又有区别能力 的变量,达到以最少变量而有高辨别能力 的目标;
(3)初始分析的数目不能太少。
类/K-均值聚 类”。 (3)选择变量、 个案标记依据、 分类类别数。 (如图对话框中2 表示把所有个案 分为两类)
下面对“迭 代”“保存”“选 项”说明
(4)“迭代”按钮显示迭代的最大次数,系统默 认值为10.
“保存”按钮打开后, “聚类成员”表示用于 储存聚类产生的每个个案所隶属的类别; “与聚类中心的距离”表示要求输出样本的 分类信息以及它们到本类中心的聚类。
“选项”按钮下的统计量选项 分别表示输出初始分类的凝聚点; 针对最终分类中的每个变量作为 单因素方差分析,并输出方差分 析表;要求输出样本的分类信息 以及它们到本类中心的距离。
(5)点击“确定”。
结果分析:
给出了两个凝聚 点的具体指标值
给出了三次迭代 后,最终形成的 各个类的中心点 的位置
给出了每次迭代后, 每类中心间的距离变 化情况,从表中可以 看出,第三次迭代后 类的中心已无改变, 整个快速聚类只进行 了三次就已完成。
聚类分析主要解决的问题:所研究的对 象事前不知道应该分为几类,更不知道分类 情况,需要建立一种分类方法来确定合理的 分类数目,并按相似程度,相近程度对所有 对象进行具体分类。
基本思路:在样本之间定义距离,在指标 之间定义相关系数,按距离的远近,相似系 数的大小对样本或指标进行归类。
SPSS实现:“分析/分类”命令。