当前位置:文档之家› spss判别分析

spss判别分析


使用聚类方法时,首先要明确分类的目 的,再考虑选择哪些变量(或数据)参与分类, 最后才需要考虑方法的选择。至于分类结果 是否合理,该如何解释,更多取决于研究者 对所研究问题的了解程度、相关的背景知识 和经验。
从数据要求上看


1、参与分类的变量首先应符合要求 2、各变量的取值不应有数量级上的过大差异,否 则会对分类结果产生较大影响。这时需要对变量进 行标准化处理(SPSS提供的层次聚类法中在聚类时 可以选择对变量做标准化处理,而K-均值聚类法则 需要单独做标准化处理,而后再进行聚类) 3、各变量间不应有较强的相关关系。若两个强相 关的变量同时参与聚类分析,在测度距离时,就加 大了它们的贡献,而其他变量则相对被削弱
D d kl max ij
x G G i k,x j l
2 D x x ) ( x x ) k l( k l k l
1 D d kl ij n n G G k l x i kx i l
离差平方和法 (Ward’s method)
D W W W m k l
2 kl
从聚类方法的选择上


1、看数据的类型,如果参与分类的变量是连续变 量,层次聚类法、K-均值聚类法、以及两步聚类法 都是适用的。如果变量中包括离散变量(计数变量), 则需要将先对离散变量进行连续化处理。当数据量 较少时(比如小于100),两种方法都可以选用,当数 据量较多时(比如大于1000),则应该考虑选用K-均 值聚类法 2、要看分类的对象。如果是对样本分类,两种方 法都可用;如果是对变量分类则应选择层次聚类法 (至少SPSS的程序是这样)
注意对分类结果的检验
分类结果是否合理取决于它是否 “有用”,但分类结果是否可靠和稳定, 则需要反复聚类和比较。 一般来说,在所分的类别中,各类 所包含的对象(样本或变量)的数量应该 大致相当。至少这从表面上看更漂亮一 些。
问题
1、什么时候用快速聚类? 2、什么时候用分层聚类?
第二部分 判别分析概念
类间距离的计算方法
最短距离法 (Nearest neighbor) 最长距离法 (Furthest neighbor) 重心法 (Centroid clustering) 组间平均距离 (Between-groups linkage)
D d kl min ij
x G G i k,x j l

树形图

树形图以水平放置的树形结构呈现了聚类分析 中每一次类合并的情况。SPSS自动将各类间的 距离映射到0~25之间。如何看?那个更直观?
小结
除分层聚类法和K-均值聚类法外,1996年 还提出一种新的聚类方法,即两步聚类法 (TwoStep Cluster) 无论那种分类方法,最终要分成多少类别, 并不是完全由方法本身来决定,研究者应结合 具体问题而定。 聚类分析是一种探索性的数据分析方法。 相同的数据采用不同的分类方法,也会的得到 不同的分类结果。分类的结果没有对错之分, 只是分类标准不同而已 。
第十三讲

判别分析
第一部分 上一讲回顾 第二部分 判别分析概念 第三部分 判别分析的SPSS过程
第一部分 上一讲回顾
1、聚类分析的概念 2、距离概念 3、聚类分析SPSS过程 4、冰挂图和树形图
1、聚类分析概念
聚类分析是根据事物本身的特性研究个体 分类的方法,原则是同一类中的个体有较 大的相似性,不同类中的个体差异很大。 根据分类对象的不同, ①、分为样品(观测量)聚类 ②、变量聚类两种
分层聚类 (Hierarchical Cluster)过程

分层聚类又称系统聚类: 是指事先不确定要分多少类,而是先把每一个 对象作为一类,然后一层一层进行分类
分层聚类方法:



分解法:先视为一大类,再分成几类 凝聚法:先视每个为一类,再合并为几大类
冰挂图
如何观察冰挂图: 从最后一行开始,当聚成4类时,3、4个案聚成一类,其 他个案自成一类; 当聚成3类时,3、4个案,1、2个案聚成一类,个案五自 成一类; 当聚成2类时,1、2个案聚成一类,其余个案聚成一类
有一些昆虫的性别很难看出,只有通过解剖 才能够判别;但是雄性和雌性昆虫在若干体表度 量上有些综合的差异。于是统计学家就根据已知 雌雄的昆虫体表度量(这些用作度量的变量亦称 为预测变量)得到一个标准,并且利用这个标准 来判别其他未知性别的昆虫。 这样的判别虽然不能保证百分之百准确, 但至少大部分判别都是对的,而且用不着杀死昆 虫来进行判别了。
q
x
i 1
p
i
yi
q
相似性的度量 (变量相似系数的计算方法)
在对变量进行分类时,度量变量之间的相似 性常用相似系数,测度方法有
cos xy
x y
i i i i
i

夹角余弦
2 2 x y i i
i i
Pearson相关系数
r xy
(x x)( y y)
i 2 2 ( x x ) ( y y ) i i i i
2、距离概念
(样本点间距离的计算方法)
Euclidean距离
Squared Euclidean距 离 Block距离
2 ( x y ) i i i 1 p
2 ( x y ) i i i 1
p
p

i 1
xi yi
Chebychev距离
Minkovski距离
max x i y i
判别分析(discriminant analysis)

这就是本次课要讲的是判别分析。判别分析和 前面的聚类分析有什么不同呢? 主要不同点就是:在聚类分析中一般人们 事先并不知道或一定要明确应该分成几类,完 全根据数据来确定。 而在判别分析中,至少有一个已经明确知 道类别的“训练样本”,利用这个数据,就可 以建立判别准则,并通过预测变量来为未知类 别的观测值进行判别了。
第三部分 聚类分析的SPSS过程

在AnalyzeClassify下:
1、快速聚类(K-Means Cluster): 观测量 快速聚类分析过程。 2、分层聚类(Hierarchical Cluster):分层 聚类(进行观测量聚类和变量聚类的过程。
快速聚类过程(Quick Cluster) 使用 k 均值分类法对观测量进行聚 类。可使用系统的默认选项或自己设 置选项,如分为几类、指定初始类中 心、是否将聚类结果或中间数据数据 存入数据文件等。 AnalyzeClassifyK-Means Cluster
相关主题