当前位置：文档之家› spss判别分析

spss判别分析

使用聚类方法时，首先要明确分类的目的，再考虑选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。至于分类结果是否合理，该如何解释，更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验。
从数据要求上看

1、参与分类的变量首先应符合要求 2、各变量的取值不应有数量级上的过大差异，否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理，而K-均值聚类法则需要单独做标准化处理，而后再进行聚类) 3、各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析，在测度距离时，就加大了它们的贡献，而其他变量则相对被削弱
D d kl max ij
x G G i k,x j l
2 D x x ) ( x x ) k l( k l k l
1 D d kl ij n n G G k l x i kx i l
离差平方和法 (Ward’s method)
D W W W m k l
2 kl
从聚类方法的选择上

1、看数据的类型，如果参与分类的变量是连续变量，层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量)，则需要将先对离散变量进行连续化处理。当数据量较少时(比如小于100)，两种方法都可以选用，当数据量较多时(比如大于1000)，则应该考虑选用K-均值聚类法 2、要看分类的对象。如果是对样本分类，两种方法都可用；如果是对变量分类则应选择层次聚类法 (至少SPSS的程序是这样)
注意对分类结果的检验
分类结果是否合理取决于它是否 “有用”，但分类结果是否可靠和稳定，则需要反复聚类和比较。一般来说，在所分的类别中，各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些。
问题
1、什么时候用快速聚类？ 2、什么时候用分层聚类？
第二部分判别分析概念
类间距离的计算方法
最短距离法 (Nearest neighbor) 最长距离法 (Furthest neighbor) 重心法 (Centroid clustering) 组间平均距离 (Between-groups linkage)
D d kl min ij
x G G i k,x j l

树形图

树形图以水平放置的树形结构呈现了聚类分析中每一次类合并的情况。SPSS自动将各类间的距离映射到0~25之间。如何看？那个更直观？
小结
除分层聚类法和K-均值聚类法外，1996年还提出一种新的聚类方法，即两步聚类法 (TwoStep Cluster) 无论那种分类方法，最终要分成多少类别，并不是完全由方法本身来决定，研究者应结合具体问题而定。聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同而已。
第十三讲

判别分析
第一部分上一讲回顾第二部分判别分析概念第三部分判别分析的SPSS过程
第一部分上一讲回顾
1、聚类分析的概念 2、距离概念 3、聚类分析SPSS过程 4、冰挂图和树形图
1、聚类分析概念
聚类分析是根据事物本身的特性研究个体分类的方法，原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。根据分类对象的不同， ①、分为样品（观测量）聚类 ②、变量聚类两种
分层聚类（Hierarchical Cluster）过程

分层聚类又称系统聚类：是指事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类
分层聚类方法：

分解法:先视为一大类，再分成几类凝聚法:先视每个为一类,再合并为几大类
冰挂图
如何观察冰挂图：从最后一行开始，当聚成4类时，3、4个案聚成一类，其他个案自成一类；当聚成3类时，3、4个案，1、2个案聚成一类，个案五自成一类；当聚成2类时，1、2个案聚成一类，其余个案聚成一类
有一些昆虫的性别很难看出，只有通过解剖才能够判别；但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。
q
x
i 1
p
i
yi
q
相似性的度量 (变量相似系数的计算方法)
在对变量进行分类时，度量变量之间的相似性常用相似系数，测度方法有
cos xy
x y
i i i i
i

夹角余弦
2 2 x y i i
i i
Pearson相关系数
r xy
(x x)( y y)
i 2 2 ( x x ) ( y y ) i i i i
2、距离概念
(样本点间距离的计算方法)
Euclidean距离
Squared Euclidean距离 Block距离
2 ( x y ) i i i 1 p
2 ( x y ) i i i 1
p
p

i 1
xi yi
Chebychev距离
Minkovski距离
max x i y i
判别分析(discriminant analysis)

这就是本次课要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢？主要不同点就是：在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。
第三部分聚类分析的SPSS过程

在AnalyzeClassify下：
1、快速聚类（K-Means Cluster）：观测量快速聚类分析过程。 2、分层聚类（Hierarchical Cluster）：分层聚类（进行观测量聚类和变量聚类的过程。
快速聚类过程(Quick Cluster) 使用 k 均值分类法对观测量进行聚类。可使用系统的默认选项或自己设置选项，如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。 AnalyzeClassifyK-Means Cluster

e商务文档

spss判别分析

相关文档推荐：