当前位置：文档之家› spss部分高级分析方法

spss部分高级分析方法

差齐性等基本假设，但原则上所有的变量必须是等距变量。
9.1 聚类分析
聚类方法的核心在于个案之间相似程度的度量，一般常用的测度方法为欧式
距离，即：
p和q分别代表两个个案各自在所有变量上的取值向量，
pi和qi分别代表两个个案在第i个变量上的取值。

在聚类分析之前，还要将欧氏距离标准化以使所有变量有相同的尺度和方差。其他相似度的测度方法有似然距离、马氏距离、闵可夫斯基距离等。
步骤2：单击【系统聚类（H）】进入系统聚类主对话框。我们仍然把数据中所有的经济指标作为分类的根据，将名义变量 “地区”置入【标注个案（C）】框中，其余变量置入【变量】框中。
在会计和财务管理中的应用
李金德欧贤才主编
S P S S
秦晶连娟黄蕙玲副主编
第九章部分高级分析方法

学习目标
了解聚类分析的基本原理和应用范围；
掌握聚类分析的SPSS操作及结果解释；了解判别分析的基本原理和应用范围；掌握判别分析的SPSS操作及结果解释；了解因子分析的基本原理和应用范围；掌握因子分析的SPSS操作及结果解释。
9.1.3

系统聚类
此外，还有组内连接算法、质心连接算法，中数连接算法和Ward算法等。使用不同的连接
算法视研究目的和数据结构而定，当然，得到的聚类结果可能会略有不同，在某些情况下需要尝试多种不同的距离和相似度度量方法来找到最佳聚类模型。
9.1 聚类分析
9.1.3

系统聚类
系统聚类的SPSS过程
9.1 聚类分析
9.1.2

K-均值聚类
K-均值聚类的SPSS过程
步骤1：打开数据，依次选择【分析（A）】 →【分类（F）】→【K-均值聚类（K）】命令
9.1 聚类分析

9.1.2 K-均值聚类
K-均值聚类的SPSS过程步骤2：单击【K-均值聚类（K）】进入K-均值聚类主对话框。在K-均值对话框中，将 “Amount”，“Frequency”，“Age”和 “Income_group”四个变量置入【变量（V）】框中，而将“Customer_ID”(顾客序号)置入【个案标记依据（B）】中，在
9.1 聚类分析

9.1.1 两步聚类
两步聚类又称二阶聚类，算法分为如下两步：
第一，构建聚类特征数。起初把某个案作为树的根节点，根据指定的距离测度方法作为个案间的相似性依据，并确定一个相似性的临界值，把每个后续个案放到最相似的节点中；
如果某个案没有找到与它足够相似的节点，即相似度达不到临界值内，就使它成为一个新
9.1 聚类分析
9.1.2
K-均值聚类
K-均值聚类在SPSS里又称为快速聚类。
K-均值是一种基于聚类簇中心的方法，由相似个案组成的簇的中心有多种定
义方法，其中最常用的一种是以簇内所有个案的均值为中心。
9.1 聚类分析
9.1.2

K-均值聚类
K-均值聚类的算法流程如下：
在样本中随机地选择k个个案，每个个案代表一个分类簇的初始均值或中心。对剩下的每个个案，根据其与各个簇中心的相似度将它分配到最相似的簇中。用K-均值算法迭代地改善簇内的变异，即在每次分配新的对象后，用更新后的均值作为新的簇中心，重新分配所有对象。
的节点。

第二，确定最优聚类个数。通过比较Akaike信息准则(AIC)或Schwarz-Bayesian信息准则
(BIC)找出最拟合数据又最简洁的聚类模型。AIC和BIC都是拟合优度和模型选择的重要指标，
使两者的值最小的聚类个数，说明该聚类模型最优。
9.1 聚类分析

9.1.1 两步聚类
在评价所选聚类结构的优劣时，还使用轮廓指数(Kaufman and Rousseeuw 1990)。该指数描绘的是平均个案与聚类结果中两个类别的相对距离之差。

K-均值聚类
K-均值聚类的SPSS过程
步骤4：单击【保存（S）】按钮，进入保存对话框，选择经过运算后存入原数据的变量，勾选【聚类成员（C）】和【与聚类中心的距离（D）】。这样做是方便在原数据上找到相关变量，这些变量可以给出每个个案的聚类结果。然后点击【继续】按钮回到主对话框。
9.1 聚类分析

A为个案到其所在类别的中心的距离，而B是其到距其最近的类别中心的距离。如果轮廓指数为1，是所有个案都处在其所属类别的中心这种极端情况，这代表完美的聚类结果；若轮廓指数取值为-1，则所有个案都处在不包含自己的类别的中心上，这代表聚类分析完全错误的情况。一个聚类结果模型中，个案距离自己所在类别的中心比距离其不属于的类别中心近，就说明所选聚类模型是好的。因此从轮廓指数可以把模型分为优，中，差三等。
前言
大数据时代需要强有力的统计工具对数据进行处理，从而发现有价值的信息，
以便指导实际工作。数据挖掘的各种工具中，以多变量分析技术应用最为广
泛，即同时分析多个变量（即多个维度）关系的统计方法。
在商业及社会科学研究中，多变量分析方法主要包括聚类分析、判别分析、
因子分析等，这些分析方法的结果都能以图形的方式直观地呈现。
我们仍以案例9-1中我国各地区的经济指标数据为例，演示系统聚类的SPSS操作过程。
9.1 聚类分析
9.1.3

系统聚类
系统聚类的SPSS过程
步骤1：打开数据“经济指标.sav”，依次选择【分析（A）】→【分类（F）】→ 【系统聚类（H）】命令。
9.1 聚类分析
9.1.3

系统聚类
系统聚类的SPSS过程
9.1.2

K-均值聚类
K-均值聚类的SPSS过程
步骤5：单击【选项（O）】按钮，进入选项对话框，勾选【统计量】选项组的【初始聚类中心（I）】和【ANOVA表（A）】选项。点击【继续】按钮回到主对话框
9.1 聚类分析

K-均值聚类的SPSS过程
步骤6：结果解释。
（1）聚类过程。初始聚类中心为计算机随机选取的5个个案，它们在各变量上的取值如表9-1所示。经过K-均值聚类算法的迭代，5个类别的中心随着邻近个案的加入不断更新。
K-均值聚类
K-均值聚类的SPSS过程
步骤6【续】：（1）……。最后的5个类别的中心呈现在表9-3中。
9.1 聚类分析

K-均值聚类的SPSS过程步骤6【续】：（2）类别差异检验。聚类分析得到的这 5个类别是否可取？即它们是否满足类别
内同质，类别间异质的要求呢？表9-4的
方差分析给出了答案，从显著性水平看p 值都为“0.000”，都是小于显著性水平
的，即p<α =0.05，说明每一个变量在最
后得到的5个类别间都存在显著差异。
9.1 聚类分析

K-均值聚类的SPSS过程步骤6：结果解释。（3）个案归属。最后我们需要知道是哪些个案被分到了这5类中，表9-5给出了每一类包含的个
案总数。而在原来的数据中产生了两列变量
“QCL_1”和“QCL_2”，分别表示个案所属的类别和与所在类别中心的距离，如图所示。每个顾客群被划分为不同的类别，商家就可以根据他们各自的特点进行市场细分，从而制定更为有效的措施以区别化应对不同的顾客。
为止。

无论是凝聚法还是分裂法，用户都可以指定期望的类的个数作为算法的终止条件。
9.1 聚类分析

9.1.3 系统聚类
两个类别之间的距离是算法的基础。类别间的距离称为连接度量，它代表了将两簇个案间的相似度的综合。常用的连接度量有：

最小距离：类别间距离定义为两个类别各自包含的个案间距离的最小值。使用该距离的算法被
前言
聚类分析和判别分析属于将个案分类的方法，而因子分析则是将变量分组的
降维方法。
根据事先是否固定类别或组别来看，聚类分析属于无监督学习，判别分析属
于监督学习（机器学习）。
因子分析分为探索性和验证性两种。本章着重介绍上述方法的基本原理、SPSS操作步骤及结果解释。
9.1 聚类分析
9.1 聚类分析
9.1.2

K-均值聚类
K-均值聚类的SPSS过程
步骤6【续】：（1）……表9-2中显示了每一次迭代后这5个中心变动的距离，第20次迭代后中心距离不再更改，即值都已经变为
“0”，迭代便终止。最后的5个类别的
中心呈现在表9-3中。
9.1 聚类分析
9.1.2

9.1 聚类分析
9.1.1

两步聚类
两步聚类的SPSS过程
步骤2：单击【两步聚类（T）】进入两步聚类主对话框，除“地区”这一变量外，把其余各项经济指标置入【连续变量（C）】框中，由于都是连续变量，所以在【距离度量】处选择【Euclidean（N）】(欧式距离) 。
9.1 聚类分析
（1）聚类结果。一个名为“TSC_3678”的新变量
分到同一类，以取值“1”表示，而其余的地区则
被分到类别“2”。
9.1 聚类分析

两步聚类的SPSS过程
步骤4：结果解释。
（2）聚类效果评估。在输出窗口中，SPSS给出了聚类模型的评价，用于聚类的变量为8个，最后将个案分为2类。“针对凝聚性和分离性的Sihouette测量”图中显示的便是轮廓指标的数值，由图上可以看出，本次聚类结果得到的值接近1.0，被评价为“较佳”的结果。

迭代反复进行直到分类稳定，即新一轮个案分配到的簇固定不再更改为止。实际应用中，
达到指定的迭代次数也可终止算法。
9.1 聚类分析

e商务文档

spss部分高级分析方法

相关文档推荐：