spss部分高级分析方法
差齐性等基本假设,但原则上所有的变量必须是等距变量。
9.1 聚类分析
聚类方法的核心在于个案之间相似程度的度量,一般常用的测度方法为欧式
距离,即:
p和q分别代表两个个案各自在所有变量上的取值向量,
pi和qi分别代表两个个案在第i个变量上的取值。
在聚类分析之前,还要将欧氏距离标准化以使所有变量有相同的尺度和方 差。其他相似度的测度方法有似然距离、马氏距离、闵可夫斯基距离等。
步骤2:单击【系统聚类(H)】进入系统 聚类主对话框。我们仍然把数据中所有的 经济指标作为分类的根据,将名义变量 “地区”置入【标注个案(C)】框中,其 余变量置入【变量】框中。
在会计和财务管理中的应用
李金德 欧贤才 主 编
S P S S
秦 晶 连 娟黄蕙玲 副主编
第九章 部分高级分析方法
学习目标
了解聚类分析的基本原理和应用范围;
掌握聚类分析的SPSS操作及结果解释; 了解判别分析的基本原理和应用范围; 掌握判别分析的SPSS操作及结果解释; 了解因子分析的基本原理和应用范围; 掌握因子分析的SPSS操作及结果解释。
9.1.3
系统聚类
此外,还有组内连接算法、质心连接算法,中数连接算法和Ward算法等。使用不同的连接
算法视研究目的和数据结构而定,当然,得到的聚类结果可能会略有不同,在某些情况下 需要尝试多种不同的距离和相似度度量方法来找到最佳聚类模型。
9.1 聚类分析
9.1.3
系统聚类
系统聚类的SPSS过程
9.1 聚类分析
9.1.2
K-均值聚类
K-均值聚类的SPSS过程
步骤1:打开数据,依次选择【分析(A)】 →【分类(F)】→【K-均值聚类(K)】 命令
9.1 聚类分析
9.1.2 K-均值聚类
K-均值聚类的SPSS过程 步骤2:单击【K-均值聚类(K)】进入K-均 值聚类主对话框。在K-均值对话框中,将 “Amount”,“Frequency”,“Age”和 “Income_group”四个变量置入【变量 (V)】框中,而将“Customer_ID”(顾客 序号)置入【个案标记依据(B)】中,在
9.1 聚类分析
9.1.1 两步聚类
两步聚类又称二阶聚类,算法分为如下两步:
第一,构建聚类特征数。起初把某个案作为树的根节点,根据指定的距离测度方法作为个 案间的相似性依据,并确定一个相似性的临界值,把每个后续个案放到最相似的节点中;
如果某个案没有找到与它足够相似的节点,即相似度达不到临界值内,就使它成为一个新
9.1 聚类分析
9.1.2
K-均值聚类
K-均值聚类在SPSS里又称为快速聚类。
K-均值是一种基于聚类簇中心的方法,由相似个案组成的簇的中心有多种定
义方法,其中最常用的一种是以簇内所有个案的均值为中心。
9.1 聚类分析
9.1.2
K-均值聚类
K-均值聚类的算法流程如下:
在样本中随机地选择k个个案,每个个案代表一个分类簇的初始均值或中心。 对剩下的每个个案,根据其与各个簇中心的相似度将它分配到最相似的簇中。 用K-均值算法迭代地改善簇内的变异,即在每次分配新的对象后,用更新后的均值作为新 的簇中心,重新分配所有对象。
的节点。
第二,确定最优聚类个数。通过比较Akaike信息准则(AIC)或Schwarz-Bayesian信息准则
(BIC)找出最拟合数据又最简洁的聚类模型。AIC和BIC都是拟合优度和模型选择的重要指标,
使两者的值最小的聚类个数,说明该聚类模型最优。
9.1 聚类分析
9.1.1 两步聚类
在评价所选聚类结构的优劣时,还使用轮廓指数(Kaufman and Rousseeuw 1990)。该指数描绘的是平均 个案与聚类结果中两个类别的相对距离之差。
K-均值聚类
K-均值聚类的SPSS过程
步骤4:单击【保存(S)】按钮,进入保存对话框, 选择经过运算后存入原数据的变量,勾选【聚类成员 (C)】和【与聚类中心的距离(D)】 。这样做是方 便在原数据上找到相关变量,这些变量可以给出每个 个案的聚类结果。然后点击【继续】按钮回到主对话 框。
9.1 聚类分析
A为个案到其所在类别的中心的距离,而B是其到距其最近的类别中心的距离。如果轮廓指数为1,是所有 个案都处在其所属类别的中心这种极端情况,这代表完美的聚类结果;若轮廓指数取值为-1,则所有个案 都处在不包含自己的类别的中心上,这代表聚类分析完全错误的情况。一个聚类结果模型中,个案距离自 己所在类别的中心比距离其不属于的类别中心近,就说明所选聚类模型是好的。因此从轮廓指数可以把模 型分为优,中,差三等。
前言
大数据时代需要强有力的统计工具对数据进行处理,从而发现有价值的信息,
以便指导实际工作。数据挖掘的各种工具中,以多变量分析技术应用最为广
泛, 即同时分析多个变量(即多个维度)关系的统计方法。
在商业及社会科学研究中,多变量分析方法主要包括聚类分析、判别分析、
因子分析等,这些分析方法的结果都能以图形的方式直观地呈现。
我们仍以案例9-1中我国各地区的经济指标数据为例,演示系统聚类的SPSS操作过程。
9.1 聚类分析
9.1.3
系统聚类
系统聚类的SPSS过程
步骤1:打开数据“经济指标.sav”,依次 选择【分析(A)】→【分类(F)】→ 【系统聚类(H)】命令。
9.1 聚类分析
9.1.3
系统聚类
系统聚类的SPSS过程
9.1.2
K-均值聚类
K-均值聚类的SPSS过程
步骤5:单击【选项(O)】按钮,进入选 项对话框,勾选【统计量】选项组的【初 始聚类中心(I)】和【ANOVA表(A)】 选项。点击【继续】按钮回到主对话框
9.1 聚类分析
K-均值聚类的SPSS过程
步骤6:结果解释。
(1)聚类过程。初始聚类中心为 计算机随机选取的5个个案,它们 在各变量上的取值如表9-1所示。 经过K-均值聚类算法的迭代,5个 类别的中心随着邻近个案的加入 不断更新。
K-均值聚类
K-均值聚类的SPSS过程
步骤6【续】: (1)……。最后的5个类别的中 心呈现在表9-3中。
9.1 聚类分析
K-均值聚类的SPSS过程 步骤6【续】: (2)类别差异检验。聚类分析得到的这 5个类别是否可取?即它们是否满足类别
内同质,类别间异质的要求呢?表9-4的
方差分析给出了答案,从显著性水平看p 值都为“0.000”,都是小于显著性水平
的,即p<α =0.05,说明每一个变量在最
后得到的5个类别间都存在显著差异。
9.1 聚类分析
K-均值聚类的SPSS过程 步骤6:结果解释。 (3)个案归属。最后我们需要知道是哪些个案 被分到了这5类中,表9-5给出了每一类包含的个
案总数。而在原来的数据中产生了两列变量
“QCL_1”和“QCL_2”,分别表示个案所属的 类别和与所在类别中心的距离,如图所示。每个 顾客群被划分为不同的类别,商家就可以根据他 们各自的特点进行市场细分,从而制定更为有效 的措施以区别化应对不同的顾客。
为止。
无论是凝聚法还是分裂法,用户都可以指定期望的类的个数作为算法的终止条件。
9.1 聚类分析
9.1.3 系统聚类
两个类别之间的距离是算法的基础。类别间的距离称为连接度量,它代表了将两簇个案间的相 似度的综合。常用的连接度量有:
最小距离:类别间距离定义为两个类别各自包含的个案间距离的最小值。使用该距离的算法被
前言
聚类分析和判别分析属于将个案分类的方法,而因子分析则是将变量分组的
降维方法。
根据事先是否固定类别或组别来看,聚类分析属于无监督学习,判别分析属
于监督学习(机器学习)。
因子分析分为探索性和验证性两种。 本章着重介绍上述方法的基本原理、SPSS操作步骤及结果解释。
9.1 聚类分析
9.1 聚类分析
9.1.2
K-均值聚类
K-均值聚类的SPSS过程
步骤6【续】: (1)……表9-2中显示了每一次迭代后 这5个中心变动的距离,第20次迭代后 中心距离不再更改,即值都已经变为
“0”,迭代便终止。最后的5个类别的
中心呈现在表9-3中。
9.1 聚类分析
9.1.2
9.1 聚类分析
9.1.1
两步聚类
两步聚类的SPSS过程
步骤2:单击【两步聚类(T)】进入两步 聚类主对话框,除“地区”这一变量外, 把其余各项经济指标置入【连续变量(C)】 框中,由于都是连续变量,所以在【距离 度量】处选择【Euclidean(N)】(欧式距 离) 。
9.1 聚类分析
(1)聚类结果。一个名为“TSC_3678”的新变量
分到同一类,以取值“1”表示,而其余的地区则
被分到类别“2”。
9.1 聚类分析
两步聚类的SPSS过程
步骤4:结果解释。
(2)聚类效果评估。在输出窗口中,SPSS给 出了聚类模型的评价,用于聚类的变量为8个, 最后将个案分为2类。“针对凝聚性和分离性 的Sihouette测量”图中显示的便是轮廓指标 的数值,由图上可以看出,本次聚类结果得 到的值接近1.0,被评价为“较佳”的结果。
迭代反复进行直到分类稳定,即新一轮个案分配到的簇固定不再更改为止。实际应用中,
达到指定的迭代次数也可终止算法。
9.1 聚类分析