聚类和判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*第九章聚类和判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*聚类和判别分析简介基本概念()聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量以这些统计量为划分类型的依据把一些相似程度较大的样本(或指标)聚合为一类把另外一些彼此之间相似程度较大的样本又聚合为一类。
根据分类对象的不同聚类分析可分为对样本的聚类和对变量的聚类两种。
()判别分析判别分析是判别样本所属类型的一种统计方法。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*聚类和判别分析简介基本概念()二者区别不同之处在于判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上根据某些准则建立判别式然后对未知类型的样本进行差别分析。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*样本间亲疏关系的度量()连续变量的样本间距离常用度量主要方法有欧氏距离(EuclideanDistance)、欧氏平方距离(SquaredEuclideanDistance)、切比雪夫距离(ChebychevDistance)、明可斯基距离(MinkowskiDistance)、用户自定义距离(CustomizeDistance)、Pearson相关系数、夹角余弦(Cosine)等。
(公式见教材表)()顺序变量的样本间距离常用度量常用的有统计量(Chisquaremeasure)和统计量(Phisquaremeasure)。
具体计算公式参见节表。
聚类和判别分析简介SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类基本概念及统计原理()基本概念二阶聚类(TwoStepCluster)(也称为两步聚类)是一个探索性的分析工具()为揭示自然的分类或分组而设计是数据集内部的而不是外观上的分类。
它是一种新型的分层聚类算法(HierarchicalAlgorithms),目前主要应用到数据挖掘(DataMining)和多元数据统计的交叉领域模式分类中。
该过程主要有以下几个特点:分类变量和连续变量均可以参与二阶聚类分析该过程可以自动确定分类数可以高效率地分析大数据集用户可以自己定制用于运算的内存容量。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类基本概念及统计原理()统计原理两步法的功能非常强大而原理又较为复杂。
他在聚类过程中除了使用传统的欧氏距离外为了处理分类变量和连续变量它用似然距离测度它要求模型中的变量是独立的分类变量是多项式分布连续变量是正态分布的。
分类变量和连续变量均可以参与两步聚类分析。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类基本概念及统计原理()分析步骤第步构建聚类特征树:对每个观测变量考察一遍确定类中心。
根据相近者为同一类的原则计算距离并把与类中心距离最小的观测量分到相应的各类中去。
这个过程称为构建一个分类的特征树(CF)。
第步对聚类特征树的节点进行分组:为确定最好的类数对每一个聚类结果使用Akaik判据(AIC)或贝叶斯判据(BIC)作为标准进行比较得出最后的聚类结果。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类SPSS实例分析【例】某机构为了调查学生性别和所学专业与毕业后初始工资的情况调查抽取了个学生的数据如表所示(其中“性别”代表男性代表女性“学科”代表农学代表建筑代表地质代表商务代表林学代表教育代表工程代表艺术)试根据样本指标进行聚类分析。
(数据参见教材P)第步分析:由于自变量中不仅有连续属性也有分类变量故采用二阶聚类进行分析。
第步数据组织:按表所示定义变量输入数据并保存。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类第步二阶聚类设置:按“分析→分类→两步聚类”顺序打开“二阶聚类分析”对话框并按下图进行设置。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类第步主要结果及分析:二阶聚类的模型概要和聚类质量情况从中可以看出此算法采用的是两步(二阶)聚类共输入个变量将所有个案聚成类。
聚类的平均轮廓值为(其范围值为~值越大越好)说明聚类质量较好。
聚类个案情况图可以看出各类所占的比例情况SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类第步主要结果及分析:各个案所属的分类号情况SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类基本概念及统计原理()基本概念K均值聚(也称快速聚类)是由用户指定类别数的大样本资料的逐步聚类分析。
它先对数据进行初始分类然后逐步调整得到最终分类数。
分类变量和连续变量均可以参与两步聚类分析。
()统计原理如果选择了n个数值型变量参与聚类分析最后要求聚类数为k。
由系统首先选择k个观测量(也可以是用户指定)作为聚类的目标n 个变量组成n维空间。
每个观测量在n维空间中是一个点。
K个事先选定的观测量就是k个聚类中心也称为初始类中心。
按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去形成第一次迭代形成的k类。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类根据组成每一类的观测量计算每个变量的均值每一类中的n个均值在n维空间中又形成k个点这就是第二次迭代的类中心。
按照这种方法迭代下去直到达到指定的迭代次数或达到中止迭代的判据要求时迭代就停止了聚类过程也就结束了。
()分析步骤第步指定聚类数目k第步确定k个初始类中心第步根据距离最近原则进行分类第步重新确定k个类中心第步迭代计算。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类SPSS实例分析【例】测量名大学生对《高等数学》的心理状况和学习效果主要包括四个因素:学习动机、学习态度、自我感觉、学习效果具体数据如下表所示。
试将该名学生分成类以分析不同心理状况下学生的学习效果。
编号学习动机学习态度自我感觉学习效果SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类第步分析:由于已知分成类故可采用K均值聚类法。
第步数据组织:按如上表的表头所示建立变量将“编号”变量的数据类型设为字符型(作为标识变量)。
第步快速聚类设置按“分析→分类→K均值聚类”顺序打开“K 均值聚类分析”对话框将“学习动机”、“学习态度”、“自我感觉”、“学习效果”四个变量选入“变量”列表框。
将“编号”变量移入“个案标记依据”框中将“聚类数”设为。
其余“迭代”、“保存”和“选项”设置参见教材。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类第步主要结果及分析:初始聚类中心表由于没有指定初始聚类中心列出了由系统指定的类中心。
与原数据比较发现它们分别是第、第和第号个案。
Cluster学习动机学习态度自我感觉学习效果SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类第步主要结果及分析:迭代历史表由表可知第一次迭代后个类的中心点分别变化了和。
一共进行了次迭代达到聚类结果的要求(达到最大迭代次数)聚类分析结束。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类最终聚类中心表如第类的学习动机值为学习态度值为自我感觉值为学习效果值为。
样本数情况可看出第类中分别含有个样本聚类学习动机学习态度自我感觉学习效果聚类有效缺失SPSS(中文版)统计分析实用教程(第版)电子工业出版社*K均值聚类分类保存情况查看数据文件可看到多出两个变量分别表示每个个案的具体分类归属和与类中心的距离。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*系统聚类基本概念与统计原理()基本概念系统聚类是效果最好且经常使用的方法之一国内外对它进行了深入的研究系统聚类在聚类过程中是按一定层次进行的。
具体分成两种分别是Q型聚类和R型聚类Q型聚类是对样本(个案)进行的分类它将具有共同特点的个案聚集在一起以便对不同类的样本进行分析R型聚类是对变量进行的聚类它使具有共同特征的变量聚在一起以便对不同类的变量进行分析。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*系统聚类基本概念与统计原理()统计原理系统聚类是根据个案或变量之间的亲疏程度将最相似的对象聚集在一起。
根据系统聚类过程的不同又分为凝聚法和分解法两种。
凝聚法的原理是将参与聚类的每个个案(或变量)视为一类根据两类之间的距离或相似性逐步合并直到合并为一个大类为止分解法的原理是将所有个案(或变量)都视为一类然后根据距离和相似性逐层分解直到参与聚类的每个个案(或变量)自成一类为止。
在层次聚类中度量数据之间的亲疏程度是极为关键的。
在衡量样本与样本之间的距离时一般使用的距离有EulcideanDistance、SquaredEuclideanDistance、切比雪夫距离、Block 距离、明可斯基距离(Minkowshi)、夹角余弦(Cosine)等。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*系统聚类基本概念与统计原理()统计原理衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下种:最短距离法(NearestNeighbor)最长距离法(FurthestNeighbor)类间平均链锁法(BetweengroupsLinkage)类内平均链锁法(WithingroupsLinkage)重心法(CentriodClustering)中间距离法(MedianClustering)离差平方和(Ward’sMethod)。
SPSS(中文版)统计分析实用教程(第版)电子工业出版社*系统聚类SPSS实现举例【例】已知例儿童的血中血红蛋白、钙、镁、铁、锰、铜的含量如下表试对数据进行变量聚类分析。
ordercamgfemncuhemoglordercamgfemncuhemoglSPSS(中文版)统计分析实用教程(第版)电子工业出版社*系统聚类第步分析:根据题目要求需进行变量聚类分析(即R型聚类)故采用系统聚类分析中的R型聚类进行处理。
第步数据组织:如上表定义七个变量:“order”(编号)、“ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、“cu”(铜)和“hemogl”(血红蛋白)其中“order”为字符串型其余变量为数值型。