当前位置:文档之家› ppt 第11章 聚类分析与判别分析

ppt 第11章 聚类分析与判别分析


• 11.5.1 系统聚类 本次实验的系统聚类都是凝聚系统聚类,为了控制变量, 都采用平Euclidean距离。 11.5.1.1 最短距离聚类法 最短距离法聚类步骤如下: 1.规定样本间的距离,计算样本两两之间的距离,得到对称 矩阵。开始每个样品自成一类。 2.选择对称矩阵中的最小非零元素。将两个样品之间最小距 离记为D1,将这两个样品归并成为一类,记为G1。
11.5 案例分析一
• 聚类分析是将物理或者抽象对象的集合分成相似的对 象类的过程。本次案例我将对同一批数据做两种不同的类 型的聚类;它们分别是系统聚类和K-mean聚类。其中系统 聚类的聚类方法也采用3种不同方法,来考察对比它们之 间的优劣。由于没有样本数据,因此不能根据其数据做判 别分析。评价标准主要是观察各聚类方法的所得到的类组 间距离和组内聚类的大小。分析数据依然采用线性回归所 使用的标准化后的能源消费数据data9-1。
• 11.2.2个体与小类、小类与小类间“亲疏程度”的度量方 法 SPSS中提供了多种度量个体与小类、小类与小类间“亲疏 程度”的度量方法。与个体间“亲疏程度”的测度方法类 似,应首先定义个体与小类、小类与小类的距离。距离小 的关系“亲密”,距离大的关系“疏远”。这里的距离是 在个体间距离的基础上定义的,常见的距离有:
11.3 K-Means聚类
虽然层次聚类能够得到多个分类解,但其执行效率并不十 分理想,K-Means聚类则能有效地解决该问题。 11.3.1 K-Means聚类分析的核心步骤 第一步,指定聚类数目K 在K-Means聚类中,应首先要求用户自行给出需要聚成多 少类,最终也只能输出关于它的唯一解。这点不同于层次 聚类。 第二步,确定K个初始类中心 在指定了聚类数目K后,还需要指定这K个类的初始类中心 点。
11.1.2聚类分析中“亲疏程度”的度量方法
• 聚类分析中,个体之间的“亲疏程度”是极为重要的 ,它将直接影响最终的聚类结果。对“亲疏程度”的测度 一般有两个角度:第一,个体间的相似程度;第二,个体 间的差异程度。衡量个体间的相似程度通常可采用简单相 关系数或等级相关系数等。个体间差异程度通常通过某种 距离来测度,这里将对此做重点讨论。 • 为定义个体间的距离应先将每个样本数据看成k维空间上 的一个点。通常,点与点之间的距离越小,意味着它们越 “亲密”,越有可能聚成一类。点与点之间的距离越大, 意味着它们越“疏远”,越有可能分别属于不同的类。
3.计算G1与其他样品距 离。重复以上过程直 到所有样品合并为一 类。 我们在SPSS中实现最 短距离分析非常简单 。单击【分析】【分 类】【系统聚类】。 将弹出如图11-1所示 的对话框,设置相应 的参数即可。
• 11.5.1.2 组间联接聚类
• 11.5.1.3 Ward法聚类 • Ward即离差平方和法。它的思想是,同类离 差平方和较小,类间偏差平方和较大。Ward 方法并类时总是使得并类导致的类内离差平方 和增量最小。 公式:
bc J ( x, y ) abc
• 11.1.3聚类分析几点说明 应用聚类分析方法进行分析时应注意以下几点: 所选择的变量应符合聚类的要求 聚类分析是在所选变量的基础上对样本数据进行分类,因 此分类结果是各个变量综合计量的结果。在选择参与聚类 分析的变量时,应注意所选变量是否符合聚类的要求。 各变量的变量值不应有数量级上的差异 聚类分析是以各种距离来度量个体间的“亲疏”程度的。 从上述各种距离的定义来看,数量级将对距离产生较大影 响,并影响最终的聚类结果。 各变量间不应有较强的线性相关关系
递推公式:
• 11.5.1.4 K-mean聚类 K-mean聚类是用户指定类别数的大样本资料的逐步聚类分 析。所谓逐步聚类分析就是先把被聚对象进行初始分类, 然后逐步调整,得到最终K个分类。K-mean法对离群点敏 感容易扭曲数据分布。 单击【分析】→【分类】→【K-均值聚类】将弹出如图11-5 所示的对话框,我们根据系统聚类法的经验将K选择为5。 迭代次数和系统聚类一样选择25次。
• 第三步,根据距离最近原则进行分类 依次计算每个样本数据点到K个类中心点的欧式距离,并 按照距K个类中心点距离最短的原则将所有样本分派,形 成K个分类。 • 第四步,重新确定K个类中心 中心点的确定原则是,依次计算各类中k个变量的均值, 并以均值点作为K个类的中心点。 • 第五步,判断是否已满足终止聚类分析的条件 聚类分析终止的条件有两个:第一,迭代次数。第二,类 中心点偏移程度。
组间平均链锁法利用了个体与小类的所有距离的信息,克 服了最近邻居距离或最远邻居距离中距离易受极端值影响 的弱点。 • 组内平均链锁(Within-groups linkage)距离 个体与小类间的组内平均链锁距离是该个体与小类中每个 个体距离以及小类内各个体间距离的平均值。 组内平均链锁法中的距离是所有距离的平均值。与组间平 均链锁法相比较,它在聚类的每一步都考虑了小类内部相 似性的变化。 • 重心(Centroid clustering)距离 个体与小类间的重心距离是该个体与小类的重心点的距离 。小类的重心点通常是由小类中所有样本在各个变量上的 均值所确定的数据点。
11.2层次聚类
• 11.2.1层次聚类的两种类型和两种方式 层次聚类又称为系统聚类,简单地讲是指聚类过程是按照 一定层次进行的。层次聚类有两种类型,分别是Q型聚类 和R型聚类;层次聚类的聚类方式又分两种,分别是凝聚 方式聚类和分解方式聚类。 Q型聚类 Q型聚类是对样本进行聚类,它使具有相似特征的样本聚 集在一起,使差异性大的样本分离开来。 R型聚类 R型聚类是对变量进行聚类,它使具有相似性的变量聚集 在一起,使差异性大的变量分离开来,可在相似性变量中 选择少数具有代表性的变量参与其他分析,实现减少变量 个数,达到变量降维的目的。
• 凝聚方式聚类 • 凝聚方式聚类的过程是,首先,每个个体自成一类;然 后,按照某种方法度量所有个体间的亲疏程度,并将其中 最“亲密”的个体聚成一小类,形成n-1个类;接下来, 再次度量剩余个体和小类间的亲疏程度,并将当前最亲密 的个体或小类再聚成一类;重复上述过程,不断将所有个 体和小类聚集成越来越大的类,直到所有个体聚到一起, 形成一个大类为止。可见,在凝聚方式聚类过程中,随着 聚类的进行,类内的“亲密”程度在逐渐降低。对n个个 体通过n-1步可凝聚成一大类。
• 11.1.2.2计数变量个体间距离的计算方式 如果所涉及的k个变量都是计数(Count)的非 连续变量,那么个体间距离的定义通常有以下 几种方式: 卡方(Chi-Square measure)距离 两个体(x、y)间卡方距离的数学定义为
( xi E ( xi )) 2 k ( yi E ( yi )) 2 CHISQ( x, y ) E ( xi ) E ( yi ) i 1 i 1
• SPSS中的层次聚类采用的是凝聚方式 • 由此可见,层次聚类法中,度量数据之间的亲疏程度是 极为关键的。那么,如果衡量数据间的亲疏程度呢?这涉 及两个方面的问题,一是如何度量个体间的亲疏程度;二 是如何度量个体与小类之间、小类与小类之间的亲疏程度 。测度个体间亲疏程度的方法在前面已经讨论过,这里将 重点讨论如何测度个体与小类、小类与小类间的亲疏程度 。
第十一章SPSS的聚类分析
• 11.1聚类分析的一般问题 • 11.1.1聚类分析的意义 聚类分析是统计学中研究“物以类聚”问题的多元统计分 析方法。聚类分析在统计分析的应用领域已经得到了极为 广泛的应用。 理解聚类分析的关键是理解何谓“没有先验知识”以及“ 亲疏程度”。所谓“没有先验知识”是指没有事先指定分 类标准;所谓“亲疏程度”是指在各变量(特征)取值上 的总体差异程度。聚类分析正是基于此实现数据的自动分 类的。
• 11.6案例分析二 • 利用全国30个省市自治区经济发展基本情况的八项指 标数据(见数据集data11-1.),用系统聚类法对这30个省 市自治区作一初步的分类,并说明各类地区经济发展的特 点。
• 11.6.1 操作 • 【分析(Analyze)】→【分类(Classify)】→【系统 聚类(Hierarchical Cluster)】打开系统聚类分析( Hierarchical Cluster Analysis)对话框 • 1.变量(Variable(s))列表框 设置分析变量。 • 2.标志个案(Label Cases by)框 设置分析对象的标志变 量。 • 3.分群(Cluster)单选择框 设置聚类分析的类型。 • 4.输出(Display)复选择框 设置聚类分析的输出结果, 统计量和图都是默认选项。

聚类分析是以各种距离来度量个体间的“亲疏”程度 的。从各种距离的定义来看,所选择的每个变量都会在距 离中做出“贡献”。如果所选变量之间存在较高的线性关 系,能够互相替代,那么计算距离时同类变量将重复“贡 献”,将在距离中有较高的权重,因而使最终的聚类结果 偏向该类变量。
• 分解方式聚类 • 分解方式聚类的过程是,首先,所有个体都属一大类 ;然后,按照某种方法度量所有个体间的亲疏程度,并大 类中彼此间最“疏远”的个体分离出去,形成两类(其中 一类只有一个个体);接下来,再次度量剩余个体和小类 间的亲疏程度,并将类中最“疏远”的个体再分离出去; 重复上述过程,不断进行类分解,直到所有个体自成一类 为止。可见,在分解方式聚类过程中,随着聚类的进行, 类内的“亲密”程度在逐渐增强。对包含n个个体的大类 通过n-1步可分解n个个体。
11.4 判别分析
• 11.4.1什么是判别分析 判别分析产生于20世纪30年代,是利用已知类别的样本建 立判别模型,为未知类别的样本判别的一种统计方法。近 年来,判别分析在自然科学、社会学及经济管理学科中都 有广泛的应用。判别分析的特点是根据已掌握的、历史上 每个类别的若干样本的数据信息,总结出客观事物分类的 规律性,建立判别公式和判别准则。当遇到新的样本点时 ,只要根据总结出来的判别公式和判别准则,就能判别该 样本点所属的类别。判别分析按照判别的组数来区分,可 以分为两组判别分析和多组判别分析。
相关主题