当前位置：文档之家› 第十一章聚类分析

第十一章聚类分析

2、不是一种统计推论技术。而是将一组观察值的结构特性予以数量化的一种客观方法。因此，在推论统计中非常重要的正态性、线性和方差齐性等要求，对聚类分析几乎没什么作用。但如果变量间有多重共线性，则会影响聚类分析的结果。
返回二级菜单
多重共线性是指特征变量之间存在精确的相关关系或高度相关关系。
Id 1 2 3 4 5 6 7 8 9 10 11 12 a b c d e f g h i j k l X1 24 20 20 25 22 21 21 22 21 24 22 21 X2 20 17 19 20 18 17 19 18 20 19 17 X3 25 22 24 24 23 21 25 22 23 25 23 22
1、聚类分析，又称集群分析（Cluster Analysis），是一种常用的多元统计方法，是根据事物之间的相似性和相异性，将事物归入到不同的“类”中去的过程。这里的“类”，数学上也叫“集群”，是指由某方面性质相同或相似的事物组成的集合。

2、“物以类聚，人以群分”。在科学研究工作中，最基础的一项工作就是对研究对象进行分类，以便更好地把握对象的实质规律。聚类分析能够很好地帮助人们对研究对象进行数值分类。
第十一章聚类分析

一、聚类分析概述
二、相似性的衡量三、层次聚类分析四、非层次聚类分析

五、聚类分析的SPSS过程
一、聚类分析概述

（一）什么是聚类分析
（二）聚类分析的目的与原则（三）聚类分析的性质（四）聚类分析要解决的基本问题（五）聚类分析的基本流程

什么是聚类分析？

有时也可基于实际考量而设定某些决定“类”数目的准则，例如：“如果 “类”数介于3-6之间，则研究发现将较易处理和沟通”。等等。

返回
“类”的解释

一旦经由聚类分析而找出“类”后，我们应设法来描述这些“类”。常用的一种方法是以“类”的重心——即“类”内的各事物点在各变量上的平均数值，来描述该“类”。（条件：等距资料，在原始变量的空间上进行聚类。）此外，我们还可以计算“类”的变异情形，如“类”内各点间的平均距离或各点与重心间的平均距离，来辅助描述该“类”。

所谓完备的指标体系，是说入选的指标是充分的，其他任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备，则导致分类偏差。比如要对家庭教养方式进行分类，就要有描述家庭教育方式的一系列变量，这些变量能够充分地反映不同家庭对子女的教养方式。

简单地说，聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠，得到的分类结果越是能描述事物各类间的本质区别。
(ba) c d e (ba) 0 D d ik c 6 0 d 5 3 0 e 6 10 11 0 在此一新的距离矩阵，因为d cd 3为最小，故将c与d合并得一“类”（ c, d），再计算（c, d）到其他“类”的最小距离： d (c,d)(b, a) min(d c(ba) , d d(ba) ) min(6,5) 5 d (c,d)e min(d ce , d de ) min(10,11) 10 可得一新的距离矩阵如下： (ba) （cd） e (ba) 0 D d ik (cd) 5 0 e 6 10 0
三、层次聚类分析

将成对事物间的相似性加以衡量后，接着应利用聚类方法将各事物归入““类”” 中。聚类的方法有好多种，常见的有层次聚类和非层次聚类两大类，后者以K平均数法（K-Means methods）应用较广，又称快速聚类法。＊＊层次聚类方法：通常是把观测样本中的每一个个案或指标体系中的每一个变量看作是一个独立的小类，计算它们所有的两两之间的距离，在比较这些距离后把距离最小的两个聚为一个小类。然后计算这个新类与其他各类之间的距离，再把其中距离最小的聚为一类，如此不断地进行下去，直到所有个体或所有变量聚为一个大类为止。当然，也可以用相反的过程，即，先把所有的事物视为一个大类，然后再依据相似性的准则把各事物划分成较不相似的两个类，如此继续下去直到所有的事物都自成一个类为止。这两种过程，前者称为“集结式层次聚类方法”，后者称为 “区分式层次聚类方法” 层次聚类不仅可以将个案或变量分为若干类，而且可以形成一个类属间的层次关系，还可以依据分类的过程绘制个体或变量的谱系关系图。
1. 聚类分析的前期准备工作聚类分析是以完备的数据文件为基础的，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致。
所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。
2. 聚类分析的主要方法 Q聚类分析：
对个案进行分类。使具有共同特征的个案聚集在一起。

单一连锁法举例
设有一包含五个事物点的距离矩阵如下： a a b D d ik c d e 0 2 6 7 6 0 9 5 0 3 0 b c d e
8 10 11 0
首先将最近的两个事物合并，因为d ba 2最小，故得一“类”（b，a）。然后计算（ b，a）到其他“类”的最小距离： d (b,a)c min(d bc , d ac ) min(9,6) 6 d (b,a)d min(d bd , d ad ) min(5,7) 5 d (b,a)e min(d be 5, d ae ) min(8,6) 6 得一新的距离矩阵如下：

集结式层次聚类方法的演算步骤

1、设有n个事物，首先每个事物均自成一个“类”，并列成一个n×n的对称距离（或相似）矩阵D={dik}。 2、从距离矩阵中找出最近的（最相似的）两个“类”u和v，设其距离为duv。 3、将u和v 这两个“类”合并，成为“类”（uv）。将原距离矩阵中相对应于 “类”u 和“类”v的行和列删除，然后加上一个新的行和列，表明“类” （uv）和其他“类”之间的距离。
ij

k 1
ik
jk
欧氏距离平方：公式略。绝对值距离：两个体在每一个变量上取值之差的绝对值的总和。切比雪夫距离：两个体在任意一个变量上取值之差的绝对值的最大值。等等；
2、计数数据：卡方相似性测度：公式略。等等； 3、二分变量：二值欧氏距离、二值欧氏距离平方等等。
d ij max X ik X jk
层次聚类分析聚类分析
R聚类分析：对观察变量进行分类。
非层次聚类分析：它先对数据进行初始分类，然后逐步调整，得到最后分类。
以快速聚类法（K- Means methods）应用最广泛，是由研究者指定类别数的大样本资料的逐步聚类分析，。
返回
类数的决定

“类”数目的决定是聚类分析的一项重要决策。但尚无一个客观的标准程序可供遵循，通常，以各连续分类步骤下“类”间的距离作为参考。例如，可以事先设定一个距离，一旦“类”间的实际距离超过此一预定的距离时就停止继续聚类；或是当两个聚类步骤间的“类”距离剧增时就停止聚类。
3、在心理学研究中, 经常遇到的分类包括两种情况：一是对研究样本或个案的分类, 即根据每个个案的一系列观测指标，将那些在这些观测量方面表现相近的个案归为一类, 将那些在这些观测量方面的表现很不相同的个案归为不同类；二是对观测量的分类，即将一系列的观测量归类合并为性质明显不同的少数几个方面。也就是说，在SPSS的聚类分析功能中，可以对数据文件的“行”进行分类，也可以对数据文件的“列”进行分类。
dij X ik X jk
k 1
m

关联衡量

1、个案之间的相似性：如果事物的属性全部以名义变量来表示时，则两事物之间的相似性可以用配合系数（matching coefficient）或相似比（similarity ratio）来衡量。配合系数： Sij a b , 式中， a为i和j这两个事物共同具有的属性数目， b为i和j共同不具有的属性数目，m为属性总数。

4、重复第2步和第3步骤n-1次，直到所有的事物并入同一“类”为止。
集结式层次聚类方法之连锁法（linkage methods）

1、单一连锁法。以最小的点际距离作为“类”间的距离，故又称为最小距离法或最近邻法。 2、完全连锁法。以最大的点际距离为“类”间的距离，故又称为最大距离法或最远邻法。 3、平均连锁法。以平均点际距离作为“类”间的距离，故又称为平均距离法。
聚类分析要解决的基本问题

主要解决三个基本问题： 1、我们如何衡量各事物之间的相似性？ 2、假设我们能衡量每一个事物与其他事物的相对相似性，我们又要如何将相似的事物归入同一“类”内？ 3、当聚类完成后，如何来描述这些“类”？同时又如何知道所得到的类别（集群）是真实的，而不是某种统计上的加工品？
返回
（三）相似性的衡量

各事物间相似程度的衡量方法有好多种，大致可分成两大类： 1、距离衡量（distance measures）。 2、关联衡量（association measures）。
返回
距离衡量

很多相似性的衡量是以点与点间的距离为代表。点与点间距离的计算方法有很多，根据数据的不同类型，可以选择不同的计算距离： 1、连续的等距数据：欧几里得距离： d m ( X X ) 2

返回二级菜单
聚类分析的基本流程

（一）研究问题（探索性的还是验证性的？）（二）变量的选择（三）相似性的衡量（四）聚类方法的选择（五）“类数” 的决定（六）“类”的解释（七）“类”的验证
返回二级菜单
（二）变量的选择

e商务文档

第十一章聚类分析

相关文档推荐：

e商务文档

第十一章 聚类分析

相关文档推荐：

第十一章聚类分析