第9章 聚类分析
各变量的变量值不应有数量级上的差异(对数据进行标准化处理): 聚类分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种 距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类 结果。
各变ห้องสมุดไป่ตู้间不应有较强的线性相关关系
学校
参加科研 人数
(人)
投入经费 (元)
立项课题 数(项)
样本的欧氏距离
• 聚类分析中,个体之间的“亲疏程度”是极为重要 的,它将直接影响最终的聚类结果。对“亲疏”程 度的测度一般有两个角度:第一,个体间的相似程 度;第二,个体间的差异程度。衡量个体间的相似 程度通常可采用简单相关系数等,个体间的差异程 度通常通过某种距离来测度。
• 为定义个体间的距离应先将每个样本数据看成k维 空间的一个点,通常,点与点之间的距离越小,意 味着他们越“亲密”,越有可能聚成一类,点与点 之间的距离越大,意味着他们越“疏远”,越有可 能分别属于不同的类。
Cluster 1 Cluster 2
0
0
0
0
0
1
2
3
Next Stage 3 4 4 0
上表中,第一列表示聚类分析的第几步;第二、 三列表示本步聚类中哪两个样本或小类聚成一类; 第四列式个体距离或小类距离;第五、六列表示本 步聚类中参与聚类的是个体还是小类,0表示样本, 非0表示由第n步聚类生成的小类参与本步聚类;第 七列表示本步聚类的结果将在以下第几步中用到。
Q型聚类:对样本进行聚类,使具有相似特征的样本聚 集在一起,差异性大的样本分离开来。
R型聚类:对变量进行聚类,使具有相似性的变量聚集 在一起,差异性大的变量分离开来,可在相似变量中选 择少数具有代表性的变量参与其他分析,实现减少变量 个数,达到变量降维的目的。
凝聚方式聚类:其过程是,首先,每个个体自成一类; 然后,按照某种方法度量所有个体间的亲疏程度,并将 其中最“亲密”的个体聚成一小类,形成n-1个类;接下 来,再次度量剩余个体和小类间的亲疏程度,并将当前 最亲密的个体或小类再聚到一类;重复上述过程,直到 所有个体聚成一个大类为止。可见,这种聚类方式对n个 个体通过n-1步可凝聚成一大类。
层 次 聚 类 中 的 凝 聚 状 态 表 Agglome ra tion Schedule
Stage 1 2 3 4
Cluster Combined
Cluster 1 Cluster 2
4
5
1
2
3
4
1
3
Co effi ci e nts 3.606 8.062
11.013 28.908
Stage Cluster First Appears
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离
3、二值(Binary)变量个体间距离的计算方式
简单匹配系数(Simple Matching) 雅科比系数(Jaccard)
注:聚类分析的几点说明
所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映 我们研究的目的;
第九章
SPSS聚类分析
本章内容
• 9.1 聚类分析的一般问题 • 9.2 层次聚类 • 9.3 K-Means聚类
9.1 聚类分析的一般问题
• 9.1.1 聚类分析的意义
聚类分析是统计学中研究“物以类聚”问题的多元统 计分析方法。
例如,大型商厦收集客户的人口特征、消费行为和喜好方面的 数据,并希望对这些客户进行特征分析。可从客户分类入手, 根据客户的年龄、职业、收入、消费金额、消费频率、喜好 等方面进行单变量或多变量的分组。但这种分组具有较强的 主观色彩,要求有丰富的行业经验才能得到较合理的客户细 分。否则得到的分组可能无法充分反映和展现客户的特点, 主要表现在,同一客户细分组中的客户在某些特征方面并不 相似,而不同客户细分组中的客户在某些特征方面又很相似。 为解决该问题,会希望从数据本身出发,充分利用数据进行 客户的客观分组,使诸多特征相似的客户分在同一组内,而 不相似的客户分在不同的组中,这便可采用聚类分析方法。
分解方式聚类:其过程是,首先,所有个体都属一大类; 然后,按照某种方法度量所有个体间的亲疏程度,将大 类中彼此间最“疏远”的个体分离出去,形成两类;接 下来,再次度量类中剩余个体间的亲疏程度,并将最疏 远的个体再分离出去;重复上述过程,不断进行类分解, 直到所有个体自成一类为止。可见,这种聚类方式对包 含n个个体的大类通过n-1步可分解成n个个体。
k
(xi yi )2 (73 66)2 (68 64)2 i1
平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离
max xi yi max( 7366 , 6864 )
Block距离
k
xi yi 73 66 68 64 i1
5、在Display框中选择输出内容。其中Statistics表 示输出聚类分析的相关统计量;Plot表示输出聚类 分析的相关图形。
6、单击Method按钮指定距离的计算方法。
Measure框中给出的是不同变量类型下的个体 距离的计算方法。其中Interval框中的方法适用于 连续型定距变量;Counts框中的方法适用于品质 型变量;Binary框中的方法适用于二值变量。 Cluster Method框中给出的是计算个体与小类、 小类与小类间距离的方法。
元
万元
1
410
4380000
19
(1,2) 265000
81623
2
336
1730000
21
(1,3) 218000
193700
3
490
220000
8
(2,3)
47000
254897
9.2 层次聚类
• 9.2.1 层次聚类的两种类型和两种方式
层次聚类又称系统聚类,简单地讲是指聚类过程是按 照一定层次进行的。层次聚类有两种类型,分别是Q型聚类 和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方 式聚类和分解方式聚类。
• 9.2.2 个体与小类、小类与小类间“亲疏程度”的
度量方法
SPSS中提供了多种度量个体与小类、小类与 小类间“亲疏程度”的方法。与个体间“亲疏程度” 的测度方法类似,应首先定义个体与小类、小类与 小类的距离。距离小的关系亲密,距离大的关系疏 远。这里的距离是在个体间距离的基础上定义的, 常见的距离有:
9.1 聚类分析的一般问题
• 9.1.1 聚类分析的意义
再如,学校里有些同学经常在一起,关系比较密切,而他们与 另一些同学却很少来往,关系比较疏远。究其原因可能会发 现,经常在一起的同学的家庭情况、性格、学习成绩、课余 爱好等方面有许多共同之处,而关系比较疏远的同学在这些 方面有较大的差异性。为了研究家庭情况、性格、学习成绩、 课余爱好等是否会成为划分学生小群体的主要决定因素,可 以从有关这些方面的数据入手,进行客观分组,然后比较所 得的分组是否与实际相吻合。对学生的客观分组就可采用聚 类分析方法。
7、如果参与聚类分析的变量存在数量级上的差异, 应在Transform Values框中的Standardize选项 中选择消除数量级差的方法。并指定处理是针对变 量的还是针对样本的。By variable表示针对变量, 适于 Q 型聚类分析;By case 表示针对样本,适 于R型聚类分析。
8、单击Statistics按钮指定输出哪些统计量
五 座 商 场 两 两 个 体 欧 氏 距 离 的 矩 阵 Proxi mity Ma trix
Case 1:A商 厦 2:B商 厦 3:C商 厦 4:D商 厦 5:E商 厦
1:A商 厦 .000
8.062 17.804 26.907 30.414
Euclidean Distance
2:B商 厦 3:C商 厦 4:D商 厦
聚类分析是一种建立分类的多元统计分析方法,它能够将
一批样本(或变量)数据根据其诸多特征,按照在性质上 的亲疏程度(各变量取值上的总体差异程度)在没有先验 知识(没有事先指定的分类标准)的情况下进行自动分类, 产生多个分类结果。类内部的个体在特征上具有相似性, 不同类间个体特征的差异性较大。
5
9.1.2 聚类分析中“亲疏程度”的度量方法
Agglomeration schedule表示输出聚类分 析的凝聚状态表;Proximity matrix表示输出个体 间的距离矩阵;Cluster Membership框中, None表示不输出样本所属类,Single Solution表 示指定输出当分成n类时各样本所属类,是单一解。 Range of solution表示指定输出当分成m至n类 (m小于等于n)时各样本所属类,是多个解。
树形图以躺倒树的形式展现了聚类分析中的每一次类 合并的情况。SPSS自动将各类间的距离映射到0~25之间, 并将凝聚过程近似地表示在图上。
层 次 聚 类 的 冰 挂 图 Vertic al Ic icle Case
5:E商 厦 4:D商 厦 3:C商 厦 2:B商 厦 1:A商 厦
Number of clusters
最近邻居(Nearest Neighbor)距离:个体与小类中每 个个体距离的最小值。 最远邻居(Furthest Neighbor )距离:个体与小类中 每个个体距离的最大值。 组间平均链锁(Between-groups linkage)距离:个 体与小类中每个个体距离的平均值。 组内平均链锁(Within-groups linkage)距离:个体 与小类中每个个体距离以及小类内各个体间距离的平均值。 重心(Centroid clustering)距离:个体与小类的重心 点的距离。重心点通常是由小类中所有样本在各变量上的均 值所确定的点。 离差平方和法(Ward’s method):聚类过程中使小类 内离差平方和增加最小的两小类应首先合并为一类。