当前位置:文档之家› 第六讲_聚类分析

第六讲_聚类分析

别分析(Discriminant Analysis)的内容;
第二种是研究对象不存在事前分类的情况,而
将数据进行结构性分类,属于聚类分析的内容。 聚类分析是研究“物以类聚”的一种多元统计分 析方法。
聚类分析和判别分析是研究多要素事物分类 的基本数量方法,广泛地应用于自然科学(如 地理学,医学,体育等)、社会科学、工农 业生产的各个领域。 在统计分析中,它的形成和发展相对较晚, 但它却是仅次于回归分析而较常用的一种方 法。
G3
G4 G5
0.20
0.44 0.03
0.15
0.38 0.03Fra bibliotek0.07
0.00 1.00
0.44
0.13 1.00
0.44
0.18 1.00
0.08
0.13 0.45
0.07
0.00 1.00
G6
G7 G8 G9
0.03
0.00 0.91 0.38
0.03
0.00 0.53 0.26
0.61
0.90 0.07 0.04
0.69
0.81 0.00 0.00
0.65
0.84 0.10 0.15
0.13
0.13 0.43 0.00
0.59
1.00 0.09 0.00
(二)距离的计算




如何度量远近? 如果想要对100个学生进行分类,如果仅仅知道他们 的数学成绩,则只好按照数学成绩来分类;这些成绩 在直线上形成100个点。这样就可以把接近的点放到 一类。 如果还知道他们的物理成绩,这样数学和物理成绩就 形成二维平面上的100个点,也可以按照距离远近来 分类。 三维或者更高维的情况也是类似;只不过三维以上的 图形无法直观地画出来而已。在饮料数据中,每种饮 料都有四个变量值。这就是四维空间点的问题了。 对于n个变量就是n维空间中的点。
过去人们主要靠经验和专业知识进行定性分类
处理,致使许多分类带有主观性和任意性,不能
很好地提示客观事物内在的本质差别与联系,特 别是对于多因素、多指标的分类问题。为了克服 定性分类的不足,有必要引入数学方法,形成了 数值分类法。
数值分类一般有两种情况
第一种是已知研究对象的分类情况,需将某些
未知个体正确地归属于其中某一类,这种情况属判
聚类分析


对于一个数据,我们既可以对变量(指标)进行分类(相当于对excel数 据表格中的列分类),也可以对观测值(事件,样本)来分类(相当于对 数据中的行分类)。 样品聚类:对地点、地区或样品等观测量(Case)进行聚类(不同的 目的选用不同的指标作为分类的依据),对样品或观测值聚类称为Q 型聚类。 变量聚类:对要素、指标或变量进行聚类。例如,在回归分析中由 于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的 影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的 自变量,而又不丢失大部分信息。因此,变量聚类可以减少自变量 的个数,简化问题。在生产活动中不乏有变量聚类的实例,如:衣 服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量 生产成为可能。对变量的聚类称为R型聚类, 在技术上,R型聚类可以看成是对原始数据矩阵转秩后进行的Q型聚 类,因此,两种聚类在数学上是对称的,没有什么不同。 具体分多少类,并不一定事先假定,事先也无需知道分类对象的分类结 构,完全可以按照数据本身的规律来分类。
6.02 3.64 4.77
(3.4.9)
5.53 2.93 4.06 0.83 1.07 1.66 1.20
0.88 2.24 1.29 5.14 3.96 5.03
0.51 4.84 3.06 3.32 1.40
对于类间距离:
若类Gp与类Gq之间的距离为Dpq,d(xi,xj)表示点
xi∈ Gp和xj ∈ Gq之间的距离,则:
i i
(3.4.4)
经过这种标准化所得的新数据,各要素的极大 值为1,极小值为0,其余的数值均在0与1之间。
例题:表3.4.2给出了某地区九个农业区的七项指标,它
们经过极差标准化处理后,如表3.4.3所示。
表3.4.2 某地区九个农业区的七项经济指标数据
区 代 号
G1 G2 G3 G4
人均耕地 x1(hm2/ 人)
点间距离和类间距离的计算
(1)点间距离的计算
常用的点间距离计算方法有:
无论是行、列,相似系数的计算一般有两种方法: 一种是夹角余弦;另一种是相关系数。
资源与环境科学系 罗庆研制
资源与环境科学系 罗庆研制
据表3.4.3中的数据,用绝对值距离公式
计算可得九个农业区之间的绝对值距离矩阵如下:
§3.4 系统聚类分析方法
聚类分析概要 系统聚类分析的方法



系统聚类分析应用实例 聚类分析的spss过程
聚类要素的数据处理 距离的计算 直接聚类法 最短距离聚类法 最远距离聚类法
一、聚类分析概要
区域政策分区
为了实现区 域经济协调 发展的目标, 国家通过推 进西部大开 发、振兴东 北老工业基 地、促进中 部地区崛起、 鼓励东部地 区加快发展 等一系列措 施,旨在形 成东中西互 动、优势互 补、相互促 进、共同发 展新格局。
比如饮料数据(drink.sav )

16种饮料的热量、咖啡因、钠及价格四种变量;可以 按第一列分类,也可以将第一行分类,从而进行降维 (减少自变量)处理。 但从表中可以看出,各要素或 指标的单位、数量级和数量变化的幅度都不一样。
假设有m 个聚类的对象,每一个聚类对象都有n 个要素构成。它们所对应的要素数据可用 3.4.1给出。 聚 类 对 象
x
i 1
ij
1
( j 1,2, , n)
② 标准差标准化,即
xij xij x j sj (i 1,2, , m; j 1,2, , n)
(3.4.2)
由这种标准化方法所得到的新数据(Z Scores),各 要素的平均值为0,标准差为1,即有
1 m x j xij 0 m i 1 sj 1 m ( xij x ) 2 1 j m i 1
(二)什么是聚类分析



聚类分析,亦称群分析或点群分析,它是按“物以类聚” 的原则来研究事物分类的一种多元统计分析方法。其基本 原理是,根据样本自身的属性,用数学方法按照某些相似 性或差异性指标,定量地确定样本之间的亲疏关系,并按 这种亲疏关系程度对样本进行聚类。 聚类原则是同一类中的个体有较大的相似性,不同类中的 个体差异很大。 聚类分析就是根据地理变量(样本或指标)的属性或特征 的相似性、亲疏程度,用数学的方法把它们逐步地分型划 类,最后得到一个能反映个体或站点之间、群体之间亲疏 关系的分类系统。
两个距离概念


按照远近程度来聚类需要明确两个概念:一个是点和点 之间的距离,一个是类和类之间的距离。 点间距离有很多定义方式。最简单的是欧氏距离,还有 其他的距离。 还有一些和距离相反但起同样作用的概念,比如相似性 或相似系数等,两点相似度越大,就相当于距离越短。 由一个点组成的类是最基本的类;如果每一类都由一个 点组成,那么点间的距离就是类间距离。但是如果某一 类包含不止一个点,那么就要确定类间距离。 类间距离是基于点间距离定义的:比如两类之间最近点 之间的距离可以作为这两类之间的距离,也可以用两类 中最远点之间的距离作为这两类之间的距离;当然也可 以用各类的中心之间的距离来作为类间距离。在计算时, 各种点间距离和类间距离的选择是通过统计软件的选项 实现的。不同的选择的结果会不同,但一般不会差太多。
在聚类分析中,常用的聚类要素的数据处理方法有
如下几种标准化法: ① 总和标准化。分别求出各聚类要素所对应的数据 的总和,以各要素的数据除以该要素的数据的总和, 即
xij xij
x
i 1
m
m
(i 1,2, , m; j 1,2,, n)
ij
(3.4.1)
这种标准化方法所得到的新数据满足
1 2 i m

x1
x11 x 21 xi1 x m1

x 2 , x j , x n
x12 x 22 xi 2 , , x1 j xij , , x1n x2n xin
, x 2 j ,
x m 2 , x mj
, x mn
人均粮 食x6( kg/人 )
1036.4 683.7 611.1 632.6
稻谷占 粮食比 重x7( %)
12.2 0.85 6.49 0.92
G5
G6 G7 G8 G9
0.081
0.082 0.075 0.293 0.167
0.212
0.211 0.181 0.666 0.414
72.04
43.78 65.15 5.35 2.9
0.294 0.315 0.123 0.179
劳均耕地 x2(hm2/ 个)
1.093 0.971 0.316 0.527
水田比 重 x3(% )
5.63 0.39 5.28 0.39
复种指 数 x4(% )
113.6 95.1 148.5 111
粮食亩 产x5( kg/ hm2)
4510.5 2773.5 6934.5 4458
最短距离法:
Dpq min d ( xi , x j )
最长距离法:
Dpq max d ( xi , x j )
217.8
179.6 194.7 94.9 94.8
12249
8973 10689 3679.5 4231.5
791.1
636.5 634.3 771.7 574.6
80.38
相关主题