当前位置:文档之家› 聚类分析部分.ppt

聚类分析部分.ppt


变量的类型
通常变量按测量尺度的不同可以分为以下 三类: (1)间隔尺度变量:变量用连续的量来表示, 如长度、重量、速度、温度等; (2)有序尺度变量:变量度量时不用明确的
数 量表示,而是用等级来表示,如某产品分为一 等品、二等品、三等品等有次序的关系。 (3)名义尺度变量:变量用一些类表示,这
些 类之间既无等级关系,也无数量关系,如性别 职业、产品、 发展中国家和贫困落后国家等。
聚类分析的目的是把分类对象 按一定规则分成若干类,这些类不 是事先给定的,而是根据数据的特 征确定的,对类的数目和类的结构 不必作任何假定。
聚类分析也能用来概括数据而 不只是为了寻找“自然的”或“实 在的”分类。
判别分析与聚类分析的关系
判别分析是在已知研究对象分成若干类 型(或组别)并已取得各种类型的一批已知 样品的观测数据,在此基础上根据某些准则 建立判别式,然后对未知类型的样品进行判 别分类。对于聚类分析来说,一批给定样品 要划分的类型事先并不知道,正需要通过聚 类分析来给以确定类型。
正因为如此,判别分析和聚类 分析往往联合起来使用,例如判别 分析是要求先知道各类总体情况才 能判断新样品的归类,当总体分类 不清楚时,可先用聚类分析对原来 的一批样品进行分类,然后再用判 别分析建立判别式以对新样品进行 判别。
当xij 0,i 1, 2, , n; j 1, 2, , p 时,可以定义第i个
样品与第j个样品间的兰氏距离为
dij (L)
1 p
p k 1
xik xik
x jk x jk
距离
设xij为第i个样品的第j个指标,数据矩阵表如下:
在上表中,每个样品有p个变量,故 每个样品都可以看成是 Rp中的一个点,n 个样品就是 Rp中的n个点。在 Rp中需定义 某种距离,将第i个样品与第j个样品之间 的距离记为dij ,在聚类过程冲,相距较近的 点倾向于归为一类,相距较远的点应归属
在对样品(或变量)进行分类 时,很直观地,我们认为在同一类 里的的这些对象在某种意义上倾向 于彼此相似,而在不同类里的对象 倾向于不相似。
多元统计分析中,样品(或变 量)之间的这种相似性用距离和相 似系数来度量。
距离和相似系数
距离常用来度量样品之间的相似性 相似系数常用来度量变量之间的相似性
样品之间的距离和相似系数有着各 种不同的定义,而这些定义与变量的类 型有着非常密切的关系。

xij
xj s jj
其中
x
为第j个变量的样板均值,s
j
jj为第j个变量的样本
方差。
明氏距离特别是其中的欧氏距离是人们比 较熟悉的也是使用最多的距离。但明氏距离 存在不足之处,主要表现在两个方面:第一,
它与各指标的量纲有关;第二,它没有考虑 指标之间的相关性。
除此以外,从统计的角度上看,使用欧氏 距离要求一个向量的n个分量是不相关的且具 有相同的方差,或者说各坐标对欧氏距离的 贡献是同等的且变差大小也是相同的,这时 使用欧氏距离才合适,效果也较好,否则就 有可能不能如实反映情况,甚至导致错误的 结论。故一个合理的做法,就是对坐标加权, 这就产生了“统计距离”。
聚类分析与判别分析、主成分
分析、回归分析等方法联合起来使 用,往往效果更好。
聚类分析根据分类对象不同分
为Q型聚类分析和R型聚类分析。 Q型聚类是指对样品进行聚类,
R型聚类是指对变量进行聚类。 教材中主要介绍Q型聚类。
聚类分析内容非常丰富,有系 统聚类法、有序样品聚类法、动态 聚类法、模糊聚类法、图论聚类法、 聚类预报法等。我们主要介绍系统 聚类法。
离,这是聚类分析中最 k常1 用的一个距 离;
(3)当q=∞时,dij ()
夫距离。

max
1k p
xik
x jk
,称为契比雪
当各变量的单位不同或测量值范围相差很大时,
不应直接采用明氏距离,而应先对各变量的数据作 标准化处理,然后用标准化后的数据计算距离。最 常用的标准化处理是
x*ij
多元统计课程设计 之
聚类分析
长春工业大学
聚类分析概述
聚类分析又称群分析,它是研 究(样品或指标)分类问题的一种 多元统计方法。所谓类,通俗的说, 就是指相似元素的集合。
在社会经济领域中存在着大量
分类问题。比如,在经济学中,根 据人均国民收入、人均工农业产值 和人均消费水平等多项指标对世界 上所有国家的经济发展状况进行分 类。
比如设P x1, x2 , , xp ,Q y1, y2 , , yp
且Q的坐标是固定的,点P的坐标相互独立地变化。用
s11, s22 , , spp 表示p个变量 x1, x2 , , xp 的n次观测的
样本方差,则可定义P到Q的统计距离为:
d(P,Q) x1 y1 2 x2 y2 2
第i个样品与第j个样品间的明氏距离定义为:
p
1q
q
dij (q) xik x jk
明氏距离有以下三种特k殊1 p 形式:
(1)当q=1时,dij (1) xik x jk ,成为绝对值距离,
也常被称为“城市街区k 1”距离;
p
2 1 2
(2)当q=2时,dij (2) xik x jk ,称为欧氏距
2
xp yp
s11
s22
s pp
所加的权是 k1

1 s11
, k2

1 s22
,
,kp

1 ,即用样本方差
s pp
除相应坐标。当取 y1 y2 yp 0 时,就是点P 到原点O的距离。若 s11 s22 spp 时,为欧氏距
离。
兰氏(Lance和Williams)距离
不同的类。
距离的性质
距离dij一般应满足如下四个条件: (1)dij 0,对一切i,j; (2)dij 0,当且仅当第i个样品与第j个样品的
各变量值都相同; (3)dij d ji,对一切i,j; (4)dij dik dkj ,对一切i,j,k。
常用距离定义
Minkowski(明考夫斯基)距离(明氏距离)
相关主题