聚类分析之系统聚类法
系统聚类法过程
1
最短距离系统聚类法
根据五个学生的六门课的成绩,对这五个学生进行分类
ID 学生1 学生2 学生3 学生4 学生5
数学 65 77 67 80 74
物理 61 77 63 69 70
化学 72 76 49 75 80
语文 84 64 65 74 84
历史 81 70 67 74 81
重心法: (Centroid clustering)
D (G p , Gq ) d ( x p , xq )
两个类的重心如下:
xp
xp2
x p1 x p 2 2
D(G p , Gq )
xq
xq1 xq 2 2
xq 2
x p1
xq1
ID 1 2 3 4 5 6 7 8 9 10
数学 物理 65 76 67 84 74 78 66 77 83 86 61 77 63 95 70 84 71 71 100 94
绝对值距离:
p d ( x1 , x2 ) | x1k x2 k | 27 k 1
欧氏距离:
d ( x1 , x2 )
分类准则
距离近的样品聚为一类 数据的一般的格式
样品与样品之间的常用距离(样品i与样品j)
p 绝对值距离:d ( xi , x j ) | xik x jk | k 1
欧氏距离:d ( x i, xj )
2 ( x x ) ik jk k 1
1 q
p
p Minkowski距离: d ( xi , x j ) ( xik x jk )q k 1
英语 79 55 57 63 74
1.写出样品间的距离矩阵(以欧氏距离为例)
0 G1 38.9 G 0 2 D0 39.7 32.2 G3 0 26.5 15.9 32.4 0 G4 15.8 30.9 43.6 18.2 0 G 5
引例3 下表是中国大陆地区31个省级行政区域的月人均消费 数据(单位:元),请根据消费水平对这31个省级行政区域 进行分类。
城市 北京 天津 河北 …… 青海 宁夏 新疆 人均 粮食 支出 21.3 21.5 18.25 …… 20.33 19.75 21.03 人均副 食支出 124.89 122.39 90.21 …… 75.64 70.24 78.55 人均烟、 酒、饮 料支出 35.43 29.08 24.45 …… 20.88 18.67 14.35 人均 衣着 支出 93.01 55.04 62.48 …… 53.81 61.75 64.98 人均日 人均水 人均其他 用杂品 电燃料 非商品支 支出 支出 出 20.58 11.3 7.45 …… 10.06 10.08 9.83 43.97 54.88 47.5 …… 32.82 40.26 33.87 433.73 288.13 178.84 …… 171.32 165.22 161.67
p
ki kj p
x
=0.983
2 2 x x ki kj k 1
类与类之间的常用距离
1.由一个样品组成的类是最基本的类;如果每一类都由一 个样品组成,那么样品间的距离就是类间距离。 2.如果某一类包含不止一个样品,那么就要确定类间距 离,类间距离是基于样品间距离定义的,大致有如下几种 定义方式: 记号:G p 和 Gq 是两个类,D(G p , Gq )是这两个类的距离。 xi G p x j Gq d ( xi , x j ) 是这两个样品的距离。
历史 81 70 67
英语 79 55 57
相关系数: (数学, 语文)
x
k 1 p k 1
p
ki
xi xkj x j
2 p 2
xki xi xkj x j
k 1
= 0.663
夹角余弦:r (数学, 语文)
x
k 1 p k 1
最短距离法: (Nearest Neighbor)
D (G p , Gq ) min d ( xi , x j )
D(G p , Gq )
最长距离法: (Furthest Neighbor)
D(G p , Gq ) max d ( xi , x j )
D(G p , Gq )
Chebyshev距离:d ( x i , x j ) max | xik x jk |
1 k p
1 马氏距离: d ( x i , x j ) ( xi x j ) ( xi x j ) 其中: xi ( xi1 , xi 2 ,, xip ) x j ( x j1 , x j 2 ,, x jp ) 为样本的协方差矩阵
组间平均连接法: (Between-group Linkage)
d1 d 2 d3 d 4 D (G p , Gq ) 4
组内平均连接法 (Within-group Linkage)
d1 d 2 d3 d 4 d5 d 6 D(G p , Gq ) 6
引例2 下表是30个学生的六门课的成绩。根据这30个人的成 绩,将六门课程分为两类。
序号 1 2 3 …… 28 29 30 数学 65 77 67 …… 77 91 78 物理 61 77 63 …… 90 82 84 化学 72 76 49 …… 85 84 100 语文 84 64 65 …… 68 54 51 历史 81 70 67 …… 73 62 60 英语 79 55 57 …… 76 60 60
2
x
k 1
p
ki
xi
x
k 1
p
kj
xj
2
夹角余弦: r ( X i , X j )
x
k 1 p k 1
p
ki kj p
x
2 2 x x ki kj k 1
序号 1 2 3
数学 65 77 67
物理 61 77 63
化学 72 76 49
语文 84 64 65
序号 1 2 3 …… 28 29 30 数学 65 77 67 …… 77 91 78 物理 61 77 63 …… 90 82 84 化学 72 76 49 …… 85 84 100 语文 84 64 65 …… 68 54 51 历史 81 70 67 …… 73 62 60 英语 79 55 57 …… 76 60 60
如何分类
引例1中,如果只考虑数学成绩(取 前十个学生的成绩来分析),可以 将十个人的分数画在x轴上,然后把 接近的点放入一类。 ID 1 2 3 4 5 6 7 8 9 10 数学 65 76 67 84 74 78 66 77 83 86
引例1中,如果考虑数学成绩和物理成绩 (取前十个学生的成绩来分析),可以 将十个人的两个分数看作是 xoy 平面上 的点,然后把接近的点分为一类。 ID 1 2 3 4 5 6 7 8 9 10 数学 物理 65 76 67 84 74 78 66 77 83 86 61 77 63 95 70 84 71 71 100 94
2.将每一个样品看做是一个类,即 G1 , G2 , G3 , G4 , G5 观察 D(G1 , G5 ) 15.8最小,故将G1与G5聚为一类,记为G6 . 计算新类与其余各类之间的距离,得到新的距离矩阵 D1 D(G6 , G2 ) max{D(G1 , G2 ), D(G5 , G2 )} max{38.9,30.9} 38.9 D(G6 , G3 ) max{D (G1 , G3 ), D(G5 , G3 )} max{39.7, 43.6} 43.6 D(G6 , G4 ) max{D(G1 , G4 ), D (G5 , G4 )} max{26.5,18.2} 26.5
2.将每一个样品看做是一个类,即 G1 , G2 , G3 , G4 , G5
观察 D(G1 , G5 ) 15.8最小,故将G1与G5聚为一类,记为G6 . 计算新类与其余各类之间的距离,得到新的距离矩阵 D1
D(G6 , G2 ) min{D(G1 , G2 ), D(G5 , G2 )} min{38.9,30.9} 30.9 D(G6 , G3 ) min{D(G1 , G3 ), D(G5 , G3 )} min{39.7, 43.6} 39.7 D(G6 , G4 ) min{D(G1 , G4 ), D(G5 , G4 )} min{26.5,18.2} 18.2
0 G6 30.9 G 0 2 D1 39.7 32.2 G3 0 18.2 15.9 32.4 0 G4
3.观察 D(G2 , G4 ) 15.9最小,故将G2与G4聚为一类,记为G7 . 计算新类与其余各类之间的距离,得到新的距离矩阵D2 D(G7 , G6 ) min{D(G2 , G6 ), D(G4 , G6 )} min{30.9,18.2} 18.2 D(G7 , G3 ) min{D(G2 , 2
2 ( x x ) 1k 2k 19.416 k 1 p
Minkowski距离:
3 d ( x1 , x2 ) ( x1k x2 k ) 17.573 k 1
p 1 3
Chebyshev距离: d ( x1 , x2 ) max | x1k x2 k | 16
数学模型与数学建模之
聚类分析之 系统聚类法及其SPSS实现