聚类分析 ppt课件
(2)相关系数
(3)距离和相关系数转换
di2j 1Ci2j
ppt课件
9
7.3 系统聚类法
1.基本思想 n个样本分成n类 计算任何两类距离 最小距离归为1类
整个过程画成聚类图
最短距离
最长距离 取
距 类平均法
离
方
重心法
法
中心距离法
离差平方和法 (Ward法)
ppt课件
10
2.系统聚类法计算公式
(1)最短距离法
…
教育 2383.96 1639.83 895.06 1054.05 1245.09 1052.94 997.75 938.21
…
居住 杂项
1246.19 649.66
1417.45 463.64
917.19 266.16
991.77 245.07
941.79 468.17
1047.04 400.16
0 0 0
0
结论:六种系统聚类法的并类原则和过程完全相同, 不同之处在于类与类之间的距离定义不同。
ppt课件
15
(7)程序实现
hc<-hclust(dist(X),method="single") #最短距离法 cbind(hc$merge,hc$height) #分类过程 plot(hc) #聚类图
[,1] [,2] [,3] [1,] -4 -5 1 [2,] -1 1 1.414 [3,] -2 2 4.123 [4,] -3 3 4.123
…
设备 981.13 760.56 546.75 477.74 561.71 439.28 407.35 355.67
…
医疗 1294.07 1163.98 833.51 640.22 719.13 879.08 854.8 729.55
…
交通 2328.51 1309.94 1010.51 1027.99 1123.82 1033.36 873.88 746.03
(3)兰氏距离
1 p
dij(LW)pk1
xik xjk x x ikppt课件 jk
(xij 0)
7
(4)程序实现
dist(x,method="euclidean",diag=FALSE,upper=FALSE,p=2) x 数据矩阵,数据框架 method 计算方法,“euclidean(欧式)”,“maximum(切比 雪夫)“,”manhattan(绝对数)”, “canberra(兰氏) “,”binary” or “minkowski(明氏)" diag 是否包含对角线元素 upper 是否需要上三角 p Minkowski距离的幂次
dist(X,)#欧式距离
dist(X,method=“manhattan ”) #绝对值距离
1234
1234
2 6.325
28
3 5.385 4.123
375
4 2.236 4.123 4.243
4356
5 1.414 5.099 5 1
ppt课件
5 2 6 7 18
2.相似系数-指标 (1)夹角余弦 公式:
距离: Gp与Gq合并为Gr后,Gr 与其它类Gs之间距离:
(2)最长距离法
距离:
Gp与Gq合并为Gr后,Gr 与其它类Gs之间距离:
ppt课件
11
(1)最短距离法分析过程
D0 G1 G2 G3
G1 0 6.32 5.38
G2
0 4.12
G3
0
G4
G5
G4 G5 2.23 1.41 4.12 5.09 4.24 5.00 0 1.00
7.1聚类分析的概念和类型
思想:研究样品或指标(变量)之间存在着程度不同 的相似性(亲疏),并按相似程度不同将指标和样品 形成一个分类系统。
指标
样本 X1
X2
…
Xp
1
x11
x12
…
x1p
2
x21
x22
…
x2p
3
x21
x22
…
x2p
…
…
…
…
…
n
xn1
xn2
…
xnp
Q型聚类:对样品的聚类
聚类方法
类型
R型聚类:对变量的聚类
1062.46 394.29
784.51 310.67
…
…
问题:采用何种方法将样本或指标进行分类处理?
系统聚类法
聚类方法
快速聚类法(kmeans)
模糊聚类法
ppt课件
1
第7章 聚类分析
7.1 聚类分析的概念和类型 7.2 聚类统计量 7.3 系统聚类法 7.4 Kmeans聚类法 7.5 聚类分析的一些问题
ppt课件
13
(5)类平均法
两类之间距离平方:两类元素两两之间的平均 基本公式:
(6)离差平方和法(Ward法)
设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gi中的第i个
样品,nt为Gt中样品的个数,X
是Gt的重心,则Gt的样品离差平
t
方和为:
如果Gp和Gq合并为新类Gr,类内离差平方和为:
ppt课件
14
统一递推公式
方法 最短距离法 最长距离法 类平均法 中间距离法
重心法
Ward法
αr
αs
β
1/2
1/2
0
1/2
1/2
0
nr/np 1/2
ns/np 1/2
0 -1/4
nr/np
ns/np
-αrαs
(nq+nr)/(nq+np) (nq+ns)/(nq+np) -nq/(nq+np)
γ -1/2 1/2
0
D1 G1 G2 G3 G6
G1 0 6.32 5.38 1.41
G2Βιβλιοθήκη 0 4.12 4.12G3
0
4.24
G6
0
45 1
D2 G2 G3 G7
G2 0 4.12 4.12
G3
0
4.24
G7
0
ppt课件
23
12
(3)中间距离法 取最短距离和最长距离的折中: 设Gr={Gp,Gq},则:
(4)重心法 距离: 递推公式:
问题提出
食品
北京 4934.05
天津 4249.31
河北 2789.85
山西 2600.37
内蒙古 2824.89
辽宁 3560.21
吉林 2842.68
黑龙江 2633.18
…
…
衣着 1512.88 1024.15 975.94 1064.61 1396.86 1017.65 1127.09 1021.45
ppt课件
5
7.2 聚类统计量
定义:用来进行类型划分的统计量,对样品进行划分 统计量为距离,对变量进行划分的统计量为相似系数。
欧式距离
距离
马氏距离
聚类 统计量
兰氏距离 夹角余弦
相似系数
相关系数
ppt课件
6
1.距离-样本 (1)明氏距离 公 式
(2)马氏距离
q=1,绝对值距离 q=2,欧式距离 q=∞,切比雪夫距离
ppt课件
2
精品资料
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你
是否会认为老师的教学方法需要改进?
• 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我
笨,没有学问无颜见爹娘 ……”
• “太阳当空照,花儿对我笑,小鸟说早早早……”