当前位置:文档之家› 聚类分析 ppt课件

聚类分析 ppt课件

(2)相关系数
(3)距离和相关系数转换
di2j 1Ci2j
ppt课件
9
7.3 系统聚类法
1.基本思想 n个样本分成n类 计算任何两类距离 最小距离归为1类
整个过程画成聚类图
最短距离
最长距离 取
距 类平均法


重心法

中心距离法
离差平方和法 (Ward法)
ppt课件
10
2.系统聚类法计算公式
(1)最短距离法

教育 2383.96 1639.83 895.06 1054.05 1245.09 1052.94 997.75 938.21

居住 杂项
1246.19 649.66
1417.45 463.64
917.19 266.16
991.77 245.07
941.79 468.17
1047.04 400.16
0 0 0
0
结论:六种系统聚类法的并类原则和过程完全相同, 不同之处在于类与类之间的距离定义不同。
ppt课件
15
(7)程序实现
hc<-hclust(dist(X),method="single") #最短距离法 cbind(hc$merge,hc$height) #分类过程 plot(hc) #聚类图
[,1] [,2] [,3] [1,] -4 -5 1 [2,] -1 1 1.414 [3,] -2 2 4.123 [4,] -3 3 4.123

设备 981.13 760.56 546.75 477.74 561.71 439.28 407.35 355.67

医疗 1294.07 1163.98 833.51 640.22 719.13 879.08 854.8 729.55

交通 2328.51 1309.94 1010.51 1027.99 1123.82 1033.36 873.88 746.03
(3)兰氏距离
1 p
dij(LW)pk1
xik xjk x x ikppt课件 jk
(xij 0)
7
(4)程序实现
dist(x,method="euclidean",diag=FALSE,upper=FALSE,p=2) x 数据矩阵,数据框架 method 计算方法,“euclidean(欧式)”,“maximum(切比 雪夫)“,”manhattan(绝对数)”, “canberra(兰氏) “,”binary” or “minkowski(明氏)" diag 是否包含对角线元素 upper 是否需要上三角 p Minkowski距离的幂次
dist(X,)#欧式距离
dist(X,method=“manhattan ”) #绝对值距离
1234
1234
2 6.325
28
3 5.385 4.123
375
4 2.236 4.123 4.243
4356
5 1.414 5.099 5 1
ppt课件
5 2 6 7 18
2.相似系数-指标 (1)夹角余弦 公式:
距离: Gp与Gq合并为Gr后,Gr 与其它类Gs之间距离:
(2)最长距离法
距离:
Gp与Gq合并为Gr后,Gr 与其它类Gs之间距离:
ppt课件
11
(1)最短距离法分析过程
D0 G1 G2 G3
G1 0 6.32 5.38
G2
0 4.12
G3
0
G4
G5
G4 G5 2.23 1.41 4.12 5.09 4.24 5.00 0 1.00
7.1聚类分析的概念和类型
思想:研究样品或指标(变量)之间存在着程度不同 的相似性(亲疏),并按相似程度不同将指标和样品 形成一个分类系统。
指标
样本 X1
X2

Xp
1
x11
x12

x1p
2
x21
x22

x2p
3
x21
x22

x2p





n
xn1
xn2

xnp
Q型聚类:对样品的聚类
聚类方法
类型
R型聚类:对变量的聚类
1062.46 394.29
784.51 310.67


问题:采用何种方法将样本或指标进行分类处理?
系统聚类法
聚类方法
快速聚类法(kmeans)
模糊聚类法
ppt课件
1
第7章 聚类分析
7.1 聚类分析的概念和类型 7.2 聚类统计量 7.3 系统聚类法 7.4 Kmeans聚类法 7.5 聚类分析的一些问题
ppt课件
13
(5)类平均法
两类之间距离平方:两类元素两两之间的平均 基本公式:
(6)离差平方和法(Ward法)
设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gi中的第i个
样品,nt为Gt中样品的个数,X
是Gt的重心,则Gt的样品离差平
t
方和为:
如果Gp和Gq合并为新类Gr,类内离差平方和为:
ppt课件
14
统一递推公式
方法 最短距离法 最长距离法 类平均法 中间距离法
重心法
Ward法
αr
αs
β
1/2
1/2
0
1/2
1/2
0
nr/np 1/2
ns/np 1/2
0 -1/4
nr/np
ns/np
-αrαs
(nq+nr)/(nq+np) (nq+ns)/(nq+np) -nq/(nq+np)
γ -1/2 1/2
0
D1 G1 G2 G3 G6
G1 0 6.32 5.38 1.41
G2Βιβλιοθήκη 0 4.12 4.12G3
0
4.24
G6
0
45 1
D2 G2 G3 G7
G2 0 4.12 4.12
G3
0
4.24
G7
0
ppt课件
23
12
(3)中间距离法 取最短距离和最长距离的折中: 设Gr={Gp,Gq},则:
(4)重心法 距离: 递推公式:
问题提出
食品
北京 4934.05
天津 4249.31
河北 2789.85
山西 2600.37
内蒙古 2824.89
辽宁 3560.21
吉林 2842.68
黑龙江 2633.18


衣着 1512.88 1024.15 975.94 1064.61 1396.86 1017.65 1127.09 1021.45
ppt课件
5
7.2 聚类统计量
定义:用来进行类型划分的统计量,对样品进行划分 统计量为距离,对变量进行划分的统计量为相似系数。
欧式距离
距离
马氏距离
聚类 统计量
兰氏距离 夹角余弦
相似系数
相关系数
ppt课件
6
1.距离-样本 (1)明氏距离 公 式
(2)马氏距离
q=1,绝对值距离 q=2,欧式距离 q=∞,切比雪夫距离
ppt课件
2
精品资料
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你
是否会认为老师的教学方法需要改进?
• 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我
笨,没有学问无颜见爹娘 ……”
• “太阳当空照,花儿对我笑,小鸟说早早早……”
相关主题