第七章 聚类分析
均数 标准差
医用多元统计分析方法
8.4800 63.6333 1.6866 4.8167
? ?
? ?
各民族之间的欧氏距离(标准化资料)D0
满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族
G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6} 满族 G1={S1} 0 0 0.526 2.374 2.048 1.973 0 1.851 1.539 1.448 0 0.422 0.406 0 0.311 0
医用多元统计分析方法
主要内容
• 距离和相似系数 • 系统聚类(Hierarchical clustering)
– – – – 最短距离法 中间距离法 重心法 可变类平均法 最长距离法 可变距离法 类平均法 Ward最小方差法
• 聚类分析的正确应用
医用多元统计分析方法
系统聚类的基本思想
• 对于一个数据,人们既可以对变量(指标)进行分类(相当于对数 据中的列分类),也可以对观测值(事件,样品)来分类(相当于 对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合 考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规 律来分类。 本章要介绍的分类的方法称为聚类分析(cluster analysis)。对 变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种 聚类在数学上是对称的,没有什么不同。 相近的聚为一类(以距离表示,样品聚类) 相似的聚为一类(以相似系数表示,变量聚类)
x
i 1 n i 1 2 is
n
is
xit
n
2 x x it i 1 n
• Pearson相关系数
rst
(x
i 1 n i 1
is
xs )( xit xt )
n
2 2 ( x x ) ( x x ) is s it t i 1
• 指数相似系数
类间距离
S1 S2 S3 S5 S4
平均距离(average)
2 D12
1 2 2 2 2 2 2 (d14 d15 d 24 d 25 d 34 d 35 ) 6
医用多元统计分析方法
类间距离
S1 S2 S3 S5 S4
最短距离
医用多元统计分析方法
例9.1 6个不同民族的标化死亡率与出生时的期望寿命
•
• • • •
医用多元统计分析方法
6个不同民族的标化死亡率与出生时的期望寿命
原始数据 民族 满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族 均数 标准差 医用多元统计分析方法 标化死亡率(‰) 5.80 7.44 8.11 10.21 9.51 9.81 8.4800 1.6866 出生时期望寿命(岁) 70.59 67.14 65.48 58.88 59.24 60.47 63.6333 4.8167
距离
• 绝对值距离
d ij (1) xik x jk
k 1 p
• 欧氏(Euclidean)距离
d ij (2) xik x jk k 1
p
2
12
• 切比雪夫(Chebychev)距离 dij () max 1 k p
• 明氏(Minkowski)距离
原始数据 民族 标化死亡率(‰) 满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族 5.80 7.44 8.11 10.21 9.51 9.81 出生时 期望寿命(岁) 70.59 67.14 65.48 58.88 59.24 60.47 标准化数据 标化死亡率(‰) -1.59 -0.62 -0.22 1.03 0.61 0.79 出生时 期望寿命(岁) 1.44 0.73 0.38 -0.99 -0.91 -0.66
医用多元统计分析方法
2 ( x x ) 1 3 ik jk cij exp 2 p k 1 sk 4 p
数据的变换处理 • 1、中心化变换 • 中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均 值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。 • 2、极差规格化变换 • 规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者 之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值, 再除以极差,就得到规格化数据。 • 3、标准化变换 • 标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处 理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准 化。 • 4.对数变换 • 对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新 值。
医用多元统计分析方法
0.406
1.448
0.526 1.208
Dendrograms (cluster trees)
CLUSTER过程和TREE过程进行谱系聚类
• • • • • • • • • • 一、CLUSTER过程用法 CLUSTER过程的一般格式为: PROC CLUSTER DATA=输入数据集 METHOD=聚类方法 选 项; VAR 聚类用变量; RUN; 用VARCLUS过程实现变量聚类分析 二、TREE过程用法 TREE过程可以把CLUSTER过程产生的OUTTREE=数据集作为输入,画出 谱系聚类的树图,并按照用户指定的聚类水平(类数)产生分类结果数据集。 一般格式如下: PROC TREE DATA=输入聚类结果数据集 OUT=输出数据集 GRAPHICS NCLUSTER=类数 选项; RUN;
医用多元统计分析方法
•
北京 天津 河北 山西 内蒙 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南
食品(X1) 衣服(X2) 燃料(X3) 住房(X4) 用品(X5)文化(X5) 190.33 135.2 95.21 104.78 128.41 145.68 159.37 116.22 221.11 144.98 169.92 153.11 144.92 140.54 115.84 101.18 43.77 36.4 22.83 25.11 27.63 32.83 33.38 29.57 38.64 29.12 32.75 23.09 21.26 21.5 30.26 23.26 9.73 10.47 9.3 6.4 8.94 17.79 18.37 13.24 12.53 11.67 12.72 15.62 16.96 17.64 12.2 8.46 60.54 44.16 22.44 9.89 12.58 27.29 11.81 13.76 115.65 42.6 47.12 23.54 19.52 19.19 33.61 20.2 49.01 36.49 22.81 18.17 23.99 39.09 25.29 21.75 50.82 27.3 34.35 18.18 21.75 15.97 33.77 20.5 9.04 3.94 2.8 3.25 3.27 3.47 5.22 6.04 5.89 5.74 5 6.39 6.73 4.94 3.85 4.3
医用多元统计分析方法
• • •
Data new; Input g$ x1-x6; Cards;
190.33 135.2 95.21 104.78 128.41 145.68 159.37 116.22 221.11 144.98 169.92 153.11 144.92 140.54 115.84 101.18 43.77 36.4 22.83 25.11 27.63 32.83 33.38 29.57 38.64 29.12 32.75 23.09 21.26 21.5 30.26 23.26 9.73 10.47 9.3 6.4 8.94 17.79 18.37 13.24 12.53 11.67 12.72 15.62 16.96 17.64 12.2 8.46 60.54 44.16 22.44 9.89 12.58 27.29 11.81 13.76 115.65 42.6 47.12 23.54 19.52 19.19 33.61 20.2 49.01 36.49 22.81 18.17 23.99 39.09 25.29 21.75 50.82 27.3 34.35 18.18 21.75 15.97 33.77 20.5 9.04 3.94 2.8 3.25 3.27 3.47 5.22 6.04 5.89 5.74 5 6.39 6.73 4.94 3.85 4.3
0 1.208 3.173 0 1.448 0
医用多元统计分析方法
D4
G10={S1,S2,S G8={ S4,S5,S6} 3}
G10={S1,S2,S 3} G8={ S4,S5,S6}
0
1.448 0
医用多元统计分析方法
例9.1资料的谱系聚类图(最短距离法)
0.311
藏族 哈萨克族 维吾尔族 朝鲜族 蒙古族 满族
医用多元统计分析方法
类间距离
S1 S2 S3 S5 S4
最短距离(single linkage)
Hale Waihona Puke 医用多元统计分析方法类间距离
S1 S3 S4 S5
最长距离(complete linkage)
医用多元统计分析方法
类间距离
S1 S2 S3 S5 S4
重心间距离(centroid)
医用多元统计分析方法
医用多元统计分析方法
• • •
•
•
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离, 一个是类和类之间的距离。 点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。 当然还有一些和距离相反但起同样作用的概念,比如相似性等,两 点越相似度越大,就相当于距离越短。 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那 么点间的距离就是类间距离。但是如果某一类包含不止一个点,那 么就要确定类间距离, 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离 可以作为这两类之间的距离,也可以用两类中最远点之间的距离作 为这两类之间的距离;当然也可以用各类的中心之间的距离来作为 类间距离。在计算时,各种点间距离和类间距离的选择是通过统计 软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。