聚类分析中的数据类型
1. Interval-scaled variables:区间标度变量 1.1 什么是区间标度变量?
区间标度变量是一个线性标度的连续变量。
典型的例子包括重量和高度,经度和纬度坐标,以及大气温度。
1.2 怎样将一个变量的数据标准化?
为了避免对度量单位选择的依赖,数据应当标准化。
为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。
1.3 度量值变换
给定一个变量f 的度量值,可以进行如下的变换:
1)计算平均的绝对偏差(mean absolute deviation )sf :
nf f f f nf f f f f n f f f f
f x x x n
m f mf n f x x x m x m x m x n s
2121211,,1
的平均值,即是个度量值,的是这里的 2)计算标准化的度量值,z-score :
f
f
f i if s m x z -
1.4 举例
Age: 18; 22; 25; 42; 28; 43; 33; 35;56; 28
6
.08
.833286
.28.83356,2.08.83335,08.833331
.18.83343,6.08.83328,0.18.833429
.08.83325,25.18.83322,7.18.833188.83328335633353333334333283342332533223318101332856353343284225221810
1
10987654321
z z z z z z z z z z s m age age
2. Binary variables:二进制变量 2.1 二进制数据的列联表
2.2 简单匹配系数(simple matching coefficient ):
不变的,如果二进制变量是对称的。
d
c b a c
b j i d
,
2.3 Jaccard 系数:
非不变的,如果二进制变量是非对称的。
c
b a c
b j i d
,
1) Gender 是对称属性,其它属性都是非对称属性 2) 设Y 、P 为1,N 为0。
求解:Jack 与Mary 、Jack 与Jim 和Jim 与Mary 的相似度。
解:因为Gender 是对称属性,而其他属性都是非对称的,所以构建列联表时忽略Gender 属性。
构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4
Jack Y N P N N N Mary Y N P N P N 即 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Mary
1
1
1
a 标记为红色,d 标记为蓝色,c 标记为绿色,构建列联表如下:
根据Jaccard 系数的计算公式得
33.03
1
10210,
c b a c b Mary Jack d
构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack Y N P N N N Jim Y
P
N
N
N
N
得 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jack 1 0 1 0 0 0 Mary
1
1
a 标记为红色,d 标记为蓝色,c 标记为绿色,
b 标记为黄色,构建列联表如下:
根据Jaccard 系数的计算公式得
67.03
2
11111,
c b a c b Jim Jack d
构建Jack 与Mary 的列联表 考虑 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jim Y P N N N N Mary Y N P N P N 即 Name Fever Cough Test-1 Test-2 Test-3 Test-4 Jim 1 1 0 0 0 0 Mary
1
1
1
a 标记为红色,d 标记为蓝色,c 标记为绿色,
b 标记为黄色,构建列联表如下:
根据Jaccard 系数的计算公式得
75.04
3
21121,
c b a c b Mary Jim d
3. Nominal variables :定类变量(名义变量)
二进制变量的一般形式,可以处理超过2个的情况。
例如Red ,Yellow ,Blue ,Green 。
3.1 方法1:简单匹配 属性的个数匹配的个数;::,,p m p
m
p j i d 3.1.1 举例 Color1 Color2 Color3 Color4 Color5 A Red Red Yellow Blue Blue
B
Red
Green
Green
Green
Blue
红色标记匹配项,即m=2,蓝色标记属性个数,即p=5 根据公式得
6.05
3
525,
p m p B A d 3.2 方法2:大二元变量
以3.1.1中例子来说明创建新的二进制变量
对于 可转换为 C1.Red C1.Blue C1.Green C1.Yello C2.R C2.B C2.G C2.Y ……
A 1 0 0 0 1 0 0 0 B
1
1
转换后,可用二进制变量的算法计算相似度,具体算法参见第2节。
4. Ordinal variables :定序变量(顺序变量) 4.1 定序变量的几个要点:
4.1.1定序变量即可以是连续的也可以是离散的。
4.1.2 顺序很重要。
例如rank
4.1.3 可以以区间标度变量的方式处理。
4.2 根据区间标度变量的算法,
1) 中。
,并使变量映射到范围个对象中的第替代变量用替代的用101
1,,1,i f M r z x M r rank x f f i f i f
i f f i f i
2) 用interval-scaled variables 的方法计算相异性。
4.3 举例
对于成绩的集合{80,70,30,50}
对该集合排序得{80,70,50,30},生成排序后集合的一个rank={1,2,3,4}
44,3,2,1 f if M r ,则令
根据公式计算得
11
41
41
1321413113
1
14121101
41
11
144332211
f f f f f f
f f f f f f M r z M r z M r z M r z
5. Ratio-scaled variables :定比标度变量(比例标度变量) 这个没讲例子,应该不考。
6. 混合类型
6.1 一个数据库中可能包含所有6种类型的变量。
Color1 Color2 Color3 Color4 Color5 A Red Red Yellow Blue Blue B Red
Green
Green
Green
Blue。