§7 消费分布规律的分类
为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布规律,需要用调查资料对这5个省分类.数据见下表:
其中,X 1:人均粮食支出; X 2:人均副食品支出;
X 3:人均烟、酒、茶支出; X 4:人均其它副食品支出;
X 5:人均衣着商品支出; X 6:人均日用品支出;
X 7:人均燃料支出; X 8:人均非商品支出.
在科学研究、生产实践、社会生活中,经常会遇到分类的问题.例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要指标而将其分为一等品,二等品等等.
这些问题可以用聚类分析方法来解决.
聚类分析的研究内容包括两个方面,一是对样品进行分类,称为Q 型聚类法,使用的统计量是样品间的距离;二是对变量进行分类,称为R 型聚类法,使用的统计量是变量间的相似系数. 设共有n 个样品,每个样品i x 有p 个变量,它们的观测值可以表示为
n i x x x x pi i i i ,,2,1),,,,(21 ==
一、样品间的距离
下面介绍在聚类分析中常用的几种定义样品i x 与样品j x 间的距离.
1、 Minkowski 距离 m m p k kj ki j i x x
x x d 11
][),(∑=-= 2、绝对值距离 ∑=-=p k kj ki j i x x
x x d 1),(
3、欧氏距离 21
21][),(∑=-=p k kj ki j i x x
x x d
二、变量间的相似系数
相似系数越接近1,说明变量间的关联程度越好.常用的变量间的相似系数有
1、 夹角余弦
∑∑∑===∙=n k n k jk ik n k jk
ik ij x x
x x r 11
221)()( 2、 相关系数
∑∑∑===-∙---=n k n k j jk i ik n k j jk i ik ij x x x x
x x x x r 11
2)(2)(1)()()()()
)(( 值得注意的是,当指标的测量值相差较大时,直接使用以上各式计算距离或相似系数常使数值较小的变量失去作用,为此需应先对数据进行标准化,然后再用标准化的数据来计算.标准化的具体方法是:
p k n i s x x x k
k ki ki ,,2,1,,,2,1,* ==-= 其中 p k x x n s x n x n
i k ki k n i ki k ,,2,1,)(11,11
21 =--==∑∑== 三、类与类之间的距离
用p G 和q G 分别代表两个类,它们所包含的样品个数分别记为p n 和q n ,类p G 和q G 之间的距离记为),(q p G G D .下面给出三种最常用的定义方法.
1、最短距离 ),(min ),(q j p i ij q p G x G x d G G D ∈∈=
类与类之间的最短距离有如下的递推公式,设r G 为由p G 和q G 合并所得,则r G 与其它类),(q p k G k ≠的最短距离为
)},(),,({min ),(k q k p k r G G D G G D G G D =
2、最长距离 ),(max ),(q j p i ij q p G x G x d G G D ∈∈=
类与类之间的最长距离有如下的递推公式,设r G 为由p G 和q G 合并所得,则r G 与其它类),(q p k G k ≠的最长距离为
)},(),,({max ),(k q k p k r G G D G G D G G D =
3、类平均距离 ∑∑∈∈=p i q j G x G x ij q p q p d n n G G D 1
),(
类与类之间的类平均距离有如下的递推公式,设r G 为由p G 和q G 合并所得,则r G 与其它类),(q p k G k ≠的类平均距离
),(),(),(k q r q k p r p
k r G G D n n G G D n n G G D +=,其中 q p r n n n +=.
以上类与类之间的距离,不但适用于Q 型聚类,同样也适合于R 型聚类,这只要将ij d 用变量间的相似系数ij r 代替就行了.为简单起见以下均记成ij d .
系统聚类法是目前最流行的方法.
有了样品间的距离(或变量间的相似系数)以及类与类之间的距离后,便可进行系统聚类,基本步骤如下:
1、n 个样品(或p 个变量)一开始看作n 类(p 类),计算两两之间的距离(或相似系数),构成一个对称矩阵()n n ij d D ⨯=0,此时显然有pq q p d G G D =),(;
2、选择0D 中对角线元素以外的下三角部分中的最小元素(相似系数矩阵则选择对角线元素以外的最大者),设其为),(q p G G D ,则将p G 和q G 合并为一个新类r G .在0D 中划去p G 和q G 所对应的两行与两列,并加入由新类r G 与剩下的未聚合的各类之间的距离所组成的一行和一列,得到一个新的矩阵1D ,它是降低了一阶的对称矩阵;
3、由1D 出发,重复步骤2得到对称矩阵2D ,依此类推,直到n 个样品(或p 个变量)聚为一个大类为止;
4、在合并过程中记下两类合并时样品(或变量)的编号以及合并两类时的距离(或相似系数)的大小,并绘成聚类图,然后可根据实际问题的背景和要求选定相应的临界水平以确定类的个数.
上面是一个Q 型聚类问题,现在用系统聚类法来解决.将每个省份看成一个样品,并以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5省,计算样品间的欧氏距离,得到如下的距离矩阵0D
{1} {2} {3} {4} {5}
⎪⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=021.251.354.2380.12020.206.2412.13063.2480.13067.1100D 下面给出采用最短距离法的聚类过程:首先将5个省各看成一类,即令)5,4,3,2,1(},{==i i G i .从0D 可以看出,其中最小的元素是20.2})3{},4({43==d D ,故将3G 和4G 合并成一类6G ,然
后利用递推公式计算6G 与1G ,2G ,5G 之间的最短距离.
12.13)12.13,80.13min{},min{})1{},4,3({4131===d d D
06.24)06.24,63.24min{},min{})2{},4,3({4232===d d D
21.2)21.2,51.3min{},min{})5{},4,3({4535===d d D
在0D 中划去{3},{4}所对应的行和列,并加上新类{3,4}到其它类距离作为新的一行一列,得到 {3,4} {1} {2} {5}
⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=054.2380.1221.2067.1106.24012.1301D 重复上面的步骤,依次可得到相应的距离矩阵如下:
{3,4,5} {1} {2}
,
067.1154.23080.1202⎪⎪⎪⎭
⎫ ⎝⎛=D
{3,4,5} {1,2} ⎪⎪⎭
⎫ ⎝⎛=080.1203D 最后将5个省合并为一大类,画出聚类图如下:
辽宁
11.67
浙江
12.80 河南
2.20
甘肃
2.21
青海
由此可见,分成三类比较合适,即辽宁和浙江各为一类,河南、甘肃、青海为一类. 若类与类之间的距离用最长距离或类平均距离,也会得到相同的结论.。