第九章SPSS的聚类案例
样本j
J (i, j) b c abc
样本i 1
10 ab
a为样本i与样本j在所有变量上同时 取1的个数;d为同时取0的个数
特点:排除同时不拥有某特征的情
0 c d 况;取1的状态比取0更有意义(如:
临床检验中的阳性特征);编码方
案会引起系数的变化
分层聚类
(四)品质数据个体间的距离
雅科比(Jaccard)系数:适用二值变量 姓名 手机上网 无线音乐 手机报
d (i, j) b c abcd
样本i 1 0
10 ab cd
a为样本i与样本j在所有变量上同 时取1的个数;d为同时取0的个数
特点:排除同时拥有或同时不拥 有某特征的情况;取0和1地位等 价,编码方案的变化不会引起系 数的变化。
分层聚类
(四)品质数据个体间的距离
简单匹配(simple matching)系数:适用二值变量
3. 不管实际数据中是否存在不同的类别,利用聚 类分析都能得到分成若干类别的解
分层聚类
(一)思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用)
首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越
分类过程中,没有事先指定分类的标准.完全根据样 本数据客观产生分类结果.
(4)SPSS中的聚类方法
分层(二)特点
1. 聚类分析前所有个体所属的类别是未知的, 类别个数一般也是未知的,分析的依据只有 原始数据,可能事先没有任何有关类别的信 息可参考
2. 严格地,聚类分析并不是纯粹的统计技术, 不象其他多元分析,需要从样本去推断总体
一般不涉及统计量分布,也不需显著性检验
3. 聚类分析更象是一种建立假设的方法,而对 相关假设的检验还需要借助其他统计方法
聚类分析概述
(三)注意
1. 聚类分析主要用于探索性研究,其分析结果可 提供多个可能的解,最终解的选择需要研究者 的主观判断和后续分析
2. 聚类分析的解完全依赖于研究者所选择的聚类 变量,增加或删除一些变量对最终解都可能产 生实质性的影响
i1
切比雪夫距离(CHEBYCHEV)
C(x, y) Max | xi yi |
明考斯基绝对值幂距离(POWER)
k
MINKOSKI (x, y) p | xi yi |p
i1
分层聚类
(三)定距数据个体间的距离
欧氏距离举例
001 002 003 004 005
001 0
个
002 7.07 0
10 10 0
0
10 10 1
聚类分析概述
(2)例如 学 号
数学
计算机
001
73
68
002
66
69
003
84
82
004
91
88
005
94
90
两类:(001 002) (003 004 005) 三类:(001 002) (003) (004 005)
聚类分析概述
(3)总结
上述分类的原则:依据学生成绩的差距,差距较小的 为一类
第八章 SPSS的聚类分析
聚类分析概述
(一)概念
(1)聚类分析是统计学中研究“物以类聚”的一种 方法,属多元统计分析方法.
例如:细分市场、消费行为划分
聚类分析是建立一种分类,是将一批样本(或变量) 按照在性质上的“亲疏”程度,在没有先验知识 的情况下自动进行分类的方法.其中:类内个体 具有较高的相似性,类间的差异性较大.
体
距
003 17.8 22.2 0
离
004 26.91 31.4 9.22 0
矩
005 30.41 35.0 12.81 3.61 0
阵
结论:由于3.61距离最小,因此(004,005)首先聚成一类
分层聚类
(四)品质数据个体间的距离
简单匹配(simple matching)系数:适用二值变量。
样本j
分层聚类
(三)定距数据个体间的距离
把每个个案数据看成是k维空间上的点,在点和点之间定
义某种距离.一般适用于定距数据
欧氏距离(EUCLID) 平方欧氏距离(SEUCLID) 马氏距离(BLOCK)
k
EUCLID(x, y) (xi yi )2
i1
k
BLOCK (x, y) | xi yi |
去 重复上述过程,即:把类分解成越来越小的小类,直到
所有的个体自成一类为止
可见,随着聚类的进行,类内的亲密性在逐渐增 强
分层聚类
(二)“亲疏”程度的衡量 (1)衡量指标
相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离越近,
越“亲密”,聚成一类;距离越远,越“疏远 ”,分别属于不同的类 (2)衡量对象 个体间距离 个体和小类间、小类和小类间的距离
(张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同)
(Jaccard) (Jaccard)
分层聚类
(四)品质数据个体间的距离
Jaccard系数举例:根据临床表现研究病人是否有类似的病
姓名 张三 李四 王五
性别 男 女 男
发烧 咳嗽 检查1 检查2 检查3 检查4
张三
1 (0)
1(0)
1(0)
李四
1 (0)
1(0)
0(1)
王五
0 (1)
0(1)
1(0)
(张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同)
(张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3
姓名 手机上网 无线音乐 选某门课程
张三
1
1
1
李四
1
1
0
王五
0
0
1
(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3
张三距李四近
分层聚类
(四)品质数据个体间的距离
雅科比(Jaccard)系数:适用二值变量
来越大的类,直到所有的个体都到一起(一大类)为 止 可见,随着聚类的进行,类内的“亲密”性在逐渐减 低
——一旦个案(变量)被聚为一类,以后分类结果不 会改变
分层聚类
(一)思路
以分解的方式聚类
首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出