sas聚类分析(SAS)
d1 d 2 d3 d 4 d5 d6 6
x11• x12•
x21• x22•
重心(Centroid clustering)距离:个体 与小类的重心点的距离。重心点通常是 由小类中所有样本在各变量上的均值所 确定的点。
•
x1 , y1
•
x2 , y2
离差平方和法(Ward’s method):聚类过 程中使小类内离差平方和增加最小的两 小类应首先合并为一类。
系统聚类中每次合并的类与类之间的距离也可以 作为确定类数的一个辅助工具。在系统聚类过 程中,首先把离得近的类合并,所以在并类过 程中聚合系数(Agglomeration Coefficients) 呈增加趋势,聚合系数小,表示合并的两类的 相似程度较大,两个差异很大的类合到一起, 会使该系数很大。如果以y轴为聚合系数,x轴 表示分类数,画出聚合系数随分类数的变化曲 线,会得到类似于因子分析中的碎石图,可以 在曲线开始变得平缓的点选择合适的分类数。
相似性度量
从一组复杂数据产生一个相当简单的类结构,必 然要求进行“相关性”或“相似性“度量。在 相似性度量的选择中,常常包含许多主观上的 考虑,但是最重要的考虑是指标(包括离散的 、连续的和二态的)性质或观测的尺度(名义 的、次序的、间隔的和比率的)以及有关的知 识。 当对样品进行聚类时,“靠近”往往由某种距离 来刻画。另一方面,当对指标聚类时,根据相 关系数或某种关联性度量来聚类。
不同类型的指标,在聚类分析中,处理的方式是 大不一样的。总的来说,提供给间隔尺度的指 标的方法较多,对另两种尺度的变量处理的方 法不多。 聚类分析根据实际的需要可能有两个方向,一是 对样品,一是对指标聚类。第一位重要的问题 是“什么是类”?粗糙地讲,相似样品(或指 标)的集合称作类。由于经济问题的复杂性, 欲给类下一个严格的定义是困难的。
PROC TREE语句的重要选项有: DATA=数据集,指定从CLUSTER过程生成的OUTTREE= 数据集作为输入。 OUT=数据集,指定包含最后分类结果(每一个观测 属于哪一类,用一个CLUSTER变量区分)的输出数据 集。 NCLUSTERS=选项,由用户指定最后把样本观测分为 多少个类。 GRAPHICS,这是指定画谱系聚类的树图时使用高分辨 率图形(要求有SAS/GRAPH模块)。 HORIZONTAL,画树图时横向画。
1、定距型变量个体间距离的计算方式
欧式距离(Euclidean distance)
2 2 2 (x y ) (73 66) (68 64) i i i 1
k
平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离
max xi yi max( 73 66 , 68 64)
准则1:任何类都必须在邻近各类中是突出的 ,即各类重心之间距离必须大。 准则2:各类所包含的元素都不要过分地多。 准则3:分类的数目应该符合使用的目的。 准则4:若采用几种不同的聚类方法处理,则 在各自的聚类图上应发现相同的类。
,聚类效果越好。但需 动态考察,即聚类到某一步时,样品已经 被分为k个类,下一步分为k-1类时,R2值 有明显下降,则认为分k个类合适。 2.伪F统计量:数值越大越可显著分为k个类 3.伪T统计量:数值越大上一次聚类的效果越 好。 4.半偏R2统计量:值越大上一次聚类的效果 越好。
(2 3)2 (4 3)2 2
2,4
(6 5.5)2 (5 5.5)2 0.5
6,5
(1 3)2 (5 3)2 8
1,5
红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接和黄红首先连接。
TREE过程用法
TREE过程可以把CLUSTER过程产生的OUTTREE= 数据集作为输入,画出谱系聚类的树图,并按 照用户指定的聚类水平(类数)产生分类结果 数据集。一般格式如下: PROC TREE DATA=输入聚类结果数据集 OUT=输 出数据集 GRAPHICS NCLUSTER=类数 选项; COPY 复制变量; RUN;
编号 A商场 B商场 C商场 D商场 E商场 购物环境 73 66 84 91 94 服务质量 68 64 82 88 90
聚类分析中“亲疏程度”的度 量
对“亲疏程度”的测度一般有2个角度: 一是个体间的相似程度,衡量个体间的相 似程度通常可以用简单相关系数或者等 级相关系数等;一是个体间的差异程度 ,通常通过某种距离来测度。
学校 参加科研 人数 (人) 410 336 490 投入经费 (元) 4380000 1730000 220000 立项课题 数(项) 19 21 8
(1,2) (1,2) (1,2) 样本的欧氏距离 元 265000 218000 47000 万元 81.623 193.7 254.897
1 2 3
凝聚方式聚类:其过程是,首先,每个个体自成一 类;然后,按照某种方法度量所有个体间的亲疏 程度,并将其中最“亲密”的个体聚成一小类, 形成n-1个类;接下来,再次度量剩余个体和小类 间的亲疏程度,并将当前最亲密的个体或小类再 聚到一类;重复上述过程,直到所有个体聚成一 个大类为止。可见,这种聚类方式对n个个体通过 n-1步可凝聚成一大类。 分解方式聚类:其过程是,首先,所有个体都属一 大类;然后,按照某种方法度量所有个体间的亲 疏程度,将大类中彼此间最“疏远”的个体分离 出去,形成两类;接下来,再次度量类中剩余个 体间的亲疏程度,并将最疏远的个体再分离出去; 重复上述过程,不断进行类分解,直到所有个体 自成一类为止。可见,这种聚类方式对包含n个个 体的大类通过n-1步可分解成n个个体。
系统聚类法 (hierarchical clustering method) 是聚类分析中诸方 法中用的最多者。 它包含下列步骤 ,见 右图
分类数的确定
到目前为止,我们还没有讨论过如何确定分类数 ,聚类分析的目的是要对研究对象进行分类, 因此如何选择分类数成为各种聚类方法中的主 要问题之一。谱系聚类法(系统聚类法)中我 们最终得到的只是一个树状结构图,从图中可 以看出存在很多类,但问题是如何确定类的最 佳个数。 实际应用中人们主要根据研究的目的,从实用的 角度出发,选择合适的分类数。Demir-men曾 提出了根据树状结构图来分类的准则:
最远邻居(Furthest Neighbor )距离: 个体与小类中每个个体距离的最大值。
组间平均链锁(Between-groups linkage )距离:个体与小类中每个个体距离的 平均值。
组内平均链锁(Within-groups linkage) 距离:个体与小类中每个个体距离以及 小类内各个体间距离的平均值。
聚类分析的思想
聚类分析是统计学中研究“物以类聚”问 题的多元统计分析方法。 聚类分析是根据样品或指标的“相似”特 征进行分类的一种多元统计分析方法。 例10.1 若我们需要将下列11户城镇居民按 户主个人的收入进行分类,对每户作了 如下的统计,结果列于下表。
某市2001年城镇居民户主个人收入数据
表中的8个指标,前6个是定量的,后2个是定性 的。如果分得更细一些,指标的类型有三种 尺度: (1)间隔尺度。变量用连续的量来表示,如“ 各种奖金”、“各种津贴”等。 (2)有序尺度。指标用有序的等级来表示,如 文化程度分为文盲、小学、中学、中学以上 等有次序关系,但没有数量表示。 (3)名义尺度。指标用一些类来表示,这些类 之间没有等级关系也没有数量关系,如表中 的性别和职业都是名义尺度。
个体 y
1 0
个体x
1
0
A
C
B
D
聚类分析的几点说明
所选择的变量应符合聚类的要求:所选变量应能够从不同的 侧面反映我们研究的目的; 各变量的变量值不应有数量级上的差异(对数据进行标准化 处理):聚类分析是以各种距离来度量个体间的“亲疏” 程度的,从上述各种距离的定义看,数量级将对距离产生 较大的影响,并影响最终的聚类结果。 各变量间不应有较强的线性相关关系
k
Phi方(Phi-Square measure)距离
[ xi E ( xi )]2 k [ yi E ( yi )]2 E ( xi ) E ( yi ) i 1 i 1 phisq( x, y) n
k
3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 简单匹配系数表
CLUSTER过程用法
CLUSTER过程的一般格式为: PROC CLUSTER DATA=输入数据集 METHOD=聚类方法 选项; VAR 聚类用变量; COPY 复制变量; RUN;
•METHOD=选项,这是必须指定的,此选项决定我们要用的聚 类方法,主要由类间距离定义决定。方法有AVERAGE、 CENTROID、COMPLETE、SINGLE、DENSITY、WARD、 EML、FLEXIBLE、MCQUITTY 、MEDIAN等 •DATA=数据集,可以是原始观测数据集,也可以是距离矩阵 数据集。 •OUTTREE=输出谱系聚类树数据集,把谱系聚类树输出到一个 数据集,可以用TREE过程绘图并实际分类。 •STANDARD选项,把变量标准化为均值0,标准差1。 •PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和 伪 统计量,CCC选项要求计算 、半偏 和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计 量,CCC较大的聚类水平是较好的。
Block距离
x i yi 73 66 68 64
i 1
k
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离