当前位置：文档之家› sas聚类分析(SAS)

sas聚类分析(SAS)

d1 d 2 d3 d 4 d5 d6 6
x11• x12•
x21• x22•
重心（Centroid clustering）距离：个体与小类的重心点的距离。重心点通常是由小类中所有样本在各变量上的均值所确定的点。
•
x1 , y1
•
x2 , y2
离差平方和法（Ward’s method）：聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。
系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。在系统聚类过程中，首先把离得近的类合并，所以在并类过程中聚合系数(Agglomeration Coefficients) 呈增加趋势，聚合系数小，表示合并的两类的相似程度较大，两个差异很大的类合到一起，会使该系数很大。如果以y轴为聚合系数，x轴表示分类数，画出聚合系数随分类数的变化曲线，会得到类似于因子分析中的碎石图，可以在曲线开始变得平缓的点选择合适的分类数。
相似性度量
从一组复杂数据产生一个相当简单的类结构，必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中，常常包含许多主观上的考虑，但是最重要的考虑是指标（包括离散的、连续的和二态的）性质或观测的尺度（名义的、次序的、间隔的和比率的）以及有关的知识。当对样品进行聚类时，“靠近”往往由某种距离来刻画。另一方面，当对指标聚类时，根据相关系数或某种关联性度量来聚类。
不同类型的指标，在聚类分析中，处理的方式是大不一样的。总的来说，提供给间隔尺度的指标的方法较多，对另两种尺度的变量处理的方法不多。聚类分析根据实际的需要可能有两个方向，一是对样品，一是对指标聚类。第一位重要的问题是“什么是类”？粗糙地讲，相似样品（或指标）的集合称作类。由于经济问题的复杂性，欲给类下一个严格的定义是困难的。
PROC TREE语句的重要选项有： DATA＝数据集，指定从CLUSTER过程生成的OUTTREE＝数据集作为输入。 OUT＝数据集，指定包含最后分类结果（每一个观测属于哪一类，用一个CLUSTER变量区分）的输出数据集。 NCLUSTERS＝选项，由用户指定最后把样本观测分为多少个类。 GRAPHICS，这是指定画谱系聚类的树图时使用高分辨率图形（要求有SAS/GRAPH模块）。 HORIZONTAL，画树图时横向画。
1、定距型变量个体间距离的计算方式
欧式距离（Euclidean distance）

2 2 2 (x y ) (73 66) (68 64) i i i 1
k
平方欧式距离（Squared Euclidean distance ）切比雪夫（Chebychev）距离
max xi yi max( 73 66 , 68 64)
准则1：任何类都必须在邻近各类中是突出的，即各类重心之间距离必须大。准则2：各类所包含的元素都不要过分地多。准则3：分类的数目应该符合使用的目的。准则4：若采用几种不同的聚类方法处理，则在各自的聚类图上应发现相同的类。
，聚类效果越好。但需动态考察，即聚类到某一步时，样品已经被分为k个类，下一步分为k-1类时，R2值有明显下降，则认为分k个类合适。 2.伪F统计量：数值越大越可显著分为k个类 3.伪T统计量：数值越大上一次聚类的效果越好。 4.半偏R2统计量：值越大上一次聚类的效果越好。
(2 3)2 (4 3)2 2
2，4
(6 5.5)2 (5 5.5)2 0.5
6，5
(1 3)2 (5 3)2 8
1，5
红绿（2，4，6，5）8.75 离差平方和增加8.75－2.5＝6.25 黄绿（6，5，1，5）14.75 离差平方和增加14.75－8.5＝6.25 黄红（2，4，1，5）10－10＝0 故按该方法的连接和黄红首先连接。
TREE过程用法
TREE过程可以把CLUSTER过程产生的OUTTREE＝数据集作为输入，画出谱系聚类的树图，并按照用户指定的聚类水平（类数）产生分类结果数据集。一般格式如下： PROC TREE DATA＝输入聚类结果数据集 OUT=输出数据集 GRAPHICS NCLUSTER=类数选项; COPY 复制变量; RUN;
编号 A商场 B商场 C商场 D商场 E商场购物环境 73 66 84 91 94 服务质量 68 64 82 88 90
聚类分析中“亲疏程度”的度量
对“亲疏程度”的测度一般有2个角度：一是个体间的相似程度，衡量个体间的相似程度通常可以用简单相关系数或者等级相关系数等；一是个体间的差异程度，通常通过某种距离来测度。
学校参加科研人数（人） 410 336 490 投入经费（元） 4380000 1730000 220000 立项课题数（项） 19 21 8
（1，2）（1，2）（1，2）样本的欧氏距离元 265000 218000 47000 万元 81.623 193.7 254.897
1 2 3
凝聚方式聚类：其过程是，首先，每个个体自成一类；然后，按照某种方法度量所有个体间的亲疏程度，并将其中最“亲密”的个体聚成一小类，形成n-1个类；接下来，再次度量剩余个体和小类间的亲疏程度，并将当前最亲密的个体或小类再聚到一类；重复上述过程，直到所有个体聚成一个大类为止。可见，这种聚类方式对n个个体通过 n-1步可凝聚成一大类。分解方式聚类：其过程是，首先，所有个体都属一大类；然后，按照某种方法度量所有个体间的亲疏程度，将大类中彼此间最“疏远”的个体分离出去，形成两类；接下来，再次度量类中剩余个体间的亲疏程度，并将最疏远的个体再分离出去；重复上述过程，不断进行类分解，直到所有个体自成一类为止。可见，这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。
系统聚类法 (hierarchical clustering method) 是聚类分析中诸方法中用的最多者。它包含下列步骤 ,见右图
分类数的确定
到目前为止，我们还没有讨论过如何确定分类数，聚类分析的目的是要对研究对象进行分类，因此如何选择分类数成为各种聚类方法中的主要问题之一。谱系聚类法（系统聚类法）中我们最终得到的只是一个树状结构图，从图中可以看出存在很多类，但问题是如何确定类的最佳个数。实际应用中人们主要根据研究的目的，从实用的角度出发，选择合适的分类数。Demir-men曾提出了根据树状结构图来分类的准则：
最远邻居（Furthest Neighbor ）距离：个体与小类中每个个体距离的最大值。
组间平均链锁（Between-groups linkage ）距离：个体与小类中每个个体距离的平均值。
组内平均链锁（Within-groups linkage）距离：个体与小类中每个个体距离以及小类内各个体间距离的平均值。
聚类分析的思想
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析是根据样品或指标的“相似”特征进行分类的一种多元统计分析方法。例10.1 若我们需要将下列11户城镇居民按户主个人的收入进行分类，对每户作了如下的统计，结果列于下表。
某市2001年城镇居民户主个人收入数据
表中的8个指标，前6个是定量的，后2个是定性的。如果分得更细一些，指标的类型有三种尺度：（1）间隔尺度。变量用连续的量来表示，如“ 各种奖金”、“各种津贴”等。（2）有序尺度。指标用有序的等级来表示，如文化程度分为文盲、小学、中学、中学以上等有次序关系，但没有数量表示。（3）名义尺度。指标用一些类来表示，这些类之间没有等级关系也没有数量关系，如表中的性别和职业都是名义尺度。
个体 y
1 0
个体x
1
0
A
C
B
D
聚类分析的几点说明
所选择的变量应符合聚类的要求：所选变量应能够从不同的侧面反映我们研究的目的；各变量的变量值不应有数量级上的差异（对数据进行标准化处理）：聚类分析是以各种距离来度量个体间的“亲疏” 程度的，从上述各种距离的定义看，数量级将对距离产生较大的影响，并影响最终的聚类结果。各变量间不应有较强的线性相关关系
k
Phi方（Phi-Square measure）距离
[ xi E ( xi )]2 k [ yi E ( yi )]2 E ( xi ) E ( yi ) i 1 i 1 phisq( x, y) n
k
3、二值（Binary）变量个体间距离的计算方式简单匹配系数（Simple Matching）雅科比系数（Jaccard）简单匹配系数表
CLUSTER过程用法
CLUSTER过程的一般格式为： PROC CLUSTER DATA=输入数据集 METHOD=聚类方法选项; VAR 聚类用变量; COPY 复制变量; RUN;
•METHOD=选项，这是必须指定的，此选项决定我们要用的聚类方法，主要由类间距离定义决定。方法有AVERAGE、 CENTROID、COMPLETE、SINGLE、DENSITY、WARD、 EML、FLEXIBLE、MCQUITTY 、MEDIAN等 •DATA＝数据集，可以是原始观测数据集，也可以是距离矩阵数据集。 •OUTTREE=输出谱系聚类树数据集，把谱系聚类树输出到一个数据集，可以用TREE过程绘图并实际分类。 •STANDARD选项，把变量标准化为均值0，标准差1。 •PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和伪统计量，CCC选项要求计算、半偏和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量，CCC较大的聚类水平是较好的。
Block距离
x i yi 73 66 68 64
i 1
k
2、计数变量个体间距离的计算方式
卡方（Chi-Square measure）距离

e商务文档

sas聚类分析(SAS)

相关文档推荐：