SAS判别分析和聚类分析
3.快速聚类
FASTCLUS过程
PROC FASTCLUS DATA=数据集名 <选项>; VAR 变量名列表; ID 变量名; RUN;
3.快速聚类
3.快速聚类
39
3.快速聚类
40
3.快速聚类
41
4.变量聚类
变量聚类即R型聚类,它是通过分析变量(指标)间的亲疏关系来对变量 做出分类,以达到对变量进行归纳和整理的目的。 对变量进行分类可以通过两种途径来实现:一种简单的办法是对数据矩阵 进行转置,那么转置后的变量就处于观测的地位,我们可以将它们作为一个个 “样品”来进行Q型聚类,可以采用系统聚类的方法,也可以采用快速聚类的 方法。但是,由于我们在Q型聚类中经常采用的是欧式距离,这对变量来说没 有现实的意义,故而这种处理途径的效果并不好。另一种方法是利用相关系数 来对变量之间的关系进行描述,然后采用一些聚类方法达到对变量进行分类的 目的。显然,这一种方法更易于被接受和理解。 变量聚类一般根据相关阵或协方差阵对变量进行分裂聚类或谱系聚类,类 的选择则是根据主成分分析的思想,使得每一类的第一主成分所解释的方差达 到最大。
各类间的平方距离和线性判别函数
9
2.一般判别分析
回判结果
10
2.一般判别分析
回判汇总结果及各类错判比例
11
2.一般判别分析
对待确定的数据判定结果
12
2.一般判别分析
对分类情况的汇总
13
3.典型判别分析
主要思想
14
3.典型判别分析
PROC CANDISC DATA=数据集; CLASS 分类 变量名; VAR 变量名 列表; BY 分组变量 名; RUN;
2.系统聚类
3、TREE过程
语句说明: (1)PROC语句用于规定运行TREE过程,并指定要分析的数据集名。 DATA=数据集应是由聚类过程输出的数据集。 (2)ID语句规定的变量用以在打印输出的树状谱系图中识别对象。ID变量 可以是字符或数值变量。 (3)NAME语句规定一个字符或数值变量,用以识别由每个观测代表的节 点。 (4)HEIGHT语句规定一个数值型变量用于定义这个树中每个节点的高度。 (5)PARENT语句规定一个字符或数值变量来识别这个树中表示每个观测 的父辈的节点。
2.系统聚类
2.系统聚类
PSEUDO规定输出伪F和T平方统计量 OUTtree=数据集名,生成一个输出数据 集,用于TREE过程绘制树状聚类谱系图, 如果不使用该选项,则生成DATAN数据集
输出立方聚类标准,R2和半偏 R2统计量
34
2.系统聚类
35
3.快速聚类
当样本量很大时,如果每一步聚类都还要进行两两比较,则整个聚类过程 需要很长的时间。这时采用快速聚类就可以很好地解决这一问题。快速聚类是 一种动态的聚类过程,它先从粗略的分类开始,然后进行逐步修改,直到找到 合理的分类。 快速聚类的基本思想是:首先选取一些凝聚点,使样品以最近的凝聚点进 行聚类,这样就可以将样品作出粗略的分类,然后按照某种准则一次次地进行 调整,直到不能继续调整为止。快速聚类与计算中的迭代法很类似,都是从初 始情形开始,逐步进行优化,直到得出一定条件下的最优结果。由于每一步都 要将原先的分类作出调整,因此快速聚类不同于系统聚类,不能绘制出谱系图。
2.系统聚类
系统聚类的基本思想是:首先定义样品间的距离以及类之间的距离,然后 将距离最近的样品聚成一类,再减少类的个数并将距离较近的样品聚到一类, 这个过程一直进行下去,使得每个样品都能聚到合适的类中。 具体地来说,系统聚类的过程是:第一步,直接将n个样品独自划为一类, 即共有n类;第二步,先计算上一步中任意两类(即两两样品)之间的距离, 然后将距离最近的两类(也就是两个样品)聚为一类,这样共有n-1类;第三步, 先计算上一步中任意两类之间的距离,再将距离最近的两类合并为一类,这样 共有n-2类;这样的步骤一直进行下去,直到最后将所有的样品都聚为一类。
2.系统聚类
CLUSTER过程
PROC CLUSTER DATA=数据集名 METHOD=聚类方法 <选项>; VAR 变量名列表; ID 变量名; RUN;
TREE过程
PROC TREE DATA=数据集名 <选项>; ID 变量名; NAME=变量名; HEIGHT 变量名; PARENT=变量名; FREQ=变量名; RUN;
4.变量聚类
4.变量聚类
46
4.变量聚类
变量聚类的结果和相关统计量
47
4.变量聚类
由变量 计算类 的主成 分的标 准回归 系数 变量与类的 主成分之间 的相关系数
48
4.变量聚类
类与类之间的 相关系数
49
4.变量聚类
每一步分类的效果评价
50
4.变量聚类
51
PROC DISCRIM DATA=典型变 量数据集; CLASS 分 类变量名; VAR 典 型变量名; RUN;
15
3.典型判别分析
16
3.典型判别分析
在临时数据库work下数据集 下可以查看到数据集CAN, 为每个观测对应的典型变量 得分
17
3.典型判别分析
典型变量系数
18
3.典型判别分析
22
4.逐步判别分析
23
4.逐步判别分析
逐步筛选过程的总结
24
4.逐步判别分析
DISCRIM过程判别结果
25
聚类分析
聚类分析简介
系统聚类 快速聚类 变量聚类
1.聚类分析简介
分类的问题一般有两种:一是根据已知的类别将现有的样品归属于其中的 某一类;另一种是在不知道要分的类别甚至不知道要分几类的情况下,根据现 有样品自身的性质和它们相互之间的接近程度进行划分归类。前者一种问题可 以通过判别分析的方法来处理,这在上一章已经做出了介绍;后者则可以通过 聚类分析来加以解决,我们将在本章中予以介绍。 聚类分析从数值分类学发展而来,它引入了数学和多元统计的方法,克服 了定性分类的主观性和随意性,能够比较合理地揭示客观事物内在的特征与联 系,对于大样本、多因素以及多指标问题更体现出了其优势所在。根据聚类对 象的不同,可以将聚类分析分为两种:Q型聚类和R型聚类。Q型聚类是对样品 进行分类,R型聚类则是对变量(指标)进行分类。
SAS
判别分析
1
l判别分析简介ick to add Title
2
3 4
一般判别分析k
典型判别分析
add Title
to add Title
逐步判别分析
to add TitleLeabharlann 1.判别分析简介样本
已知数据
Title函数 in here
判别方法
归类
确定类别
2.一般判别分析
方法
距离判别法
通过计算距离函数 来进行判别,即样 品与哪个总体之间 的距离最近,则判 断它属于哪个总体 。我们一般利用马 氏距离来描述。
4.变量聚类
采用分裂聚类时,变量聚类的一般步骤是: (1)首先将所有的变量都作为一个类来处理。 (2)从当前的类中选择一个将要被分裂的类,选择的标准是用它的主成 分所解释的方差百分比最小或第二特征值最大。 (3)将选中的类分裂为两个类,具体方法是:计算出此类的第一主成分 和第二主成分,然后进行斜交旋转,再将每个变量分配到旋转后的两个主成分 对应的类中去,分配的原则是使得变量与主成分的相关系数最大。 (4)根据分裂后现有的类,对变量进行调整重新分配到这些类中去,使 得这些类的主成分解释的方差最大。 (5)重复步骤(2)-(4),直到满足某一准则时,停止聚类过程,产生 最终的变量分类结果。
2.系统聚类
为了直观地反映每一步聚类的结果,可以将以上的聚类过程绘制成谱系图 进行分析,所以系统聚类又称为谱系聚类,
2.系统聚类
根据系统聚类的原则,将距离最小的两类合并为新的一类。由类间距离的 不同定义产生了不同的系统聚类方法。常用的系统聚类法有: (1)类平均法(Average Linkage) (2)最短距离法(Single Linkage) (3)最长距离法(Complete Method) (4)中间距离法(Median Method) (5)重心法(Centroid Method) (6)可变类平均法(Flexible-Beta Method) (7)Ward最小方差法(Ward’s Minimum-Variance Method) (8)McQuitty相似分析法(McQuitty’s Similarity Analysis) (9)最大似然法(EML) (10)密度估计法(Density Linkage) (11)两阶段密度估计法(Two-Stage Density Linkage)
根据典型变量的分类结果
19
4.逐步判别分析
最后得到的判别函数中,所有变量都是显著的
建立辨别函数
直到在可选的变量中,既没有变量被选入也没有变量被删除为止。
循环,直到不进不剔
对已有的变量也进行检验,将不显著的变量剔除
剔除
在建立判别函数时逐个引入变量,每一步选择都一个判别能力最显著的变量进入判别函数
逐个引入
20
4.逐步判别分析
SAS过程
在进行逐步判别分析时, 使用STEPDISC过程只能 完成变量的筛选。要实 现完整的判别分析,则 1.STEPDISC过程对变 量进行筛选,在得出 筛选结果 2.利DISCRIM 过程依据筛选 出的变量进行 判别分析。 两步走
还需要联合使用DISCRIM
过程。
21
4.逐步判别分析
4.变量聚类
2、VARCLUS过程
语句说明:
(1)PROC语句用于规定运行VARCLUS过程,并指定要分析的数据集名。 (2)VAR语句规定要进行分类的数值型变量。如果不使用该语句,则默认 对所有的数值型变量进行分类。 (3)PARTIAL语句规定了偏出变量(即固定变量),使得VARCLUS过程 将基于偏相关来进行分类。 (4)SEED语句规定的变量将作为初始分类的变量。