当前位置:
文档之家› SAS实验_因子分析_聚类分析
SAS实验_因子分析_聚类分析
实验过程: 1.搜集数据
通过搜索相关数据库,得到 2008 年我国各地区农村人均生活消费支出的相关数据,共包括 我国 31 个省市自治区,设计 8 个方面的人均消费支出。
2.数据准备和预处理
首先建立数据集,我将数据存在 D:\mydata.txt 中。此处编写 SAS 程序来实现 INPUT 数据。
选中运行结果的第三张表,pearson 相关系数检验表,如图:
分析: x 与其余 8 个变量均高度相关,相关系数都在 0.8 以上,而企鹅他很多变量之间的相关系 数都在 0.7 以上,且显著性检验的 p 值多很小,表明各变量间存在较强的相关性,反应的 信息有所重叠,这启发我们可以做聚类分析、关联分析,而在此之前,我们先利用主成分 法做因子分析,对数据进行降维处理。
4.因子分析
①主成分分析模型与介绍: 用元变量的线性组合提取数据中的信息, 当第一个线性组合不能提取足够多的信息时, 再 用第二个线性组合来继续提取, 如此进行下去, 知道所提取的信息与原变量反应的信息差 不多为止。 判定条件是, 利用变量的来描述, 如果综合指标的方差接近于原来变量的方差, 则认为他们较好地反映了原始数据的信息。 从而这样得到了一系列的线性组合, 将它们作 为综合指标去代替原来的变量,从而达到数据降维的目的,同时保存较多的信息。 具体方法如下: 1) 原始指标数据的标准化采集 p 维随机向量 x = (x1,X2,...,Xp)T)n 个样品 xi = (xi1,xi2,...,xip)T ,i=1,2,…,n, n>p,构造样本阵,对样本阵元进行如下标准化变换:
得到如图所示的而结果:
分析:此步给出了一个载荷矩阵。结合上一步的分析知道,两因子解释的方差占比较高,且 x1-x8 的共同度过都在 0.85 以上,表明该因子模型对原来每个变量的解释能力都较强,可以 较好地代表原变量。 但是自吸查看发现, factor1 在每个变量上的因子载荷基本都在 0.9 附近, factor2 的因子载荷都小于 0.4 且出现较多的负值,这样很难对公公因子作出合理解释,因此 必须进行旋转。 *注:关于公共因子和共同度 求出因子载荷矩阵[A]ij p × m,可以建立因子模型: X = AF + e 其中因子载荷矩阵 A 中第 i 行元素的平方和 h 的平方称为变量 Xi 的共同度过,而由因子模 型知 Xi 的方差包括:1.共同度,描述了公共因子对变量 Xi 的方差贡献,也就是变量 Xi 的方 差中能被公共因子所解释的部分;另一部分是特殊因子对变量 Xi 的方差贡献。因此,变量 的共同度越高,说明因子模型的解释能力越强。
解释: 将原始数据读入到 SAS 数据集中, 并在结果窗格中显示。 我们建立了数据集 expend, 利用 infile 语句读入外部数据文件,假定数据包含在 D 盘根目录下的 mydata.txt 中,选项 delimiter=’09’x 表示分隔符为制表符,firstobs=2,表示从第二行开始读入,input district $, district 表示地区,为字符型变量,x 为总支出,x1-x8 分别表示 8 项消费指标,再利用 label 语句加标签明确其含义。最后用 print 在结果窗口中显示。如图:
解决思路:
为了研究上述问题, 我们应当以近年的各地区农村人均生活消费支出相关数据为数据源, 通 过描述性统计分析对整体数据进行初步了解; 并在因子分析的基础上进行聚类分析, 对各地 区依据消费水平的高低进行分类; 还可以参数检验判断不同地区的农民生活水平是否存在差 异;若引入时序数据,则可进一步进行关联分析,预测某些地区未来的消费结构变化。本人 会在数据分析的基础上,结合实际进行分析,解释数据结果的实际意义。由于精力有限,此 次实验本人计划主要进行三项数据分析: 1. 描述性分析 2. 基于主成分法的因子分析 3. 在因子分析的基础上,用 Cluster 和 Tree 过程进行聚类分析 注:部分内容为参考教材自学,理解可能不甚透彻,若有错误恳请老师指出。
U1 称为第一主成分,U2 称为第二主成分,…,Up 称为第 p 主成分。 5) 对 m 个主成分进行综合评价 对 m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。 ②分析过程 编写代码如下: 35 36 37 proc factor data=expend; var x1-x8; run;
接下来我们对载荷矩阵进行旋转,进行方差最大的正交旋转,得到旋转后的因子载荷矩阵, 并将因子得分输出到数据集 scoreout 中。代码如下:
结果如图:
分析:从图中可以看出,factor1 在 x1 食品,x3 居住,x4 家庭设备和 x9 其他商品及服务商 有大于 0.7 的正载荷,结合实际该因子可以解释为基本物质生活支出;第二共因子 factor2 在 x3 衣着,x5 交通通信,x6 文教娱乐和 x7 医疗保健上有大于 0.70 的正载荷,可以理解为 文化生活支出。 根据旋转后的载荷矩阵,我们可以建立旋转后的因子模型: x1 = 0.91963 factor1 + 0.33811 factor2 x2 = 0.35111 factor1 + 0.90325 factor2 x3 = 0.75510 factor1 + 0.56795 factor2 x4 = 0.75453 factor1 + 0.57932 factor2 x5 = 0.64002 factor1 + 0.74248 factor2 x6 = 0.55977 factor1 + 0.76499 factor2 x7 = 0.44385 factor1 + 0.84633 factor2 x8 = 0.81261 factor1 + 0.45488 factor2 而当我们获得公共因子和因子载荷矩阵后, 可以计算公共因子在每个样本上对应的数值, 就 是因子得分,然后我们就可以用这些公共因子去代替原来的变量,实现数据降维的目的。计 算因子得分就是用原变量 X 来表示公共因子 F。 下面我们把因子得分排个序,建立新的查询,步骤如下: Step1:
SAS 数据挖掘与应用
实验报告
实验要求:
1. 选择经济领域中的一个问题, 确定相关的分析变量, 描述通过数据挖掘来探究 (或解释、 或解决)问题的逻辑思路,说明预期的结果(结论)等。 2. 查询和搜集相关原始数据 3. 整理、准备数据,建立数据集 4. 采用二种或二种以上的挖掘方法,或进行对比分析,或先后进行多个阶段的分析。 5. 对挖掘结果进行分析和说明。 6. 总结研究结论或结果。
利用 factor 过程实现因子分析, 计算得到相关矩阵的特征值、 方差贡献率及累计方差贡献率:
分析:从图中看出,第一列的特征值从大到小排列,第二列是相邻两行特征值的差异,第三 列是是每个特征值占全部特征值之和的比例,第四列是累计比例。从图中看出,前两个公共 因子的累计方差贡献率已达 9.9171, 表明两个公共因子所代表的信息已经能够很充分地反应 原变量了,因此我们下面制定两个公共因子来进行因子分析(n=2):
实验目的:
1. 2. 3. 4. 熟悉 SAS 软件操作 练习 SAS 编程 学习并练习描述性统计分析、因子分析、聚类分析等方法与实际操作 研究实际问题
问题描述:
“三农”问题是我国现阶段大力需要解决的问题之一,如何拉动农村经济发展,提高农民收 入已成为社会关注的焦点。 为了解决三农问题, 首先应当了解现阶段我国各地农民的生活水 平, 了解农村人均消费支出的情况。 因此, 我们希望通过分析农村人均消费支出的各项指标, 来研究各地农民的整体消费水平和消费结构,以及各地农村人口消费水平和结构的差异。
分析: (1)总支出为 3807.82 元,可以看出农民的生活水平总体来说还是较低的,改善农民生活 仍然任重道远。变量 x 的标准偏差为 1578.54,然而最大值为 9119.67,最小值为 2165.70, 极差达到 6953.97 元, 说明各地区农民生活水平差异很大, 贫富差距明显, 地区发展不平衡。 变量 x 的偏度为 2.08>0,说明为正偏态,均值左边集中右边分散,说明我国大部分地区的农 村消费支出仍然处于中低水平,高消费支出的地区较少,但是消费额很高。 (2)从变异系数来看,x6 文教娱乐的变异系数达到了 61.53,x4 家庭设备、x5 交通通信、 x7 医疗保健的变异系数也都超过了 50,说明各地区在文教、家庭设备、医疗保健等方面存 在较大的相对差异。 ②相关系数分析和 P 值检验 鉴于 x 是 x1-x8 的线性表示,之后我们只分析 x1-x8。此步利用 corr 过程计算变量间的相关 系数,代码如下:
Step2: (F2 类似)
Step3:
结果:
分析: (1)上海、广东、浙江在 Factor1 上的得分居前三位,说明这三个地区的基本物质生活支 出较高,当然生活成本也高,而山西、甘肃、新疆排在最后三位,说明这三个地区基本物质 生活支出很低,这些地区农民的基本生活水平急需改善。 (2)北京、浙江、上海在 Facotr2 上的得分分居前三位,说明这三个地区在文化生活上的 支出较高。而关系、海南和广东排在最后三位,说明这三个地区在文化生活上的支出较低。 (3)北京 Factor1 得分处于中游但是 Facotr2 处于帮手,且得分遥遥领先,说明北京的农 民特别重视文化生活,在文化教育医疗等方面有很大的消费投入。 (4)黑龙江、吉林、内蒙古、山西等再 Factor1 上得分很低,在 Factor2 上得分较高,说 明这几个地区的农民在基本物质生活上的支出不高, 但是文化生活上的投入较多, 可能和生 活习俗有关。 (5)广东在 Factor1 上得分第二,在 Factor2 上排在最后,说明广东农民更重视物质上的 消费,如食品、居住等,却在文化生活上消费不高,这是一种不甚合理的结构,应当积极引 导。
Step2:加入 cluster 节点,联结,设置相关属性。
Step3:运行 运行结果如下,这个结果本来我看起来十分诡异,31 个地区,分了 31 类,看起来没有起到 任何的聚类效果。 首先,Factor1 和 Factor2 的贡献值都为 0: