当前位置：文档之家› SAS实验_因子分析_聚类分析

SAS实验_因子分析_聚类分析

实验过程： 1.搜集数据
通过搜索相关数据库，得到 2008 年我国各地区农村人均生活消费支出的相关数据，共包括我国 31 个省市自治区，设计 8 个方面的人均消费支出。
2.数据准备和预处理
首先建立数据集，我将数据存在 D:\mydata.txt 中。此处编写 SAS 程序来实现 INPUT 数据。
选中运行结果的第三张表，pearson 相关系数检验表，如图：
分析： x 与其余 8 个变量均高度相关，相关系数都在 0.8 以上，而企鹅他很多变量之间的相关系数都在 0.7 以上，且显著性检验的 p 值多很小，表明各变量间存在较强的相关性，反应的信息有所重叠，这启发我们可以做聚类分析、关联分析，而在此之前，我们先利用主成分法做因子分析，对数据进行降维处理。
4.因子分析
①主成分分析模型与介绍：用元变量的线性组合提取数据中的信息，当第一个线性组合不能提取足够多的信息时，再用第二个线性组合来继续提取，如此进行下去，知道所提取的信息与原变量反应的信息差不多为止。判定条件是，利用变量的来描述，如果综合指标的方差接近于原来变量的方差，则认为他们较好地反映了原始数据的信息。从而这样得到了一系列的线性组合，将它们作为综合指标去代替原来的变量，从而达到数据降维的目的，同时保存较多的信息。具体方法如下： 1) 原始指标数据的标准化采集 p 维随机向量 x = (x1,X2,...,Xp)T)n 个样品 xi = (xi1,xi2,...,xip)T ，i=1,2,…,n， n＞p，构造样本阵，对样本阵元进行如下标准化变换：
得到如图所示的而结果：
分析：此步给出了一个载荷矩阵。结合上一步的分析知道，两因子解释的方差占比较高，且 x1-x8 的共同度过都在 0.85 以上，表明该因子模型对原来每个变量的解释能力都较强，可以较好地代表原变量。但是自吸查看发现， factor1 在每个变量上的因子载荷基本都在 0.9 附近， factor2 的因子载荷都小于 0.4 且出现较多的负值，这样很难对公公因子作出合理解释，因此必须进行旋转。 *注：关于公共因子和共同度求出因子载荷矩阵[A]ij p × m，可以建立因子模型： X = AF + e 其中因子载荷矩阵 A 中第 i 行元素的平方和 h 的平方称为变量 Xi 的共同度过，而由因子模型知 Xi 的方差包括：1.共同度，描述了公共因子对变量 Xi 的方差贡献，也就是变量 Xi 的方差中能被公共因子所解释的部分；另一部分是特殊因子对变量 Xi 的方差贡献。因此，变量的共同度越高，说明因子模型的解释能力越强。
解释：将原始数据读入到 SAS 数据集中，并在结果窗格中显示。我们建立了数据集 expend，利用 infile 语句读入外部数据文件，假定数据包含在 D 盘根目录下的 mydata.txt 中，选项 delimiter=’09’x 表示分隔符为制表符，firstobs=2，表示从第二行开始读入，input district $， district 表示地区，为字符型变量，x 为总支出，x1-x8 分别表示 8 项消费指标，再利用 label 语句加标签明确其含义。最后用 print 在结果窗口中显示。如图：
解决思路：
为了研究上述问题，我们应当以近年的各地区农村人均生活消费支出相关数据为数据源，通过描述性统计分析对整体数据进行初步了解；并在因子分析的基础上进行聚类分析，对各地区依据消费水平的高低进行分类；还可以参数检验判断不同地区的农民生活水平是否存在差异；若引入时序数据，则可进一步进行关联分析，预测某些地区未来的消费结构变化。本人会在数据分析的基础上，结合实际进行分析，解释数据结果的实际意义。由于精力有限，此次实验本人计划主要进行三项数据分析： 1. 描述性分析 2. 基于主成分法的因子分析 3. 在因子分析的基础上，用 Cluster 和 Tree 过程进行聚类分析注：部分内容为参考教材自学，理解可能不甚透彻，若有错误恳请老师指出。
U1 称为第一主成分,U2 称为第二主成分,…,Up 称为第 p 主成分。 5) 对 m 个主成分进行综合评价对 m 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。 ②分析过程编写代码如下： 35 36 37 proc factor data=expend; var x1-x8; run;
接下来我们对载荷矩阵进行旋转，进行方差最大的正交旋转，得到旋转后的因子载荷矩阵，并将因子得分输出到数据集 scoreout 中。代码如下：
结果如图：
分析：从图中可以看出，factor1 在 x1 食品，x3 居住，x4 家庭设备和 x9 其他商品及服务商有大于 0.7 的正载荷，结合实际该因子可以解释为基本物质生活支出；第二共因子 factor2 在 x3 衣着，x5 交通通信，x6 文教娱乐和 x7 医疗保健上有大于 0.70 的正载荷，可以理解为文化生活支出。根据旋转后的载荷矩阵，我们可以建立旋转后的因子模型： x1 = 0.91963 factor1 + 0.33811 factor2 x2 = 0.35111 factor1 + 0.90325 factor2 x3 = 0.75510 factor1 + 0.56795 factor2 x4 = 0.75453 factor1 + 0.57932 factor2 x5 = 0.64002 factor1 + 0.74248 factor2 x6 = 0.55977 factor1 + 0.76499 factor2 x7 = 0.44385 factor1 + 0.84633 factor2 x8 = 0.81261 factor1 + 0.45488 factor2 而当我们获得公共因子和因子载荷矩阵后，可以计算公共因子在每个样本上对应的数值，就是因子得分，然后我们就可以用这些公共因子去代替原来的变量，实现数据降维的目的。计算因子得分就是用原变量 X 来表示公共因子 F。下面我们把因子得分排个序，建立新的查询，步骤如下： Step1:
SAS 数据挖掘与应用
实验报告
实验要求：
1. 选择经济领域中的一个问题，确定相关的分析变量，描述通过数据挖掘来探究（或解释、或解决）问题的逻辑思路，说明预期的结果（结论）等。 2. 查询和搜集相关原始数据 3. 整理、准备数据，建立数据集 4. 采用二种或二种以上的挖掘方法，或进行对比分析，或先后进行多个阶段的分析。 5. 对挖掘结果进行分析和说明。 6. 总结研究结论或结果。
利用 factor 过程实现因子分析，计算得到相关矩阵的特征值、方差贡献率及累计方差贡献率：
分析：从图中看出，第一列的特征值从大到小排列，第二列是相邻两行特征值的差异，第三列是是每个特征值占全部特征值之和的比例，第四列是累计比例。从图中看出，前两个公共因子的累计方差贡献率已达 9.9171，表明两个公共因子所代表的信息已经能够很充分地反应原变量了，因此我们下面制定两个公共因子来进行因子分析(n=2)：
实验目的：
1. 2. 3. 4. 熟悉 SAS 软件操作练习 SAS 编程学习并练习描述性统计分析、因子分析、聚类分析等方法与实际操作研究实际问题
问题描述：
“三农”问题是我国现阶段大力需要解决的问题之一，如何拉动农村经济发展，提高农民收入已成为社会关注的焦点。为了解决三农问题，首先应当了解现阶段我国各地农民的生活水平，了解农村人均消费支出的情况。因此，我们希望通过分析农村人均消费支出的各项指标，来研究各地农民的整体消费水平和消费结构，以及各地农村人口消费水平和结构的差异。
分析：（1）总支出为 3807.82 元，可以看出农民的生活水平总体来说还是较低的，改善农民生活仍然任重道远。变量 x 的标准偏差为 1578.54，然而最大值为 9119.67，最小值为 2165.70，极差达到 6953.97 元，说明各地区农民生活水平差异很大，贫富差距明显，地区发展不平衡。变量 x 的偏度为 2.08>0，说明为正偏态，均值左边集中右边分散，说明我国大部分地区的农村消费支出仍然处于中低水平，高消费支出的地区较少，但是消费额很高。（2）从变异系数来看，x6 文教娱乐的变异系数达到了 61.53，x4 家庭设备、x5 交通通信、 x7 医疗保健的变异系数也都超过了 50，说明各地区在文教、家庭设备、医疗保健等方面存在较大的相对差异。 ②相关系数分析和 P 值检验鉴于 x 是 x1-x8 的线性表示，之后我们只分析 x1-x8。此步利用 corr 过程计算变量间的相关系数，代码如下：
Step2：（F2 类似）
Step3：
结果：
分析：（1）上海、广东、浙江在 Factor1 上的得分居前三位，说明这三个地区的基本物质生活支出较高，当然生活成本也高，而山西、甘肃、新疆排在最后三位，说明这三个地区基本物质生活支出很低，这些地区农民的基本生活水平急需改善。（2）北京、浙江、上海在 Facotr2 上的得分分居前三位，说明这三个地区在文化生活上的支出较高。而关系、海南和广东排在最后三位，说明这三个地区在文化生活上的支出较低。（3）北京 Factor1 得分处于中游但是 Facotr2 处于帮手，且得分遥遥领先，说明北京的农民特别重视文化生活，在文化教育医疗等方面有很大的消费投入。（4）黑龙江、吉林、内蒙古、山西等再 Factor1 上得分很低，在 Factor2 上得分较高，说明这几个地区的农民在基本物质生活上的支出不高，但是文化生活上的投入较多，可能和生活习俗有关。（5）广东在 Factor1 上得分第二，在 Factor2 上排在最后，说明广东农民更重视物质上的消费，如食品、居住等，却在文化生活上消费不高，这是一种不甚合理的结构，应当积极引导。
Step2:加入 cluster 节点，联结，设置相关属性。
Step3：运行运行结果如下，这个结果本来我看起来十分诡异，31 个地区，分了 31 类，看起来没有起到任何的聚类效果。首先，Factor1 和 Factor2 的贡献值都为 0：

e商务文档

SAS实验_因子分析_聚类分析

相关文档推荐：