当前位置:文档之家› 第8讲.SPSS的多元统计分析:因子分析、聚类分析、判别分析

第8讲.SPSS的多元统计分析:因子分析、聚类分析、判别分析


确定因子
因子旋转 求各因子得分 综合得分
因子分析
整体分析与设计的内容
三、操作
数据文件:“居民消费结构的变化.sav” 菜单:“分析→降维→因子分析”
选择符合条件的样本进行分析
因子分析
整体分析与设计的内容
三、操作
1.“描述”统计量
输出参与分析的各原始变量的 均值、标准差等。 初始分析结果,系统默认选项。输出 各个分析变量的初始共同度、特征值 以及解释方差的百分比等。
4.“选项” 按钮
选中该复选框后,即可输入 0~1 之间的数 值作为临界值。所有绝对值小于指定值的 载荷系数将不再显示。(系统默认为 0.10 )
因子分析
整体分析与设计的内容
四、输出分析
1.因子分析共同度
表示因子分析初始解下的变量共同度,它表明对原有8个 变量,如果采用主成份分析法提取 8 个特征根,那么原有 变量的所有方差都可被解释,变量的共同度均为 1(原变 量标准化后的方差为1)。
该方法假设变量是因子的纯线性 组合。第一主成份有最大的方差, 后续成分可解释的方差逐个递减。
输出未经旋转的因 子提取结果。 该图显示了按特征值大小排列的 因子序号,有助于确定保留多少 个因子。典型的碎石图会有一个 明显的拐点,在该拐点之前是与 大因子连接的陡峭的折线,之后 是与小因子相连的缓坡折线。 提取特征值大于指定数值的因子。 系统默认特征值为1.
第八章 SPSS的多元统计分析
本章主要内容:
因子分析
在工业、农业以及经济、管理等诸多领域中, 常常需要同时观测多个指标。例如,衡量一 个地区的经济发展,需观测的指标有:总产 值、利润、效益、劳动生产率、固定资产、 物价、信贷等。因此,受多种指标作用和影 响的现象是大量存在的。由于每个指标值是 不能预先确定的,那么该如何根据这些观测 数据进行有效的分析研究呢? ----------------多元统计分析,就是进行多个随机变量观测 数据分析的一种有效方法,它通过研究变量 之间的相互关系来揭示这些变量内在的变化 规律。在当前科技和经济迅速发展的今天, 国民经济许多领域只停留在定性分析上往往 是不够的。 为提高科学性、可靠性,通常需要定性与定 量分析相结合。而多元分析正是定量分析的 有效手段和方法。
设原有 p 个变量,且每个变量(或经标 准化处理后的变量)的均值为 0 ,标准 差为1.现将每个原有变量用k(k<p)因 子f1,f2,…,fk的线性组合来表示,即可得 此数学模型。 特殊因子,表示原变量不能被 因子解释的部分,均值为0
因子分析的基本思想是通过对变量的相关系数矩阵内 部结构的分析,从中找出少数几个能控制原始变量的 整体分析与设计的内容 随机变量 fi(选取的原则是使其尽可能多的包含原始 变量中的信息),并建立起数学模型。之后,忽略特 殊因子,用F代替X,并使其能再现原始变量X的信息, 从而达到简化变量、降低维数的目的。
聚类分析
判别分析
因子分析
整体分析与设计的内容
Hale Waihona Puke 一、案例背景 居民消费结构变化
“消费结构”是指消费过程中,各项消费支出占居民总支出的比重, 它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化 程度的重要标志。
消费结构的变动不仅是消费领域的重要问题,而且也关系到国民经济的 发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的 层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重 要的依据。 首先看一下本节课给出的相关数据: 本数据文件是某市民在食品、衣着、医疗保健等几个方面的消费数据。 这些指标之间存在着不同强弱的相关性。 如果单独分析这些指标,那么就很难全面的分析和了解居民消费结构的 特点。因此,我们可以考虑采用“因子分析”的方法,将这几个指标综 合为少数几个因子,通过这几个因子来考察居民消费结构的变动情况。
因子分析
二、方法原理
1.因子分析的数学模型 针对变量作因子分析,称为R型因子分析; 对样本个案做因子分析,称为Q型因子分析。 这两种方法有许多相似之处。其中,R型因子分析的数学模型如下:
x1 a11 f1 a12 f 2 ... a1k f k 1 x a f a f ... a f 2 21 1 22 2 2k k 2 ... x p a p1 f1 a p 2 f 2 ... a pk f k p
指明要提取的因子 数量。
因子分析
整体分析与设计的内容
三、操作
3.“旋转”按钮:因子 选择方法。
这是一种正交旋转法,使得 每个因子具有最高载荷的变 量数最小,可以简化对因子 的解释。 该方法中,每个变量中 需要解释的因子数最少。
直接斜交旋转法。点击该选 项后,需要输入 Delta 系数, 取值范围0~1.
因子分析
整体分析与设计的内容
四、输出分析
4.旋转前的因子载荷矩阵
这是因子分析的核心内容。通 过载荷系数大小可以分析不同 公共因子所反映的主要指标的 区别。从结果看,大部分因子 解释性较好。 采用因子旋转方法,能够使得 因子载荷系数向0或1两极分化, 使得大的载荷更大,小的载荷 更小,从而得到更具可解释性 的结果。
“方法”部分如果选择 “无”,则不能选该复选框。
因子分析
整体分析与设计的内容
三、操作
3.“得分”按钮:计算因子得分的方法。
将因子得分作为新变量保存 在数据文件中
巴特利法:其因子得分均值 为0. 是巴特利法的调整,可以保 证因子的正交性,其因子得 分均值为 0 ,标准差为 1 ,且 彼此不相关。 其因子得分的均值为 0 ;方差 等于估计因子得分与实际因子 得分之间的多元相关的平方, 即使公因子正交时此得分也可 能是相关的。
① 确认待分析的原变量是否适合作因子分析 因子分析的主要任务是将原有变量的信息重叠部分提取,综合成因子, 进而最终实现减少变量个数的目的,故它要求原始变量之间应存在较 强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、 巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因 子分析。
相关系数 矩阵的特 征值
方差贡献率。每个变量 后的数值表示其对原有 8 个变量总方差的解释 程度。 例如,第一个变量,即 可解释53.947%总方差
累积贡献率。前3个变量的累计贡 献率已经达到了94.196% 。 而且,也只有这三个变量的特征 根取值大于1.说明前3 个因子基本 包含了全部变量的主要信息,选 前3个因子为主因子即可。
因子分析
整体分析与设计的内容
四、输出分析
3.因子碎石图
横坐标为因子序号,纵坐 标为特征根。从图中可知, 第一个因子特征值最高, 对解释原有变量贡献最大; 第三个以后的因子特征根 都较小,取值都小于1,说 明它们对解释原有变量的 贡献很小,称为可以忽略 的“高山脚下的碎石”, 因此,提取前三个因子是 合适的。
因子分析
整体分析与设计的内容
三、操作
2.“抽取”对话框 (提取公因子)
适用于各变量度量 单位不同的情况 适用于各变量方差 不等的情况 用于输出与提取结 果有关的选择项。 理论上,因子数目 与原始变量数目相 等,但因子分析的 目的是用少量的因 子,替代多个原始 变量,因此需要这 个选项组来决定抽 取多少个因子。
其矩阵形式:
可实测的随机向量
X=AF+
因 子 载 荷 矩 阵 , 其 中 每 个 元 素 aij(i=1,2,…,p; j=1,2,…,k)称为因子载荷。
因子,由于它们出现在每个原有变量的线 性表达式中,又被称为公共因子。
因子分析
整体分析与设计的内容
二、方法原理
2.因子分析的基本操作步骤 一个完整的因子分析过程,主要包括如下几个步骤:
输出原始分析变量间 的相关系数矩阵。 相关系数的逆矩阵
因子分析后的相关矩 阵以及残差矩阵
前者用于检验变量间的偏相关是否 很小;后者用于检验相关系数矩阵 是否为单位矩阵,如果是,则表明 不合适采用因子模型。
反映像相关矩阵包括偏相关系数 的负数;反映像协方差矩阵包括 偏协方差的负数;一个好的因子 模型,对角线上的元素应较大, 非对角线元素则较小。
标准化原始数据 求标准数据的相关矩阵 求相关矩阵的特征值和特征向量 方差贡献率与累积方差贡献率
消除变量间在数量级和量纲上的不同。
设F1、F2,…,Fp为p个因子,其中前m个因子 包含的数据信息总量(即其累计贡献率)不 低于85%时,可取前m个因子来反映原评价指 标。 若所得的 m 个因子无法确定或其实际意义不是 很明显,这时需将因子进行旋转,以获得较为 明显的实际含义。 用原指标的线性组合来求。 通常以各因子的方差贡献率为权,由各因子的 线性组合得到综合评价指标函数。
因子分析
整体分析与设计的内容
四、输出分析
5.旋转后的因子载荷矩阵(待续)
从表中可知:第一主因子在 “交通和通信”、“医疗保健” 等 5 个指标上具有较大的载荷 系数; 第二主因子在“居住”和“衣 着”指标上系数较大。 第三主因子在“杂项商品与服 务”上的系数最大。 此时,各个因子的含义更加突 出。 第一主因子,是享受性消费因子,从系数的正负值可知:有的消费在递增,有的则递减。 第二主因子,是发展性消费因子,也包含了递增和递减的消费项目。 第三主因子,是其他类型的消费因子。
因子分析
整体分析与设计的内容
二、方法原理
在研究实际问题的时候,往往希望尽可能的收集相关变量,以期对问 题有较全面、完整的把握和认识。例如,企业综合评价研究中,可能会 收集诸如盈利能力、负债能力、运营能力等方面的经济指标数据。 这些数据在带来有关信息的同时,也给数据的分析带来了一定的困难: 这众多的变量之间可能存在着或多或少的相关性,实际观测到的数据包 含的信息有一部分可能是重复的。 为了解决这些问题,最简单和最直接的办法就是减少变量数目。但这 又将导致另一个问题,即信息丢失或不完整的问题。 因此,研究人员希望能够找到一种有效的方法,既能减少参与数据分 析的变量个数,同时又不会造成统计信息的大量浪费和丢失。 ----“因子分析”就这样应运而生了。 因子分析就是在尽可能不损失信息或少损失信息的情况下,将多个变量 减少为少数几个因子的方法,这几个因子可以高度概括大量数据中的信 息。这样,既减少了变量个数,又同样能再现变量之间的内在联系。
相关主题