当前位置:文档之家› 最新多元统计分析之因子分析

最新多元统计分析之因子分析

多元统计分析之因子分析第八章因子分析§8.1 什么是因子分析及基本思想1904年Charles Spearman发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。

因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。

后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。

目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。

1 什么是因子分析因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。

假设100人测试的分数{}100,,1, =i X i 可以用上述六个因子表示成线性函数: ,1001,i 662211 =++++=i i i i i F a F a F a X ε其中61,,F F 表示六个因子,它对所有X i 是共有的因子,通常称为公共因子,它们的系数61,i i a a 称为因子载荷,它表示第i 个应试人员在六个因子方面的能力。

i ε是第i 个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定),0(~2i i N σε,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。

这里的61,,F F 的值未知的,并且有关参数的统计意义更不一样。

因子分析的任务,首先是估计出{}ij a 和方差{}2i σ,然后将这些抽象因子{}i F 赋予有实际背景和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。

因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:R 型因子分析(对变量作因子分析)和Q 型因子分析(对样品作因子分析)。

2 基本思想因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。

然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。

从全部计算过程来看作R 型因子分析与作Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,Q 型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定哪一类型的因子分析。

§8.2 因子分析的数学模型1 数学模型(正交因子模型)R 型因子分析数学模型⎪⎪⎩⎪⎪⎨⎧++++=++++=++++=p m pm p p p m m m m F a F a F a X F a F a F a X F a F a F a X εεε 2211222221212112121111 用矩阵表示:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡p m pm p p m m p F F F a a a a a a a a a X X X εεε 212121222211121121 简记为 )1()1()()1(⨯⨯⨯⨯+=p m m p p F A X ε 且满足:1)p m ≤ii )0),(=εF Cov 即F 和ε是不相关的;iii )m I F D =⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=10101)( 即F 1…F m 不相关且方差皆为1。

⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=2222100)(P D σσσε 即p εε,,1 不相关,且方差不同。

其中),(1'=p X X X 是可实测的p 个指标所构成p 维随机向量,),,(1'=m F F F 是不可观测的向量,F 称为X 的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为在高维空间中的互相垂直的m 个坐标轴;a ij 称为因子载荷是第i 个变量在第j 个公共因子上的负荷,如果把变量X i 看成m 维因子空间中的一个向量,则ij a 表示X i 在坐标轴F j 上的投影,矩阵A 称为因子载荷矩阵;ε称为X 的特殊因子,通常理论上要求ε的协方差阵是对角阵,ε中包括了随机误差。

由上述模型满足的条件可知:m F F F ,,,21 是不相关的。

若m F F F ,,,21 相关时,则D(F)就不是对角阵,这时的模型称为斜交因子模型,本章将不讨论这种模型。

类似地,Q 型因子分析数学模型为:⎪⎪⎩⎪⎪⎨⎧++++=++++=++++=nm nm n n n m m m m F a F a F a X F a F a F a X F a F a F a X εεε 2211222221212112121111 此时X 1, X 2, …, X n 表示n 个样品。

因子分析的目的就是通过模型ε+=AF X 代替X ,由于n m p m <<,,从而达到简化变量维数的愿望。

因子分析和主成分分析有很多相似之处,在求解过程中二者都是从一个协方差阵(或相似系数阵)出发,但这两种模型是有区别的,主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X 协方差阵∑结构的一种模型,当p m =时,若不能考虑ε,此时因子分析也对应于一种变量变换,但在实际应用中,m 都小于p ,且为经济起见总是越小越好。

另外在主成分分析中每个主成分相应的系数ij a 是唯一确定的,即因子戴荷阵不是唯一的,若Γ为任一个m m ⨯阶正交阵,则因子模型ε+=AF X 可写成:ε+Γ'Γ=))((F A X ,仍满足约束条件,即0),(),(,)()(=Γ'=Γ'=ΓΓ'=Γ'εεF Cov F Cov I F D F D m ,所以F Γ'也是公共因子,ΓA 也是因子载荷阵。

因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A 的结构不够简化时,可对A 实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。

从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F 是不可观测的。

2 因子模型中公共因子、因子载荷和变量共同度的统计意义为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。

假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量。

(1) 因子(2) 载荷的统计意义已知模型:i m im j ij i i i F a F a F a F a X ε++++++= 2211两端后乘F j 得:j i j m im j ij j i j i j i F F F a F F a F F a F F a F X ε++++++= 12211于是)()()()()()(2211j i j m im j j ij j i j i j i F E F F E a F F E a F F E a F F E a F X E ε++++++=由于在标准化下有:1,0)(,1)(,0)(,0)(=====i i i VarX X E Var E F E εε因此(),(),()i j i j i j i j X F i j F F i j F E X F r E F F r E F r εε===所以上式可写成:1212i j j j j j m j i j X F i F F i F F ij F F im F F F ij r a r a r a r a r r a ε=++++++=(因为各因子不相关,所以相关系数为0) 故因子载荷ij a 的统计意义就是第i 个变量与第j 个公共因子的相关系数即表示X i 依赖F j 的份量(比重)。

因此用统计学的术语应该叫作权,但由于历史的原因,心理学家将它叫做载荷,即表示第i 个变量在第j 个公共因子上的负荷,它反映了第i 个变量在第j 个公共因子上的相对重要性。

(2)变量共同度的统计意义所谓变量X i 的共同度定义为因子载荷阵A 中第i 行元素的平方和,即∑===m j ij i ah 122p ,1,i为了说明它的统计意义,将下式两边求方差,即i m im i i i F a F a F a X ε++++= 2211)()()()()(2222121i m im i i i Var F Var a F Var a F Var a X Var ε++++= V222221i im i i a a a σ++++=22i i h σ+=由于X i 已标准化了,所以有221i i h σ+=此式说明变量X i 的方差由两部分组成:第一部分为共同度2i h ,它刻划全部公共因子对变量X i 的总方差所作的贡献,2i h 越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了,如97.02=i h 则说明X i 的97%的信息被m 个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量多,因此2i h 是X i 方差的重要组成部分。

当02≈i h 时,说明公共因子对X i 影响很小,主要由特殊因子i ε来描述。

第二部分2i σ是特定变量所产生的方差,称为特殊因子方差仅与变量X i 本身的变化有关,它是使X i 的方差为1的补充值。

(3)公共因子F j 的方差贡献的统计意义将因子载荷矩阵中各列元素的平方和记为∑===p i ij j aS 12p ,1,j称S j 为公共因子F j 对X 的贡献,即S j 表示同一公共因子F j 对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。

§8.3 因子载荷阵的估计方法要建立某实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A 。

对A 的估计方法有很多,这里仅介绍使用较为普遍的主成分法。

设随机向量),,(1'=p X X X 的协差阵为0,21>≥≥≥∑p λλλ 为∑的特征根,p e e ,,1 为对应的标准正交化特征向量(只要特征根不等,对应的单位特征向量一定是正交的),则根据线性代数知识∑可分解为:∑='='⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑p i i i i p e e U U 1100λλλ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡''=p p p p e e e e λλλλ 1111),,( 上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时,因子模型中协差阵的结构。

相关主题