当前位置:文档之家› SAS学习系列34.-因子分析

SAS学习系列34.-因子分析

SAS学习系列34.-因子分析
34.因子分析
(一)基本原理
一、概述
因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。

通常情况下,这些相关因素并不能直观观测。

因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。

因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

主成分分析是因子分析的特例。

主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。

因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。

二、原理
假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m<p )个共同因素f 1,…f m 的影响,再加上其它影响因素。

表示为:
用矩阵表示为
111p p m m p X A f e ⨯⨯⨯⨯=+
其中,共同影响因素f 1,…f m 是均值为0方差为1的随机变量,称为公共因子;A p×m 称为因子载荷矩阵,a ji 是第j 变量在第i 公共因子上的负荷,即X j 在坐标轴f i 上的投影;e i 是变量X i 所特有的因子,均值为0方差为σi 2,称为特殊因子。

各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即COV(e i , e j )=0, COV(e, f )=0. 因子分析就是用f 1,…f m 代替X 1, …, X p , 达到降维的目的。

主成份分析中,残差通常是彼此相关的。

因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。

而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。

在开始提取公共因子时,已假定它们彼此不相关且具有单位方差。

故向量X 的协方差矩阵Σ可以表为
Σ=D(X)=D(Af+e)=AA T +D
其中,D=diag(σ12, …, σp 2). 若假定X 已标准化,即每个X i 都均值为0
方差为1. 则
1122221
1var()i i i im m p i ij i i X a f a f a f X a σ==+++⎧⎪⎨==+⎪⎩∑ 记2
21m
i
ij j h a ==∑称为变量共同度,则有221, 1,...,i i h i p σ=+=. h i 2反映了公共因子f 对X i 的影响(贡献),即X i 对共同因素f 的依赖程度;σi 2为剩余方差,若h i 2接近1,σi 2很小,则表明因子分析的效果好。

公共因子f j 对X i 的影响,可由A 中第j 列元素来描述,
221p
i ij i g a ==∑
称为公共因子f j 对X 的贡献,是衡量公共因子重要性的尺度。

a ij 为第i 个变量与第j 个公共因子的相关系数,反映了它们的相关程度:
三、求因子载荷矩阵
若X 的协方差矩阵∑和D 已知,则根据∑-D =AA T 求出A
1122(,,)m m A λξλξλξ=
其中,λ1≥λ2≥…λm >λm+1=…=λp =0为∑*=∑-D 的特征值,ξi 为相应的特征向量。

但在实际问题中,并不知道∑和D ,就需要从n 个样品,p
个指标的np 个样本数据,估计因子载荷a ij 和特殊因子方差σi 2. 常用的参
数估计法有:主成分法、主因子解法、极大似然法。

(1)主成分法
记样本数据的协方差矩阵为ˆ∑,其特征值λ1≥λ2≥…≥λp ≥0, 相
应的特征向量为ξi . 当最后p-m 个特征值较小时,对ˆ∑
做谱分解: 111222ˆ=T T T m m m D λξξλξξλξξ∑+++ 先取111a λξ=,看11
ˆT a a ∑-是否接近对角矩阵,若是,说明只取一个公共因子就行了,所有指标主要受到这一个公共因子的影响;若否,再取222a λξ=,看1122
ˆT T a a a a ∑--是否接近对角矩阵……象主成分分析一样,直接取前q 个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。

此时,特殊因子方差为
221ˆ, 1,...,q
i
ii ki k a i p σ==∑-=∑ (2)主因子解法
主因子解法是对主成分法的修正,记样品数据的相关矩阵为R ,设R= AA T + D ,则R* = R –D = AA T 称为约相关矩阵。

若已知特殊因
子方差的初始估计*2ˆ()i σ
,则*2*2ˆ()1()i i h σ=-,故
计算R *的特征值λ1*≥λ2*≥…≥λp *>0,相应的特征向量为u i *, 则有近似分解式:R* = AA T , 其中

则A和D为因子模型的一个解,称为主因子解。

在实际中特殊因子方差是未知的,以上得到的解是近似解。

为了得到近似程度更好的解,常常采用迭代主因子法。

即利用上面得到的
作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。

变量共同度h i2常用的初始估计有以下三种方法:
①取第i个变量与其他所有变量的多重相关系数的平方;
②取第i个变量与其他变量相关系数绝对值的最大值;
③取1(等价于主成分解)。

(3)极大似然法
假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。

设p维观测向量X(1),...,X(n)为来自正态总体N p(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).
μ=,则似然函数为A,D的函数:φ(A,D),设∑= AA T +D,取X
求A,D使φ(A,D)达到最大。

为保证得到唯一解,可附加计算上方便的唯一性条件:A T D-1A = 对角阵,用迭代方法可求得极大似然估计A和D。

四、公共因子的解释
得到估计的因子模型后,还必须对得到的公因子进行解释。

即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。

该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。

因子解释是一种主观的方法,有时侯通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。

1. 因子旋转
将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。

它并不影响变量X i的共同度h i2,却会改变因子的方差贡献g j2。

因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。

设p维可观测向量X满足因子模型:X = AF +e。

T为正交矩阵,则因子模型可写为
X = ATT T F + e = A*F* + e
其中A* = AT,F* = T T F. 易知,
∑= AA T + D = A*A*T + D
其中A* = AT. 这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子解。

在这个意义下,因子解是不惟一的。

由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。

目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。

有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。

这些旋转方法的目标是一致的,只是策略不同。

如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。

倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。

在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。

因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。

2. 因子得分
计算因子得分,是用原有变量来描述因子,第j个因子在第i个样品上的值可表示为:
F ji = βj1x i1 + βj2x i2+…+ βjp x ip j = 1, …, k
其中,x i1, …, x ip分别是第1, …, p个原有变量在第i个样品上的取值,βj1, …, βjp分别是第j个因子和第1, …, k个原有变量间的因子值系数。

可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(βj1, …, βjp)总和,权数的大小表示了变量对因子的重要程度。

于是有
F j = βj1X1+βj2X2+…+βjp X p j = 1, …, k
称为因子得分函数。

由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。

因此,对因子值系数通常采用最小二乘意义下的回归法进行估计。

可将上式看作是因子变量F j对p个原有变量的线性回归方程(其中常数项为0)。

可以证明,式中回归系数的最。

相关主题