第11章 因子分析
16
将这些特征根分别代入特征方程,然后求解各个相 应的线性齐次方程,就得到了3个相应的特征向量, 将这些特征向量单位化,得到相应于上述3个特征根 的3个单位特征向量分别为 a = ( 0.54 0.59 0.59)
(1) T
a(2) = ( 0.84 0.39 0.39) a(3) = ( 0 0.71 0.71)
1 2 n
T
L(, Σ) =
1 (2π)np/2 Σ
exp(1/2tr[Σ n/2
1
(xj x)(xj x)T +n(x )(x )T)] ∑
j= j=1
n
但并不能惟一确定A,为此,添加如下条件: 这里Λ是一个对角矩阵,用数值极大化的方法可以 得到极大似然估计
21
AT D 1 A = Λ
四、正交旋转
i =1 2 im i =1
p
p
令
g
2 j
=
∑
p
i =1
a i2j
p
,于是有
i 2 1
∑V(X ) = g
i =1
+ g ++ g + ∑σi2
2 2 2 m i =1
p
反映了公共因子 F 对 X , X , , X 的影响,是衡量公 共因子 F 重要性的一个尺度,可视为公共因子 F 对 的 X , X , , X 的总方差贡献。
k =1 m
即 a 是 X i 与 F 之间的协方差。若X为各分量已标准 化了的随机变量,则 a 为 X 与 F 之间的相关系数
ij
j
ij
i
j
7
二、A的行元素平方和的统计意义 的行元素平方和的统计意义
2 V ( X i ) = ai2V (F1 ) + ai22V (F2 ) + + aimV (Fm ) + V (εi ) 1 2 = ai2 + ai22 + + aim + σ i2 , i = 1,2,, p 1
17
因子分析模型为 X
1
= 0.833F1 + 0.544 F2
X 2 = 0.91F1 0.253F2 + 0.3175 F3 X 3 = 0.91F1 + 0.253F2 + 0.3175 F3
可取前两个因子 F1,F2为公共因子,第一个因子 对X的贡献为2.38, 第二个因子对X的贡献为0.42。
由上述相关矩阵,可写出其特征多项式为:
λ 1 λI R =
2 10 2 10 2 10 2 10 4 1 14 = (λ )( λ 2 λ + 1) 5 5 5
λ 1
4 5
λ 1
令此特征多项式等于0,得到特征方程,由此特征 方程可解得3个特征根分别为
λ1 =
7+2 6 = 2.38 5 72 6 λ2 = = 0.42 5 1 λ3 = = 0.20 5
T 1 2 p
(1)
( p)
X = AY
12
且
0 λ1 AT V (X ) = A 0 λ2
令
λ 1 A = A 0
0 λp
,并令
1/ λ 0 1 F = Y 0 1/ λp
则有 并且有 V (F ) = I 显然,这就形成了一个不包含 任何特殊因子的因子分析模型。
t1* , t 2* , , t m
λ * t* ,
1 1
λ2* t2* , ,
* * λm tm )
20
三、极大似然法
如果假定公共因子 F 和特殊因子 ε 服从正态分布, 则我们能够得到因子载荷和特殊因子方差的极大似然 估计。设 X , X ,, X 为来自正态总体N ( , Σ)的随机变量, Σ= 其中 AA +D ,那么似然函数为:
18
二、主因子法
主因子法是对主成分的修正,我们这里假定原始 向量X的各分量已作了标准化变化。如果随机变量X 满足因子模型(11.1.2)式,则有
R = AAT + D
其中R为X的相关矩阵,令
R* = R D = AAT
则称 R 为X的约相关矩阵(reduced correlation hi2 ,而不是1, matrix)。易见, R 的对角线元素是 非对角线元素和R中是完全一样的,并且也是一个非 负定矩阵。
即可得 如果X为各分量已标准化了的随机变量,则Σ就是 相关矩阵R,既有 R = AAT + D 因子模型具有两个重要的性质: 1. 模型不受变量量纲的影响 2. 因子载荷不是惟一的。
6
Σ = AAT + D
§11.2 模型参数的统计意义
一、A的元素 aij 的统计意义
COV ( X i , Fj ) = ∑ aik COV ( Fk , Fj ) + COV (ε i , Fj ) = aij
j
1 p p
g2 j
j
j
1
p
p
9
变量X §11.3变量 1,X2,…,Xp之间的相关性检验 变量
样 本 测 度 (Kaiser-Meyer-Olkin Measure of Sampling Adequacy)。 它是所有变量 X , X , , X 的简单相关系数的平方和 与这些变量之间偏相关系数的平方和之差。 相关系数实际上反映的是公共因子起作用的空间。 偏相关系数放映的是特殊因子起作用的空间。KMO接 近于1,越适合于作公共因子分析。KMO过小,不适合 于作因子分析。数据是否作因子分析,一般采用如下 主观判断:KMO在0.9以上,非常适合;0.8~0.9,很 适 合 ; 0.7~0.8 , 适 合 ; 0.6~0.7 , 不 太 适 合 ; 0.5~0.6,很勉强;0.5以下,不适合。
m
令
h =
2 i
∑a
j =1
σ ii = hi2 + σ i2 , i = 1, 2, , p
i
2 ij
i = 1, 2, , p
,于是
的影响,可以看成是公共 X 因子对 的方差贡献,称为共性方差(communality); 而 σ i2 是 特 殊 因 子 对 的 方 差 贡 献 , 称 为 特 殊 方 差 (specific variance)。当X为各分量已标准化了的随 σ 机向量时, = 1 ,此时有
本章内容重点: 本章内容重点:
因子分析的概念; 模型的参数估计方法;上机实现
2
§10.0 概述
因子分析最初是由英国心理学家C.Spearman提出的。 1904年他在美国心理学刊物上,发表了第一篇有关因 子分析的文章。以后逐渐扩展到社会学、气象学、政 治学、医学、地理学及管理学的领域。 因子分析和主成分分析有很大的不同,主成分分析 不能作为一个模型来描述,它只能作为一般的变量变 换,主成分分析是可观测变量的线性组合;而因子分 析需要构造一个因子模型,公共因子一般不能表示为 原始变量的线性组合。因子分析中的因子一般能够找 到实际意义,主成分分析的主成分综合性太强,一般 找不出实际意义。
X = AY = AF
V ( X ) = AA T
13
当然,假定原始观测变量完全由公共因子决定, 不存在特殊因子,可能是不合适,因此我们给定公共 因子数目m<p,只取 A 的前m列为因子载荷矩阵,而将 p-m列留给特殊因子,这时共性方差 h = ∑ (a λ ) 。一般 p m p 地取: 2 hi ∑ ∑1 aij2 λ j ∑ i =1 j = i =1 85% = p p ∑ λi ∑ λi ≥ i =1 i =1
m 2 i 2 j =1 ij j
这种解法称为因子模型的主成分分解。
14
【例11.1】 】
市场上肉类、鸡蛋、水果3种商品的月份资料的相 关矩阵为:
R= 1 2 10 2 10 2 10 1 4 5 2 10 4 5 1
试用主成分法求解因子分析模型。
15
解
Σ
其中 = ( , ,, ) 为均值,F , F , , F ε = (ε1 , ε 2 , , ε p )T 为特殊因子,它们 为公共因子, 都是不可观测的随机变量。上式可用矩阵表示为
T 1 2 p
1 2 m
X = + AF + ε
5
二、因子模型的性质
X的协方差矩Σ可以进行如下分解:
COV(X, X) = COV(AF + ε, AF + ε) = E(AF + ε)(AF + ε)T = AE(FFT )AT + AE(FεT ) + E(εFT )AT + E(εεT ) = AAT + D
A = (a(1) λ1 , a(2) λ2 , a(3) λ3 ) 0.54× 2.38 = 0.59× 2.38 0.59× 2.38 0.833 0.544 = 0.91 0.253 0.91 0.253
T
T
因子载荷矩阵为
0.39× 0.42 0.71× 0.20 0.39× 0.42 0.71× 0.20 0 0.3175 0.3175 0.84× 0.42 0
i
hi2 反映了公共因子对X
2 ii
hi2 + σ i2 = 1, i = 1, 2, , p
8
三、A的列元素平方和的统计意义 的列元素平方和的统计意义
∑V ( X ) = ∑ a V ( F ) + ∑ a
i =1 i i =1 2 i1 1 i =1 p p p 2 i2
V ( F2 ) + + ∑ a V ( Fm ) + ∑ V (ε i )
4
一、因子分析模型
因子分析的一般模型
X1 = 1 + a11F + a12 F2 +, a1m Fm + ε1 1 X = + a F + a F +, a F +ε 2 2 21 1 22 2 2m m 2 X p = p + ap1F 1+ap2 F2 +, apm Fm + ε p