当前位置:文档之家› 大数据数学基础 多元统计分析

大数据数学基础 多元统计分析


y1的贡献率最大
,表明它解释原始变量的能i1力最强,而
i 1
y2 ,
, y p 的解释能力依次减弱。主成分分析的目的就是为了减
少变量的个数,因而一般是不会使用所有 p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差
带来太大的影响。

前 m 个主成分的贡献率之和为
m
i
/
p
,i 称为主成分
y1, y2 ,
x为各变量已标准化的随机向量时, ii
1,即
有(式6-57)成立。
hi2
2 i
1

(式6-57)
21
正交因子模型
p
(3) A的列元素平方和
g
2 j
ai2j
p
p
i 1
V xi ai21V f1 ai22V f2
, ym的累计贡献率,它表明 y1, y2 ,
, ym
i 1
i 1
解释原始变量的能力。通常取(相对于 p)较小的 m,使得累计贡献率达到一个较高的百分比(如80%~
90%)。此时, y1, y2 , , ym 可代替 x1, x2 ,, xp ,从而达到降维的目的,而信息的损失却不多。
7
总体主成分
➢ 主成分分析就是一种通过降维技术把多个原始变量重新组合成少数几个互不相关的主成分(综合变量)的 统计方法。这些主成分能够反映原始变量的绝大部分信息,通常表示为原始变量的某种线性组合。
3
总体主成分
Car 情报局
1.主成分的定义
➢ 设x (x1, x2,, xp )T 为一个 p 维随机向量,并假定二阶矩阵存在,记 μ E( x) ,Σ V (x) 。进行如(式
的 yi tiT x 。
➢ 记 y (y1, y2, , yp )T,主成分向量 y 与原始向量 x 的关系为 y T T x ,其中 T (t1, t2 , , t p ) 。
6
总体主成分
Car 情报局


i 主成分
yi 在总方差
p
i
中的比例
i / p i,称为主成分
yi 的贡献率。第一主成分
xp p ap1 f1 ap2 f2
a1m fm 1 a2m fm 2
apm fm p
(式6-51)
Car 情报局
16
正交因子模型
➢ (式6-51)所示的模型可以用矩阵表示,如(式6-52)所示,可简记为(式6-53)。
Car 情报局
x1 1 a11 a12
x2
Car 情报局
S
1 n 1
n
( xi
i 1
x)( xi
x)T
(sij ) p p
Rˆ (rij ) pp
(式6-49) (式6-50)
(式6-49)中,x
1 n
n
xi
i 1
为样本均值。(式6-50)中, rij
sij (i, j 1, sii s jj
, p) 。
➢ 用样本协方差矩阵 S 作为总体协方差矩阵 Σ 的估计,或用样本相关矩阵Rˆ 作为总体相关矩阵 R 的估计
(式5-56)
mm
➢ 因子载荷不唯一。设 T 为任一
x μ ATT T f ε μ A* f * ε
正交矩阵,则模型(式6-53)可以表示为(式6-577)。
(式5-57)
19
正交因子模型
3.因子载荷矩阵的统计意义
(1) A的元素 aij
➢ 由(式6-53)可得(式6-58),也可表达为(式6-59)。
2 i

hi2
m
ai2j
(i 1, 2,
,则可以得到(式6-56)。
, p)
j 1
ii
hi2
2 i
(式6-56)
(式6-55)
➢ (式6-56)中, hi2 反映了公共因子对 xi 的影响,可以看作是公共因子 f j 对 xi 的方差贡献,称为共性方差

2 i
是特殊因子
i对
xi
的方差贡献,称为特殊方差。当
15
正交因子模型
1.数学模型
➢ 设 x (x1, x2,, xp )T 为一个 p 维随机向量,其均值 μ (1, 2,, p )T,协方差矩阵 Σ ( ii ) 。
➢ 因子分析的一般模型如(式6-51)所示。
x1 x2
1 2
a11 f1 a12 f2 a21 f1 a22 f2
,再按照求总体主成分的方法,即可获得样本主成分。
p
m
p
➢ 类似总体主成分,称i / i 为样本主成分yi 的贡献率,称i / i 为样本主成分y1, y2 , , ym (m p) 的
i 1
i 1
i 1
累计贡献率。
13
目录
4
主成分分析
5
因子分析
6
典型相关分析
7
小结
Car 情报局
14
因子分析
Car 情报局
称为因子载
荷矩阵。
17
正交因子模型
➢ 一般模型满足(式6-54),则称该模型为正交因子模型。
E
f
0
VE
fI ε 0
V
ε
Λ diag
2 1
,
2 2
,
,
2 p
cov
f
,
ε
E
fεT
0
(式6-54)
Car 情报局
18
正交因子模型
Car 情报局
2.正交因子模型的性质
➢ x 的协方差矩阵 Σ 的分解如(式6-55)所示。
2
a21
a22
xp p ap1 ap2
a1m a2m
f1 f2
1
2
a pm
fm
p
(式6-52)
x μ Af ε (式6-53)
f
(式6-53)中,
( f1,
f2 ,,
fm )T
ε
为公共因子向量,
(1,
2
,
,
p
)T
为特殊因子向量,A aij
主成分称为样本主成分。
➢ 设 X ( x1, x2 , xn )T 为来自总体的样本,数据矩阵如(式6-48)所示。
x11 x12
X
x21
x22
xn1 xn2
x1p
x2
p
xnp
(式6-48)
12
样本主成分
➢ 相应的样本协方差矩阵如(式6-49)所示,样本相关矩阵如(式6-50)所示。
发求主成分。
10
总体主成分
Car 情报局

最常用的标准化变换是令 xi* 就是原随机向量 x 的相关矩阵
xi i (i 1, 2, , p) 。这时标准化的随机向量 R,i而i 从相关矩阵 R 出发求得的主成分记 y*
x* (x1*, x2*, ( y1*, y2*,
, x*p)T 的协方差矩阵 Σ* , y*p ),T 则 y*有以下

当 时,
i 1 cov yi , yj 0 ( j 1, 2,
,即 ,i 1)
yi与
y
不相关。
j

var yi
max var aT x aTa1,cov yi , y j 0
( j 1, 2,
,i 1)。
➢ 这里的 y1, y2 , yp在本章中应有实际意义。设 1≥2≥ ≥p≥0为 Σ 的特征值, t1, t2 , , t p为相应的一组
i 1
i 1
i 1
p
p
m
互不相关的主成分 y1, y2 , , yp 的方差之和 i ,且存在m (m p) 使 ii i ,即 p 个原始变量所提
i 1
i 1
i 1
供的总信息(总方差)的绝大部分信息只需用前 m 个主成分来代替。

主成分 yk 与原始变量 xi 的相关系数
yk , xi
tik k ii
(i, k 1, 2,
, p) ,称为因子载荷量。
8
总体主成分
Car 情报局

p
2 ( yk , xi )
k 1
p i1
ti2k k ii
1 (i, k 1, 2,
, p), 因 y1, y2 ,
, yp 互不相关,故 xi与 y1, y2 ,
平方等于1。
, y p的全相关系数的
p
项目七:多元统计分析
目录
4
主成分分析
5
因子分析
6
典型相关分析
7
小结
Car 情报局
2
主成分分析
Car 情报局
➢ 数据分析中涉及的变量往往较多,且在高维空间中研究样本的分布规律,势必增加分析问题的复杂性。在 多数情况下,这些变量彼此之间存在着一定程度甚至是相当高的相关性,这就使包含在观测数据中的信息 ,在一定程度上有所重叠。这种变量间信息的重叠,增加了分析问题的复杂性。
Car 情报局
2.主成分的性质
➢ 主成分向量的协方差矩阵 V ( y) Λ 。该性质表明主成分向量的协方差矩阵为对角矩阵, Λ diag(1, 2 , , p )
,即 V (yi ) i i 1, 2, , p ,且 y1, y2 , , yp 互不相关。
p
p
p
➢ 主成分的总方差 ii i,其中 ii 为原始变量 x1, x2 ,, xp 的总方差。该性质表明总方差可分解为
cov(x, f ) cov(Af ε, f ) AV ( f ) cov(ε, f ) A (式6-58)
相关主题