当前位置:
文档之家› [数学]应用多元分析第7章主成分分析
[数学]应用多元分析第7章主成分分析
二、几何解释
y2
x2
y1
y1 x1 cos x2 sin
x1
y2 x1 sin x2 cos
y1 cos y sin 2 sin x1 x cos 2
旋转变换的目的是为了使得n个样本点在 y1轴方向上的离散程度最大,即y1的方差 最大,变量y1代表了原始数据的绝大部分 信息,在研究某经济问题时,即使不考虑 变量y2也损失不多的信息。 y1与y2除起了浓缩作用外,还具有不相 关性。
y1称为第一主成分,y2称为第二主成分。
, , , 推广开来,对于p维总体 ,寻求正交变 1 2 n 换 U (uij ) p p,使得
1 2 U p
2 与 1 在所有正交变换中,所选正交矩阵U,使D(1 )最大; 不 3 与 1 、 1不相关的变量中D( 2 )最大; 相关;并且在所有与 2不相关,同时在所有与 1 、 2不相关的变量中D( 3 )最大;依 次类推。
主成分分析是考察多个数值变量间相关性的 一种多元统计方法,它是研究如何通过少数 几个主成分来解释多变量的方差—协方差结 构。 导出几个主成分,使它们尽可能多地保留原 始变量的信息,且彼此间不相关。
一、主成分分析的基本思想
将原来众多具有一定相关性的指标重新组合 成一组新的相互无关的综合指标来代替原来 指标。 以两个指标为例,信息总量以总方差表示:
p
i
m
主成分y1 ,
, ym的累积贡献率:
i 1 i 1 p
i
.
i
3、原始变量 x j 与主成分 y i的相关系数
x Ty 即x j t jk yk .
故 Cov( x j , yi ) Cov(t ji yi , yi ) t ji i
k 1 p
i ( x j , yi ) t ji , i 1, , p V ( x j )V ( yi ) jj
二主成分…
2为第 1为第一主成分, U 为总体 的主成分,
三、主成分分析的数学原理
对原有变量作坐标变换,
z1 u11 x1 u21 x2 ... u p1 x p z2 u12 x1 u22 x2 ... u p 2 x p ...... z p u1 p x1 u2 p x2 ... u pp x p
则称z1为第一主成分.
如果z2=u2’x满足
cov(z1 , z2 ) 0 u2 1 u2
var( z2 ) max var(u' x)
则称z2为第二主成分.
…
§7.2 总体的主成分
一、主成分的导出
' x = (x ,x , ,x ) 1 2 p 为一p维随机向量,其二 设
E( x), V ( x). 记1 2 p 0 为的 阶矩存在, 特征值, t1, t2 , , t p为相应的单位特征向量, 且相互正交。
计划学时: 4学时 教学课型: 理论课 教学目的与要求:理解主成分的概念,掌握主成分分析 的基本方法 教学重点:主成分分析的方法 教学难点:主成分分析的方法 教学方法、手段与媒介:根据教材用多媒体课件课堂讲授 教学过程与内容:
第七章 主成分分析
(Principal component analysis)
Cov( x j , yi )
11 ( x j , yi )
1 T pp
1 2
. p
1 2
要求满足: u 2 u 2 ... u 2 1 1k 2k pk
var( zi ) D(U ix) U iD( x)U i cov( zi , z j ) U iD( x)U j
如果z1=u1’x满足
u1 1 u1
var( z1 ) max var(ux) max(u' D( x)u)
0 p
2、主成分的总方差ຫໍສະໝຸດ tr () tr (T 'T ) tr (TT ' ) tr ()
V ( y )
i 1 i i 1 i i 1
p
p
p
ii
V ( xi )
i 1
p
第i个主成分yi的贡献率:
i
i 1
§7.1
引 言
主成分概念首先由 Karl Parson在1901年引进, 当时只对非随机变量来讨论的。1933年Hotelling 将这个概念推广到随机变量。 在多数实际问题中,不同指标之间是有一 定相关性。由于指标较多及指标间有一定的相 关性,势必增加分析问题的复杂性。 主成分分析就是设法将原来指标重新组合成 一组新的互相无关的几个综合指标来代替原来指 标。同时根据实际需要从中可取几个较少的综合 指标尽可能多地反映原来的指标的信息。
D( x )
i 1 i
2
Principal component in 2d
One-dimensional projection
其中y1、y2分别都是x1、x2的线性组合,并且 信息尽可能地集中在y1上。在以后的分析中 舍去y2,只用主成分y1来分析问题,起到了 降维的作用。 主成分分析就是通过适当的变量替换,使新 变量成为原变量的线性组合,并寻求主成分 来分析事物的一种方法。
yi t x
' i
i 1,2, , p
则yi为第i个主成分。
二、主成分的性质
1、主成分的均值与协方差
记
1 2 ' y = (y1 , ,y p ) , v E ( y), 0 T (t1, , t p ), v E (T ' x) T ' V ( y) T 'V ( x)T T ' T