当前位置:
文档之家› 主成分分析PPTword版本
主成分分析PPTword版本
u1u1 u12i u22i
u
2 pi
1
(2) 主成分之间相互无关,即无重叠的信息。即
Co(v yi,yj) 0,i j,i, j 1, , p
(3) 主成分的方差依次递减,重要性依次递减,即
Va(r y1) Var( y2 ) Var( yp )
二维空间中主成分的几何意义:设有n个样品,每个 样品有两个观测变量xl和x2。在由变量xl和x2 所确定 的二维平面中,n个样本点所散布的情况如椭圆状。 由图可以看出这n个样本点无论是沿着xl 轴方向或x2 轴方向都具有较大的离散性,其离散的程度可以分别
0
0
0
p
其中i ,i 1.2. p 是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量
为
u1, ,up
u11 u12
令 U (u1,
,up
)
u21
u22
up1 up2
u1 p
u2 p
upp
则U是正交矩阵,即有
UU UU I
二、主成分的推导
(一) 第一主成分 设x的协方差阵为
所以当且仅当a1 u1 时, y1有最大的方差1.
y1称为第一主成分。 如果第一主成分的信息不够,则需要寻找 第二主成分。
(二) 第二主成分 在约束条件 cov( y1, y2 ) 0下,寻找第二主成分
y2 a12 x1 a p2 x p a2 x
因为 cov( y1, y2 ) cov(u1 x, a2 x)
u1a2 1u1a2 0
所以 a2u1 0
于是,对任意的p维向量a2,有
p
V ( y2 ) a2a2 ia2uiuia2 i 1
因此,人们会很自然地想到,能否在相关分析的 基础上,用较少的新变量代替原来较多的旧变量, 而且使这些较少的新变量尽可能多地保留原来变量 所反映的信息?
事实上,这种想法是可以实现的,主成分分析方 法就是综合处理这种问题的一种强有力的工具。
主成分分析是把原来多个变量划为少数几个综合 指标的一种统计分析方法。从数学角度来看,这是一 种降维处理技术。
主成分分析通常的做法,是寻求原指标的 线性组合yi:
y1 u11 x1 u21 x2 up1 x p y2 u12 x1 u22 x2 up2 x p
y p u1 p x1 u2 p x2
满足如下的条件:
upp x p
(1) 每个主成分的系数平方和为1(否则其方差可 能为无穷大),即
用观测变量xl 的方差和x2 的方差定量地表示。显然, 如果只考虑xl和x2 中的任何一个,那么包含在原始数 据中的信息将会有较大的损失。
平移、旋转坐标轴
主
成
•• • • •
分 分 析 的 几 何
••
•• •• •
•• •
• ••
•
• o• •
• ••
•
• •
•
•
•
• •••
解
••
释
将xl 轴和x2轴先平移,再同时按逆时针方向旋转角 度,得到新坐标轴Fl和F2,则
2
数学模型与几何解释
§2 数学模型与几何解释
假设实际问题中有p个指标,我们把这p个 指标看作p个随机变量,记为x1,x2,…,xp, 主成分分析就是要把这p个指标,转变为讨论p 个指标的线性组合的问题,这些新的指标y1, y2,…,yk(k≤p),
原则: 保留主要信息量的充分反映原指
标的信息,并且相互无关。这种由讨 论多个指标降为少数几个综合指标的 过程在数学上就叫做降维。
2 1
Σx
21
12
2 2
p1 p2
1
p
2p
2 p
由于Σx为非负定的对称阵,所以存在正交阵U, 使得
UΣXU
1
0
0
p
其中1,…,p为Σx的特征根,不妨假设1…p。
U是由特征根相对应的特征向量所组成的正交阵:
u11 u12
i
U (u1,
,up
)
u21
u22
up1 up2
u1 p
u2 p
upp
ui u1i,u2i, ,upi i 1,2, , P
下面证明,由U的第一列元素所构成的原始变量的 线性组合有最大的方差。
设有P维单位向量 a1 a11, a21,
, a p1
y1 a11 x1 a21 x2 a p1 x p a1 x
主成分分析
目录
CONTENT
1 基本思想 2 数学模型与几何解释 3 主成分的推导及性质 4 主成分性质 5 样本的主成分 6 主成分分析计算步骤 7 主成分分析软件操作
1
基本思想
§1 基本思想
在研究中,多变量问题是经常会遇到的。变量太 多,无疑会增加分析问题的难度与复杂性,而且在 许多实际问题中,多个变量之间是具有一定的相关 关系的。
1
D(
y1 )
a1a1
a1U
2
Ua1
p
1
a1 u1,u2 ,
,
up
2
p
p
ia1uiuia1 1 a1uiuia1
i 1
i 1
1a1UUa1 1a1a1 1
u1
u2
a1
ቤተ መጻሕፍቲ ባይዱ
p
up
当a1 u1时, y1 u11 x1 up1 x p,且
Var y1 u1xu1 1.
平移、旋转坐标轴
x 2
F 1
主
F2
成
•• • • •
分 分 析 的 几 何
•• • •
•• •
•
• •
••• • • •
o • •••
• •• •
•• •
o•
• •
x 1
解
••
释
旋转变换的目的是为了使得n个样品点在Fl轴方向上 的离散程度最大,即yl的方差最大。
变量yl代表了原始数据的大部分信息,在研究某些 实际问题时,即使不考虑变量y2也无损大局。
二维平面上的各点的方差大部分都归结在Fl轴 上,而F2轴上的方差很小。
yl和y2称为原始变量x1和x2的综合变量。F简化 了系统结构,抓住了主要矛盾。
3
主成分的推导及性质
§3 主成分的推导及性质
一、两个线性代数的结论 1、若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0
U
1AU
0
2
经过上述旋转变换原始数据的大部分信息集中到 Fl轴上,对数据中包含的信息起到了浓缩作用。
平移、旋转坐标轴
x 2
F 1
主 成 分 分 析 的 几 何 解 释
F2 ••••
•••••
••••o••
••
•••o••••••••
•••
•••
•
x 1
yl,y2除了可以对包含在Xl,X2中的信息起着浓 缩作用之外,还具有不相关的性质,这就使得在 研究复杂的问题时避免了信息重叠所带来的虚假 性。