当前位置:
文档之家› 对主成分分析法三个问题的剖析
对主成分分析法三个问题的剖析
逐一剖析: 1. 为什么主成分系数是经标准差标准化后原始变量的协方差矩阵的特征向量 ? 2. 特征向量正负号 如何选取? 对进一步的研究如计算综合得分和聚类分析有何影响 ? 3. 主成分载荷值是如何得来的 ? 同时指 以致造成错误的结果. 出有些教材在计算主成分得分时混淆了主成分载荷和特征向量的概念 , 关键词 主成分分析法 特征值 特征向量 主成分载荷 主成分得分
always puzzling students in the process of teaching one by one. The first one is,why the principal component coefficients is the eigenvectors of the covariance matrix of normalized original variables? And the second one,How to select the sign of eigenvectors? What is the impact on further studies such as the calculation of composite scores and cluster analysis? The third one, How the principal component loading values come from? Besides, confusion of the concept of principal component loading and eigenvectors in the process of calculating the principal component scores from some which would cause erroneous results. materials was pointed out, Key words Principal Component Analysis Eigenvalue Eigenvectors Principal component loading Principal component scores
第 31 卷 第 4 期 2011 年 12 月
数学理论与应用 MATHEMATICAL THEORY AND APPLICATIONS
Vol. 31 No. 4 Dec. 2011
对主成分分析法三个问题的剖析
许淑娜 李长坡 ( 许昌学院城市与环境学院, 461000 ) 许昌,
摘 要
*
从主成分分析法的基本原理入手 , 针对教学过程中学生对主成分分析法感到费解的三个问题进行了
n
x12 x22 x m2
… … … …
n
x1n x2n × x mn
x11 x12 x1n … … … …
x21 x22 x2n
n
… … … …
x m1 x m2 x mn
x1i 2 ∑ i =1 n ∑ x2i x1i = i =1 n ∑ x mi x1i
Cp i = λ i p i ( i = 1 , 2, …, m) P 的列向量 p i 就是对应于特征 根据方阵特征值与特征向量的定义可知 , λ i 是 C 的特征值, 值 λ i 的特征向量. 因为:
对主成分分析法三个问题的剖析
119
x11 x21 T XX = x m1
λ2
[3 - 4 ]
, 若 C 为 m 阶实对称阵, 则一定可以对角化, 即有正交阵 P , 使 λm
λ1 -1 P CP = Λ =
λ2
( 2)
…,λ m 为 C 的特征值, P 的列向量是 C 的 m 个线性无关 其中, Λ 对角线上的元素 λ1 ,λ2 , 的特征向量.
n n n n
x2 , …, x m 之间的协方差矩阵为实对称阵 C ,因为新的综合指标 Z 之间互不相 原始指标 x1 , 所以它们之间的协方差矩阵应为对角阵 Λ: 关, C11 C21 C= C m1 由线性代数知识可知 C12 C22 C m2 … … … … C1m C2m C mm λ1 Λ = λm
2
主成分分析法的原理
主成分分析法的原理是比较容易理解的 , 且在多本教材中都有较详细的介绍 . 然而为了保 持内容的连贯性, 仍需对其做简要介绍. 我们在研究某一个问题时, 为了研究地更全面、 详尽而不遗漏重要信息, 总是选取尽可能 多的指标. 这就会带来这样的问题: 选取的指标过多, 给研究带来一定困难, 并且众多的指标之 间可能存在一定的相关性, 这样就造成了信息的重叠, 给研究结果带来影响. 那么, 能否通过原 始众多指标之间的线性组合, 用较少几个综合指标 ( 主成分 ) 代替原来众多的原始指标, 并且 能解释原始指标大部分信息? 这就是主成分分析法的基本原理 . x2 , …, x m 表示; 它们的综合指标用 z1 , z2 , …, zp ( p ≤ 设有 n 个样本, 涉及到 m 个指标, 用 x1 , m) 来表示. 新的综合指标( 设 p = m) 可由原始指标的线性组合表示. z1 = l11 x1 + l12 x2 + … + l1m x m z2 = l21 x1 + l22 x2 + … + l2m x m … z = l x + l x + … + l x m m1 1 m2 2 mm m 用矩阵形式表示: x1 x11 x21 x2 X = = x x n1 n x12 x22 x n2 … … … … x1m x2m x nm z1 z11 z21 z2 Z = = z z n1 n l12 l22 l n2 … … … … l1 m l2 m l nm ( 1) z12 z22 z n2 … … … … z1 m z2 m z nm
Dissection to Three Typical Issues of Principal Component Analysis
Xu Shuna Li Changpo
( College of Urban Planning and Environmental Science, XuChang University,Xuchang,China, 461000 ) Abstract Starting from the basic principles of Principal Component Analysis( PCA) , dissected the three issues which
l1 l11 l21 l2 L = = l l n1 n 则
Z = LX
问题的关键在求出系数 l ij , 由下列原则决定: z j ( i ≠ j,i, j = 1, 2, …, p) 互相无关; ① zi , x2 , …, x m 的所有线性组合中方差最大的; z2 是与 z1 不相关的 x1 , x2 , …, x m 的所 ② z1 是 x1 ,
-1 p2 , …, pm ) , 证明: P 用列向量可表示为( p1 , 由 P CP = Λ 可得: CP = P Λ, 即
λ1 C ( p1 , p2 , …, p m ) = ( p1 , p2 , …, pm ) 于是有:
λ2
= ( p , p , λ1 1 λ2 2 …,λ m p m ) λm
( 4)
将式( 3 ) 、 式( 4 ) 代入式( 2 ) 有: P -1 XX T P = ZZ T
T -1 又因 P 为正交阵, 则有 P = P , 因此有
( 5)
P T XX T P = ZZ T
T 令L = P , 则有
( 6)
LXX T L T = ZZ T , 即( LX ) ( LX )
1
前言
主成分分析法( Principle Component Analysis) 是一种重要的多元统计分析方法, 已被广泛 生物学、 地球科学等领域. 然而, 介绍主成分分析方法的诸多教材中, 存在介 地应用与经济学、 绍过于简单、 思路不清, 甚至还有错误之处
[1 - 2 ]
, 这给教师的教学和学生的学习带来了困扰 . 在
118
数学理论与应用
z2 , …, z m -1 不相关的 x1 , x2 , …, x m 的所有线性组合中方差 有线性组合中方差最大的; z m 是与 z1 , 最大的.
3
系数 L 的求解过程
2, …, m) = 0 ; 则第 j 个综合指标 Z j 设 X 为经过标准差标准化的值, 即 x j 的平均值x j ( j = 1 , 的平均值Z j = 0 ( 证: 1 1 z ji = ( l j1 ∑ x1i + l j2 ∑ x2i + … + l jm ∑ x mi = 0 ( j = 1 , 2, …, m) ) . n∑ n i = 1 i =1 i =1 i =1
T
= ZZ T
( 7)
LX = Z , L 的行向量是 C 的 m 个线性无关的特征向量. 求解 L 的问题转化为求 X 的 所以, X 经过标准差标准化后再求协方差矩阵 , 相当于直接求原始数据 协方差矩阵的特征向量问题, 的相关系数矩阵, 也等价于对标准差标准化后的数据求相关系数矩阵 . 从几何的角度来理解, l1 , l2 , …, l m 是 m 维空间 V m 的 m 个相互垂直的坐标轴, 2, …, m) 是原始变量 主成分 z i ( i = 1 , ( x1 , x2 , …, xm ) 在 li ( i = 1, 2, …, m) 坐标轴的投影.