当前位置:文档之家› 主成分分析及R语言案例

主成分分析及R语言案例

上海大学 2013~2014 学年 春 季学期研究生课程考试
课程名称:
统计中的矩阵应用
课程编号: 01SAQ9005
论文题目:
主成分分析及 R 语言案例
研究生姓名:
李腾龙
学号:
13720067
研究生班级: 理学院统计系
论文评语:
成 绩: 评阅日期:
任课教师:
主成分分析及 R 语言案例
摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作
二、主成分分析基本原理
2.1 主成分的定义
概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析 方法。从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析 问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较 多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这 样问题就简单化了。
主成分分析(Principal Component Analysis,PCA),就是将多个变量通过 线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。
主成分分析所关心的问题,是通过一组变量的几个线性组合来解释这组变量 的方差-协方差结构,它的一般目的是:(1)数据的压缩;(2)数据的解释。
主成分的方差(信息)贡献率用来反映信息量的大小, ai 为:
第二主成分 = 线性组合 a2 x ,在 a2a2 1和 Cov(a1X ,a2 X ) 0 时,它使 Var(a2 X ) 最大;
第 i 个主成分 = 线性组合 aiX ,在 aiai 1 和 Cov(aiX , ak X ) 0(k i) 时,它 使Var(aiX ) 最大;
2.2 基本结论
原理:假定有 n 个样本,每个样本共有 p 个变量,构成一个 n×p 阶的数据 矩阵,
x11 x12 x1p X来自x21x22
x2
p
xn1
xn2
xnp
记原变量指标为 x1, x2 ,, xp ,设它们降维处理后的综合指标,即新变量为 Y1,Y2 ,,Ym (m p) ,则
Y1 a11x1 a12 x2 a1p x p
结论 8.3:如果 Yi eiX , i 1,2, p 是从协方差矩阵 所得到的主成分,

ρYi ,X k
eik i kk
,
i,k 1, 2, , p 是Yi 和 X k 之间的相关系数。
三、主成分分析法的计算步骤
主成分分析的具体步骤如下:
(1)计算协方差矩阵 计算样品数据的协方差矩阵: (sij ) pp ,其中
虽然要求 p 个成分可以再现全系统的变异性,但大部分变异性常常只用少数 k 个主成分就可以说明。出现这种情况时,这 k 个主成分中所包含的信息和那 p 个原变量所包含的(几乎)一样多。于是这 k 个主成分就可以用来取代那初试的 p 个变量,并且由对 p 个变量的 n 次测量值所组成的原始数据,就压缩为对 k 个 主成分的 n 次测量值所组成的数据集。
结论 8.1:设 是随机向量 X [ X1, X 2 , X p ] 的协方差矩阵,他有特征值— 特征向量 (1,e1),(2,e2 ),,(p ,ep ) ,其中 1 2 p ,则第 i 个主成分由
Yi eiX ei1X1 ei2 X 2 eip X p , i 1,2, p
给出,此时:Var(Yi ) eiei i
i 1,2,, p
Cov(Yi ,Yk ) eiek 0 i k
如果有某些 i 相等,那么对应的系数向量 ei 的选取从而 i 的选取,就都不是唯一 的了。
结论 8.2:随机变量 X X1 X 2 X p 具有协方差矩阵 ,其特征值-
特征向量为 (1,e1),(2,e2 ),,(p ,ep ) ,其中 1 2 p 0 ,设第 i 个主成 分为Yi eiX , i 1,2, p
p
p
则总体总方差 11 22 pp Var( X i ) 1 2 p Var(Yi )
i1
i1
从而有:
总k个方主差成中分属的于比第例
1
k 2
p
k 1,2,, p
如果总方差的相当大的部分归因于第一个、前两个或前三个主成分,而 p 较大, 那么这些成分就可以“取代”原来的 p 个变量,而且信息损失不多。
中主成分分析方法的具体步骤,并同时叙述了作者对主成分分析的一些 想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统 计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步 了解并掌握 R 语言统计分析软件的使用方法。
关键词:主成分分析、R 语言、特征值、特征向量
一、引言
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂 性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有 一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量 反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立 尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课 题的信息方面尽可能保持原有的信息。
Y2
a21 x1
a22 x2
a2 p xp
.......... ..
Ym am1x1 am2 x2 amp x p
主成分是那些不相关的线性组合,Y1,Y2 ,,Ym (m p) ,使他们的方差尽可 能的大。因此我们定义:
第一主成分 = 线性组合 a1X ,在 a1a1 1时,它使Var(a1X ) 最大;
sij
1 n 1
n
( xki
k 1
xi )(xkj
xj)
i, j 1,2, p
(2)计算特征值和特征向量
求出 的特征值 i 及相应的正交化单位特征向量 ai :
解特征方程| I | 0 ,常用雅可比法(Jacobi)求出特征值,并使其按大 小顺序排列 1 2 p 0
的前 m 个较大的特征值 1 2 m 0 ,就是前 m 个主成分对应的方 差,i 对应的单位特征向量 ai 就是主成分Yi 的关于原变量的系数,则原变量的第 i 个主成分Yi 为:Yi aiX
相关主题