当前位置:文档之家› 第六章主成分分析(PCA)

第六章主成分分析(PCA)

12
§5.2 主成分分析的数学模型
适合用主成分分析的数据具有如下结构:
指 标
样 本
xij x
* ij
xij x j Varx j
, i 1,2,, n, j 1,2,, p
13
主成分分析中一个重要问题是受量纲的影响, 因此实际应用中,需要对数据进行标准化。
基本思想
将原来 p 个指标线性组合,作为新的综合指标,分别记为
第一步:对原始数据进行标准化处理
编号 面 配料 汤
NR1 NR2 NR3 NR4 NR5 NR6 NR7 NR8 NR9
23
-0.7 -1.3 1.3 -0.7 0 0.7 0.7 -1.3 0 1.3
0.3 1.2 0.5 1.4 1.2 0.5 0.3 1.4 0.5 1.2
1.4 1.3 0.8 0.1 1.4 0.6 0.1 1.3 0.6 0.1
第二学期 周学 考 考查 时 试 2 合格 3.5 合格 5 4 3 1 4.5 80 81 79 86 合格
课程名称
第 三 学 年
数字逻辑 离散数学 数据结构 编译原理 社会主义建设 计算机结构原 理 软件应用选讲 数理逻辑 接口与通讯 操作系统 程序设计语言 系统结构 软件工程
第一学期 周学 考 考查 时 试 4 86 4 77 4 85 4 84 2 合格 4 2 良 优
F1 , F2 ,,而这些新的线性组合必须满足:
F1尽可能的反映原来指标的信息(经典的方法是用方差
来表达信息,即选取使 var( F1 ) 最大的线性组合,称 F1为 第一主成分;
如果 F1不足以代表原来 p 个指标的信息, 再选取第二个线 性组合即 F2 , 同时要求 F1已包含的信息不需要再出现在 F2 中(数学上表示为 cov( F1 , F2 ) 0 ) ,称 F2 为第二主成分.
a11 a12 a1 p X 1 a a a X 22 2p 21 2 F AX a p1 a p 2 a pp X P
这就是正交旋转变换矩阵
17
§5.3 主成分的几何意义 平移、旋转坐标轴
15
满足:
1. 主成分的方差依次递减,重要性依次递减,即
Var (F1) Var ( F2 ) Var ( Fp )
2. 主成分之间互不相关,即无重叠的信息,即
Cov (Fi , F j) 0, i j , i, j 1, 2, , p
3. 每个主成分的系数平方和为1,即
10
问题的提出
基于上述问题,人们就希望在定量研究中涉及的 变量较少,而得到的信息量又较多。 主成分分析正是研究如何通过原来变量的少数几 个线性组合来解释原来变量绝大多数信息的一种 多元统计方法。
实际上是一种“降维”的思想
11
主成分分析案例
美国的统计学家Stone在1947年关于国民经济的研究. 他曾利用美国1929一1938年各年的数据,得到了17个反映 国民收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息外贸 平衡等等. 在进行主成分分析后,竟以97.4%的精度,用三新变 量就取代了原17个变量. 根据经济学知识给这三个新变量 分别命名为总收入F1、总收入变化率F2和经济发展或衰 退的趋势F3. 更有意思的是,这三个变量其实都是可以直 接测量的.
29
实例2:主成分得分实际意义分析 y1 是刻画尺寸大小的因子. y2 反映人的胖瘦情况,是一个体形因子.反映 “长”的尺寸前面的系数为正; 反映“围”的 尺寸前的系数为负. y3 系数多数取值很小,接近于0。只有三个系 数绝对值较大. y3 是反映特殊体形的因子,区 分有无畸形.
30
31
第五步:计算主成分得分
编号
NR1 NR2 NR3 NR4 NR5 NR6 NR7 NR8
26
第一主成分得分 0.7 -1.0 1.0 -1.1 1.5 -0.3 0.6 -2.3 -0.7 1.4
第二主成分得分 0.5 1.9 -1.3 -0.7 0.8 -0.7 -0.1 -0.1 -0.3 0.1
第二学期 周学 考 考 时 试 查
2
合 格
4 4 4 4 4 4 4 4 3 4.5 80 合格 85 77
94 90 84 77 合 格 合 格
英语 第 数学分析 模拟电路 二 PASCAL语言 学 哲学 管理学概论 年 体育 概率统计 微分方程 程序设计基础
4 5 3.5 4 2 2 1
76 82 92 94 良 良 合格
NR10
第二步:计算样本相关系数矩阵
面 面 配料 汤 1 0.19 0.36
配料 0.19 1 0.30
汤 0.36 0.30 1
24
第三步:求相关系数矩阵的特征值和相应的特征向量
25
第四步:选择重要的主成分,并写出主成分表达式
F1 0.57*面 0.52*配料 0.63*汤 F2 0.6*面 0.79*配料-0.11*汤
F1
x1

19
平移、旋转坐标轴
x2 F2
• • • • • • • • • • • • •• • • • • • •
F1
• • • • • • • • • • • •• • •
x1
20
平移、旋转坐标轴
F2
• ••
x2

F1
•• • • • • • • • • • • •• • •• • • • • • •• • • • •• • • •• • • • • • • •• •• • • • • • • • •• • • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • •• • • • • • • •
第六章 主成分分析 Principal Components Analysis, PCA 本章教学目标:
掌握主成分分析的基本概念、基本原理及其分析应 用的基本步骤; 能应用主成分分析方法解决实际问题.
多元时间序列分析方法初步
1
本章主要内容:
§6.1 §6.2 §6.3 §6.4 §6.5
3
实例2:学生的数学、物理、化学、语文、历史、 英语的成绩如下表.
如何给出排名?如何评价学 生的综合能力?
4
课程名称
第一学期 周学时 考试 考查 2 4.5 4 5 4 3 1 合格 92 80 83 良 合格 合格
中共党史 第 高等代数 解析几何 一 数学分析 英语 学 年 数据处理概论 体育 普通物理
a
16
2 k1
ak 2 akp 1, k 1,2,, p
2 2
主成分分析的过程也就是坐标旋转的过程
F1 a11 x1 a12 x2 a1 p x p F 2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p
F2 x2
•• • • • • • • • • • • • • • • • • • • •• • • •
F1
• • • •• • • • • •
• •
x1
18
平移、旋转坐标轴
x2 F2
• • • • • • • •••• • • • •• •• • • •• • • • • • • • • • •• • • ••
21
x1
§5.4 主成分分析的主要步骤
第一步:对原始数据进行标准化处理; 第二步:计算样本相关系数矩阵; 第三步:求相关系数矩阵的特征值和相应的特征向量; 第四步:选择重要的主成分,并写出主成分表达式; 第五步:计算主成分得分; 第六步:依据主成分得分数据,进一步分析
22
§5.5 案例分析
例1:面馆人气综合评价问题
y2
0.20 0.14 -0.33 0.18 0.20 0.27 0.19 -0.37 0.07 -0.17 -0.35 -0.02 0.11 -0.37 -0.27 -0.36
y3
0.01 -0.06 0.14 0.03 0.03 -0.03 0.02 -0.15 0.63 -0.53 -0.20 -0.31 -0.02 0.25 0.14 0.24
哪个面馆人气最高?
8
问题的提出
一. 能不能把数据的多个变量(指标)用
一两个综合变量来表示呢?
二. 这一两个综合变量包含有多少原来
的信息呢?
三. 能不能利用找到的综合变量来对学
生成绩、面馆人气排序呢?
9
问题的提出
一方面人们为了避免遗漏重要的信息而考虑尽可 能多的指标; 另一方面随着考虑指标的增多增加了问题的复杂 性,同时由于各指标均是对同一事物的反映,不 可避免地造成信息的大量重叠,这种信息的重叠 有时甚至会抹杀事物的真正特征与内在规律;
14
依次类推,可构造出第三,第四个主成分…….
基本思想
指标
F1 a11x1 a12 x2 a1 p xp 第一主成分 F a x a x a x 2 21 1 22 2 2p p 第二主成分 F a x a x a x 1 1 2 2 p p p pp p cov( Fi , F j ) 0
NR9 NR10
27
第六步:统计分析
28
例2: 服装生产
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16
身长 坐高 胸围 头高 裤长 下裆 手长 领围 前胸 后背 肩厚 肩宽 袖长 肋围 腰围 腿肚
y1
0.34 0.27 0.23 0.34 0.33 0.29 0.29 0.19 0.09 0.15 0.10 0.24 0.32 0.18 0.27 0.16
相关主题