模式识别教案
6 7 3
2
1.5 0.5
9 4 1
主 成 分 图 形 解 释
1
t2 t2 t2
0 0.5
0
-0.5 -0.5
8 5
2
-1 -1.5
-1 -2 -2 -3 -1 -2-1
-1
0 00 t1 t1 t1
1 1 1
2 2 2 3
3个λ,仅1个>1
2.57,0.38,0.05
0.1
-2 -0.1
-1
0
1
2
1545.9 120.36 -106.13 250 -628.81
150
1126.4 217.71 -223.13 -435.24
不存在
-58.497 172.22 -169.66 76.663
112.88
282.74 274.61
数 据
ˆ L LT
260 280 300 wavelength/nm 320
一个物 1 列主的 1
4 3
1 1 1
因纯 子光 谱
0.447 -0.464 -0.181
0.385 0.662 -0.628
0.473 -0.309 -0.192
0.484 -0.211 0.218
0.440 0.455 0.699
模式识别与分类 FA实例TTFA
多 环 芳 烃
245 265 286 305 325 B[k]F 111.2 38.2 52.5 110.6 14.7
( xik xi )(x jk x j )
n n [k 1 ( xik xi ) 2 ][k 1 ( x jk x j ) 2 ] k k
主 成 分 图 形 解 释
1:完全相同 0:完全正交 自标度化 的数据 cosα=r
Br/I 接近正交
相似系数或相关系数表 Cu Cu/Cl 负相关 Cu 1.000 Mn
金属间的相关性大于卤素间的
Cu与Cl反性相关
l1最重要,距原点距离越大,该特征权重越大,Cu
模式识别与分类 PCA实例1
相似 系数 相关 系数
cos ij
k n k 1
k n k 1 ik
x x jk
n 2 n (k 1 xik )(k 1 x 2 ) jk k k
rij
模式识别与分类
导言 数据预处理 无监督方法 有监督方法
本 章 作 业
模式识别与分类 导言
• Clustering/Classification 统称 • 一次观察的矢量表示 • 如下问题 t x x1 x2 xn
人眼识别物 中医看舌苔/脉搏 图谱辨别化合物 n为空间维数,变量数 变量即特征 各特征类型/量纲/大小 相差大
cov( ,2) 1 2 s22 cov(p,2)
cov( , p) 1 cov(2, p) 2 s pp
对称矩阵
模式识别与分类 数据预处理
相关矩阵如下:
1 r 12 R r1 p r12 1 r2 p r1 p 其中 r2 p r jk 1
300
Known B[b]F 苝 * 112.6 282.1 87.2 76.4 69.4 12.2 33.2 5.1 25 6.9
L
111.2 112.6 Predicted 280 282.1 87.2 76.4 苝2.25 蒽 38.2B[k]F B[b]F 52.5 69.4 12.2 280 111.2 112.9 282.7 1 110.6 33.2 5.1 1.3 2.25 38.0 25 85.96.9 73.3 14.7 5.5
2
nPC
3
1 2 3 4 5
斜率下降
因此d=2合适
0.90 100.00
模式识别与分类 PCA实例1
得分图
2.5
t1对t2作图
3个聚类 分属三人
6 3 7
1.5
9
4
主 成 分 图 形 解 释
1
t2
0.5
-0.5
8 5
2
t1最重要
3
-1.5 -3
-2
-1
0 t1
1
2
模式识别与分类 PCA实例1
载荷图 l1对l2作图
Mn 0.697 Cl -0.950 Br -0.530 I -0.645 1.000 -0.692 -0.233 -0.749 Cl 1.000 0.588 0.581 Br 1.000 -0.084
模式识别与分类 PCA实例1
得分图
2.5 1
特征的选择
5个全取 取Cu/Br/I 仍能分类 取Cu/Mn/Cl 效果略差 分类效果差 l2无效果
cov( j, k ) sij sik
但对于Autoscaling后的数据,s=1。 C即为R。
模式识别与分类
无 主成分分析PCA 监 督 因子分析FA 方 法 聚类分析clustering
模式识别与分类 PCA
X TL
T 得分score
载荷loading
d为主成分数
模式识别与分类 PCA
2.5
模式识别与分类 PCA实例1
din
上部与中部 上部与下部 中部与下部 0.0134 0.0080 0.0017
d out
0.205 0.385 0.589
dout / din
19.1 79.6 78.1
下部
应用示例
烟叶硅烷化色谱
上部
中部
• 辽宁凤城烟叶不同 部位烟叶的区分
模式识别与分类 FA
1
X
*
-0.640 0.205 0.334 1.442 0.832 -0.697
-2.904
HPLC-DAD
F
0.210 -0.066 -0.248 0.383 0.121 -0.329 -0.071
数 据
F
L
T
-0.370 2.178 1.783 1.758 -0.219 -2.227
但已 补仅知 1
X FL
T
T
LT L
1 T *
*
T (L L) L L
变换矩阵 抽象载荷 目标
ˆ L LT
预测目标
ˆ l* l j j
j 1 p
均值相对偏差 relative deviation 估计两者的一致性
rd
l* j
j 1
p
模式识别与分类 FA实例TTFA
tR/min 6.4 6.5 6.6 6.7 6.8 6.9 7.0 245 7.81 84.33 161.58 173.33 274.7 218.92 79.04
用少数几个通用因子描述矩阵中的特征
抽象因子需经旋转变换成实因子TTFA
X FL E
T
F 包含d个因子的特征参数,各因子对应1个起因 L 与对应因子相关的载荷分数 E 由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子
模式识别与分类 FA
目标转换因子分析Target Transformation FA
2 ij n 2
方差 j=1,…,p
协方差 1 n cov(j, k ) xij x j xik xk j,k=1,…,p; n 1 i 1 j≠k
模式识别与分类 数据预处理
方差-协方差矩阵,简称协方差矩阵如下:
2 s11 cov(2,1) C cov(p,1)
i 1
1
p
λ>1的成分为主成分
主 成 分 数 的 确 定
头发样品中的特征值与方差
成分数 特征值λ 方差% 累计方差% 3.352 1.182 0.285 0.135 0.045 67.05 23.65 5.70 2.70 67.05 90.70 96.40 99.10
4 5
指定
0 0
2 se
,
如90% 相应的d nPC在2-3间
投影判别法
T XL
数据重构 组成互不相关的新变量 取较少的主成分数(常为2),完成分类
2.5 9 1.5 4
0.5 8 5 -1.5 -3 -2 -1 0 2
1
-0.5
6 3 7
1
2
3
模式识别与分类 PCA实例1
不同嫌疑人头发中元素的含量(μg/g)
样品 1 2 3 4 5 6 7 Cu 9.2 12.4 7.2 10.2 10.1 6.5 5.6 Mn 0.30 0.39 0.32 0.36 0.50 0.20 0.29 Cl 1730 930 2750 1500 1040 2490 2940 Br 12.0 50.0 65.3 3.4 39.2 90.0 88.0 I 3.6 2.3 3.4 5.3 1.9 4.6 5.6
325 1.78 20.73 39.03 28.67 20.06 10.49 3.23
多 环 芳 烃 HPLC-DAD 数 据
6.8
6.6
6.4 325
285
245
有3个重要因子
7.0
模式识别与分类 FA实例TTFA
多 环 芳 烃
-1.476 -1.307 0.088 1.447 0.823 0.416 -0.371 -1.096
300 250 200 150 100 50 0
HPLC-DAD数据(mA) wavelength/nm 265 285 305 4.83 3.37 0.94 52.69 56.1 12.89 99.30 108.43 26.92 77.89 97.26 39.37 63.92 82.16 47.15 36.95 39.82 25.58 12.07 10.58 6.54