模式识别第六章 特征提取
J D ( x1 , x2 ,, xk ) J D ( x j )
j 1 k
k n
(5) 当x各分量x1,x2,…,xn相互独立时,(对特征数目单 调不减)
J D ( x1 , x2 ,, xk 1 ) J D ( x1 , x2 ,, xk 1 , xk ) k n
25
这就启发我们运用两个概密的比或差来描述 两个概密重迭或相似的程度。
22
6.2.2 基于概率分布的可分性判据
(二)散度判据JD (Divergence)
i类对j类的平均可分性信息为:
p(x | i ) Iij (x) E lij (x) x p(x | i ) ln p(x | ) dx j
k 1
对特征数目是单调不减,即加入新的特征后,判据值不减, 具有单调性:
Jij ( x1, x2 ,..., xd ) Jij ( x1, x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵函 数
10
6.2 类别可分离性判据
基于几何距)]
1/ 2
{ p( x | 1 ) p( x | 2 )}1/ 2 dx
19
[ P(1 ) P(2 )]1/ 2 exp( J B )
6.2.2 基于概率分布的可分性判据
Chernoff判据:比JB更一般的判据
JC ln p( x 1 ) p( x 2 ) dx
类内距离和类内散布矩阵 类间距离和类间散布矩阵 多类模式向量间的距离和总体散布矩阵
Bhattacharyya判据(JB) Chernoff判据(JC) 散度判据(JD)
基于类的概率密度函数的可分性判据
基于熵函数的可分性判据
11
6.2.1 基于距离的可分性判据
基于距离的可分性判据的实质是 Fisher 准 则的延伸,即综合考虑不同类样本的类内 聚集程度与类间的离散程度这两个因素。 判据的优化体现出降维特征空间较好地体 现类内密集。一些不能体现类间分隔开的 特征很可能被排除掉了。 离散度矩阵(散布矩阵):一种描述数据 离散程度的方法。
类间可分离 性判据
基于距离的准则概念直观,计算方 便,但与错误率没有直接联系
15
6.2.2 基于概率分布的可分性判据
考虑两类问题。上图是一维的两类概率分布密度。 (a) 表示两类是完全可分的。 (b) 是完全不可分的。
16
6.2.2 基于概率分布的可分性判据
可用两类分布密度函数间的距离(或重叠程 度)来度量可分性,构造基于类概密的可分性 判据。重叠程度反应了概密函数间的相似程度。
6.2.2 基于概率分布的可分性判据
一般情况下,散度与误分概率(或其上下界)之间
的直接解析关系很难得到,但实验可以证明它们之间
存在着单调关系。例如两类都是正态分布,且有相同 的协方差阵时, Pe 是 J D 的单调减函数。
当两类先验概率相等且为具有相同协方差的正态
分布时,则最小误分概率与 J D 的关系为:
傅立叶变换、小波变换等 用PCA方法作特征压缩
7
6.2 类别可分离性判据
特征选择或特征提取任务是从n个特征中求出 对分类最有效的m个特征(m<n)。 对于特征选择来讲,从n个特征中选择出m个特 征,有Cmn种组合方式。 哪一种特征组的分类效果最好? 需要一个定量的准则来衡量选择结果的好坏。
j
(x , x ) (x x ) (x x )
( j) T l
squared Euclidian
类间 距离
类内平 均距离
1 mi ni
c
(i ) x k k 1
ni
m Pi mi
i 1
c
1 ni (i ) J d (x) Pi (xk , mi ) (mi , m) ni k 1 i 1 c c c 1 Pi (mi , m) Pi Pj (mi , m j ) 2 i 1 j 1 i 1
3
6.1 引言
特征的选择与提取是模式识别中重要而困难的一 个环节:
分析各种特征的有效性并选出最有代表性的特征是模 式识别的关键一步 降低特征维数在很多情况下是有效设计分类器的重要 课题 物理和结构特征:易于为人的直觉感知,但有时难于 定量描述,因而不易用于机器判别 数学特征:易于用机器定量描述和判别,如基于统计 的特征
第六章 特征选择与提取
1
主要内容
引言 类别可分离性判据 特征提取与K-L变换 特征的选择 讨论
2
6.1 引言
模式识别的三大核心问题 特征数据采集 特征提取与选择 分类识别 分类识别的正确率取决于对象的表示、 训练学习和分类识别算法,前面各章的 介绍中详细讨论了后两方面的内容。本 章介绍的特征提取与选择问题则是对象 表示的一个关键问题。
21
6.2.2 基于概率分布的可分性判据
实际上 JC ln p( x 1 ) p( x 2 ) dx 可以写成:
s 1 s
p( x | ) s 1 J C ln p( x | 2 )dx p( x | 2 )
对于i和j两类总的平均可分性信息称为散度,其 定义为两类平均可分性信息之和,即
p( x | i ) J D Iij I ji p( x | i ) p( x | j ) ln dx x p( x | j )
23
6.2.2 基于概率分布的可分性判据
当两类都是正态分布时: i
~ N (mi , i )
1 1 1 1 T 1 1 J D Tr 2 I ( m m ) ( i j j i i j i j )( mi m j ) 2 2
当1 2 时,
J D (mi mj ) (mi mj ) 8J B
1 (1 2 ) 1 1 (1) 1 2 (2) T 1 2 (1) (2) J B (m m ) (m m ) ln 1/ 2 1/ 2 8 2 2 1 2
当1 2 时,
1 (1) ( 2) T 1 (1) ( 2) J s (1 s )( m m ) ( m m ) C 2 J 1 ( m(1) m ( 2) ) T 1( m (1) m ( 2)) B 8
13
基于距离的可分性判据
类间可分性:=所有样本间的平均距离: n
1 1 J d (x) Pi Pj 2 i 1 j 1 ni n j
(i ) k ( j) l (i ) k
c
c
(i ) ( j) ( x , x k l ) k 1 l 1
(i ) k ( j) l
ni
4
三大类特征:物理、结构和数学特征
特征的形成
特征形成 (acquisition):
信号获取或测量→原始测量 原始特征
实例:
数字图象中的各像素灰度值 人体的各种生理指标 原始特征分析: 原始测量不能直观反映对象本质 高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏
5
特征的选择与提取
两类提取有效信息、压缩特征空间的方 法:特征提取和特征选择
特征选择(selection) :从原始特征中挑选出 一些最有代表性,分类性能最好的特征; 特征提取 (extraction):用映射(或变换)的 方法把原始特征变换为较少的新特征;
特征的选择与提取与具体问题有很大关 系,目前没有理论能给出对任何问题都 有效的特征选择与提取方法。
s 1 s
最小误判概率
0 < s <1
Pe P(1 ) s P(2 )1 s p( x 1 ) s p( x 2 )1 s dx P(1 ) s P(2 )1 s exp( J c )
20
6.2.2 基于概率分布的可分性判据
对两类都是正态分布情况:
1 1 (1 s ) 1 s 2 1 (1) (2) T (1) (2) J C s (1 s )(m m ) (1 s ) 1 s 2 (m m ) ln 1 s s 2 2 1 1
17
6.2.2 基于概率分布的可分性判据
贝叶斯分类最小错误率:
Pe min[ P(1 ) p( x 1 ), P(2 ) p( x 2 )dx
依据不等式 s 1 s min[a, b] a b ,
可得错误率的上界:
Pe P(1 ) P(2 )
s 1 s
a, b 0,0 s 1
Pe 1
JD
2
y2 1 exp dy 2 2
26
6.2.2 基于概率分布的可分性判据
8
6.2 类别可分离性判据
类别可分离性判据:衡量不同特征及其组合对分 类性能好坏的影响,并用来导出特征选择与特 征提取的方法。 理想准则:分类器错误概率
特征选择和提取的目的是用于分类,以分类器错误 概率为准则选取的特征,应当是最有效的特征。 从错误概率的计算公式可以发现,即使在类条件概 率密度已知的情况下错误概率的计算也很复杂,何 况实际问题中概率分布常常不知道,这使得直接用 错误概率作为准则来评价特征的有效性比较困难。
9
6.2 类别可分离性判据
实际的类别可分离性判据应满足的条件: