当前位置:文档之家› 特征提取与选择

特征提取与选择

−1 W B
J3 =
Tr [ SW ]
Tr [ S B ]
| SW + S B | | ST | J4 = = | SW | | SW |
可以证明J 可以证明 1、J2与J4在任何非奇异线性变换下 是不变的, 与坐标系有关。 是不变的, J3与坐标系有关。
7.2.2 基于类的概率密度函数的可分性判据
式中x 式中 k,是对象不同种类特 J ij ( x1 , x2 ,L , xd ) = ∑ J ij ( xk )征的测量值, Jij(●)表示使 征的测量值, 表示使 k =1 用括号中特征时第i类与第 类与第j 用括号中特征时第 类与第 类的可分性判据函数。 类的可分性判据函数。
d
(3)判据具有“距离”的某些特性: 判据具有“距离”的某些特性: 判据具有 Jij>0,当i≠j 时 Jij=0,当i=j 时 Jij= Jji (4) Jij 对特征数目单调不减,即加入新的 对特征数目单调不减, 特征后,判据值不减 特征后,
r 5)当 各分量x 相互独立时, (5)当 x 各分量 1,x2,…,xn相互独立时,
J C ( s, x1 , x2 ,L , xn ) = ∑ J C ( s, xl )
l =1 n
不具有三点距 (JC不具有三点距 离不等式的性质。) 离不等式的性质。)
(6)最小误分概率 6)最小误分概率
J C ( s, x1 , x2 ,L , xn ) ≤ J C ( s, x1 , x2 ,L , xn , xn +1 ), k < n
r r (i ) ∑ d ( x, ak )
i
2
k =1
(三)类内及总体的均值矢量 三 类内及总体的均值矢量 设N个模式分属c类,则各类的均值矢量分别为 个模式分属c r (i ) i = 1, 2,L , c ωi = { xk , k = 1, 2,L, Ni }
c r r (i ) 所有各类模式的总体均值矢量为 所有各类模式的总体均值矢量为 m = ∑ Pi m Ni i =1 r (i ) 1 r (i ) m = ∑ xk (i = 1, 2,L , c) N i k =1 式中P 为相应类的先验概率。 式中Pi为相应类的先验概率。 当用统计量代替先验概率时, 当用统计量代替先验概率时,有
1/ 2 r r r J B = − ln ∫ [ p ( x | ω1 ) p ( x | ω2 ) ] dx Ω
在最小误分概率准则下, 在最小误分概率准则下,误分概率
P0 (e) ≤ [ P (ω1 ) P (ω2 ) ]
1/ 2
ቤተ መጻሕፍቲ ባይዱ
exp [ − J B ]
(二)Chernoff判据 C) 二 判据(J 判据
第七章 特征提取与选择
7.1 概 述
特征形成 特征提取 特征选择
( J → max) r r x 目的: 目的: = ( x1 , x2 ,L , xn ) ' → y = ( y1 , y2 ,L , ym ) ', m < n
直接选择法 –分支定界法; 分支定界法; –用回归建模技术确定相关特征等方法。 用回归建模技术确定相关特征等方法。 变换法 变换法 在使判据J max的目标下 的目标下, 在使判据J→max的目标下,对n个原始特征进行变换 降维,即对原n维特征空间进行坐标变换, 降维,即对原n维特征空间进行坐标变换,然后再取子 空间。 空间。 主要方法有: 主要方法有: –基于可分性判据的特征选择 –基于误判概率的特征选择 –离散K-L变换法(DKLT) 变换法(DKLT) –基于决策界的特征选择等方法。 基于决策界的特征选择等方法。
r (i ) r ( j ) r (i ) r ( j ) ∑∑ ( xk − xl ) '( xk − xl )
k =1 l =1
Ni
Nj
(八)多类情况下总的类内、类间及总体离差(散布)矩阵 八 多类情况下总的类内 类间及总体离差(散布) 多类情况下总的类内、
总的类内离差矩阵定义为
1 SW = ∑ PSωi = ∑ Pi i Ni i =1 i =1
用两类概密函数的重迭程度来度量可分性, 用两类概密函数的重迭程度来度量可分性,构造基于 重迭程度来度量可分性 应满足: 类概密的可分性判据J 类概密的可分性判据 p ,它应满足: (1) Jp ≥0; ; (2)当两类密度函数完全不重迭时, Jp =max; 当两类密度函数完全不重迭时, 当两类密度函数完全不重迭时 ; (3)当两类密度函数完全重合时, 当两类密度函数完全重合时, 当两类密度函数完全重合时 (4)相对两个概密具有“对称性”。 相对两个概密具有“对称性” 相对两个概密具有
k =1 (二)r 点到点集的距离 r (i ) 点x 到点集ωi = {ak , k = 1, 2,L, Ni } 之间的均方欧氏 距离为 N n r r r r r r 1/ 2 d (a , b ) = [(a − b ) '(a − b )] = [∑ (ak − bk ) 2 ]1/ 2
1 2 r r (i ) d ( x ,{ak }) = Ni
r r p( x | ω j ) r p( x | ω j ) r r I ji ( x ) = E j ln r dx = ∫ p( x | ω j ) ln r p( x | ωi ) p( x | ωi ) Ω
对于ω1和ω2两类总的平均可分性信息称为散度,其定 两类总的平均可分性信息称为散度, 义为两类平均可分性信息之和, 义为两类平均可分性信息之和,即 r r J D = Ii j ( x ) + I j i ( x ) r p ( x | ωi ) r r r = ∫ [ p ( x | ωi ) − p ( x | ω j )]ln r dx p( x | ω j ) Ω
J C (ω1 , ω2 , s ) = J C (ω2 , ω1 ,1 − s )
(二)Chernoff判据 C) 二 判据(J 判据 性质: 性质: r 4)当 各分量x 相互独立时, (4)当 x 各分量 1,x2,…,xn相互独立时,
J C (ω1 , ω2 , s ) = J C (ω2 , ω1 ,1 − s )
2
c 1 c 1 2 r d ( x ) = ∑ Pi ∑ Pj 2 i =1 j =1 Ni N j
Ni
Nj
r (i ) r ( j ) ∑∑ d ( xk , xl )
2 k =1 l =1
Ni
Nj
当取欧氏距离时
c 1 r 1 c 2 d ( x ) = ∑ Pi ∑ Pj 2 i =1 j =1 Ni N j
c
c c
r (i ) r (i ) r (i ) r (i ) ∑ ( xk − m )( xk − m ) '
k =1
Ni
总的类间离差矩阵定义为
r (i ) r r (i ) r S B = ∑ Pi (m − m)(m − m) '
i =1
1 总体离差矩阵为 ST = N
2
r r r r ∑ ( xl − m)( xl − m) ' = SW + S B
Ni r (i ) 1 r r (i ) m = ∑ Pi m = ∑ m = N i =1 i =1 N
c
c
r (i ) 1 ∑∑ xk = N i =1 k =1
c
Ni
r ∑ xl
l =1
N
(四)类内距离 四 类内距离
1 2 类内均方欧氏距离为d (ωi ) = Ni
r (i ) r (i ) r (i ) r (i ) ∑ (xk − m )'( xk − m )
{
}
类内离差矩阵S 的迹等于类内的均方欧氏距离, 类内离差矩阵 Wi的迹等于类内的均方欧氏距离,即
d (ωi ) = Tr[ S wi ]
2
类内离差矩阵表示各类模式在类的均值矢量周围的散 布情况。 布情况。
(六)两类之间的距离 六 两类之间的距离
1 d (ωi , ω j ) = Ni N j
2
r ( j) ω j = { xl , l = 1, 2,L , N j } 式中的距离取欧氏距离时,有 当式中的距离取欧氏距离时 有
r p ( x | ω1 )
Jp =0; ;
r r p ( x | ω1 ) = p ( x | ω2 )
r p ( x | ω2 )
(a)
(b)
(一)Bhattacharyya判据 B) 一 判据(J 判据 (受相关定义与应用的启发,构造B-判据 受相关定义与应用的启发,构造 判据 判据) 受相关定义与应用的启发
7 .2 类别可分性判据
(Class Separability Measures)
准则—类别可分性判据 刻划特征对分类的贡献 准则 类别可分性判据:刻划特征对分类的贡献。 类别可分性判据 刻划特征对分类的贡献。 构造的可分性判据J 应满足下列要求: 构造的可分性判据 ij应满足下列要求: (1)与误分概率 与误分概率P(e)(或误分概率的上界、下界 有 或误分概率的上界、 与误分概率 或误分概率的上界 下界)有 单调关系, Jij最大值时, P(e)最小。 最小。 单调关系, 最大值时, 最小 (2)当特征相互独立时,判据有可加性,即 当特征相互独立时,判据有可加性, 当特征相互独立时 可加性
J ij ( x1 , x2 ,L , xd ) ≤ J ij ( x1 , x2 ,L , xd , xd +1 )
所构造的可分性判据并不一定要求同时具 有上述四个性质。 有上述四个性质。
7.2.1 基于几何距离的可分性判据 可以用距离或离差测度(散度) 可以用距离或离差测度(散度)来构造类别可分性判 据 (一)点与点的距离 r r 在n维特征空间中,点 a 与b点之间的欧氏距离为 维特征空间中,
相关主题