当前位置:文档之家› 模式识别

模式识别

(4) 当 xr 的各分量 x1, x2 ,L , xn 相互独立时,
n
JC (s;x1, x2 ,L , xn ) JC (s;xl )
l 1
26Biblioteka 7.2.2基于类的概率密度函数的可分性判据
(5) 当 xr 的各分量 x1, x2,L , xn 相互独立时,有
JC (s; x1, x2 ,L , xk1) JC (s; x1, x2 ,L , xk1, xk )
(k n)
(6) 最小误判概率
P0 (e) P(1)s P(2 )1s exp JC (1,2;s) (0 < s < 1)
27
Jc 性质(1)证明:
考虑函数 f(s) = sa+(1-s)b-asb1-s (a,b>0)
因为,当 0 s 1 时 f ’’(s) = -asb1-s(ln a - ln b)2 < 0
JC
1 s(1 s)(m(1) 2
m(2) )T
(1 s)C1 sC2
1 (m(1)
m(2) ) 1 ln 2
(1 s)C1 sC2 C1 1s C2 s
JB
1 (m(1) 8
m(2)
)
T
C1
C2 2
1
(m(1)
m(2) )
1 ln 2
1 2
(C1
C2
)
C1 1/2 C2 1/2
4
第七章 特征提取与选择
7.1概述
通常在得到实际对象的若干具体特征之后, 再由这些原始特征产生出对分类识别最有效、 数目最少的特征,这就是特征提取与选择的 任务。从本质上讲,我们的目的是使在最小 维数特征空间中异类模式点相距较远(类间 距离较大),而同类模式点相距较近(类内 距离较小)。
5
7.1概述
因为f(0)=f(1) = 0 ,当 0 s 1 时 f ’(s) = a-b-asb1-s (ln a - ln b)=0 a=b
从而有 f(s)=0 a=b ,由此有:
JC=0 p(x|1) p(x| 2 )
29
Jc 性质(5)证明:
设P(e)为最小误分概率,则:
P0(e) min P(e) minP(1)
(一)
点与点的距离
d(a,b)
(a
b)
T
(a
b)
1/ 2
n
(ak
bk
)
2
1/
2
k1
(二) 点到点集的距离
用均方欧氏距离表示
d
2
(
x,
{ak
(i
)
})
1 Ni
Ni
d
2
(
x,
ak
(i
)
)
k 1
13
7.2.1基于几何距离的可分性判据
(三) 类内及总体的均值矢量
类的均值矢量:
m( i )
i j
) )
W
p(xi ) ln
p(xi ) p(x j )
d
x
j 对i 类的平均可分性信息为:
I
ji
( x)
Ej
ln
p(x j ) p(xi )
0 < s <1
25
7.2.2基于类的概率密度函数的可分性判据
JC 具有如下性质:
(1) 对一切0 < s < 1 , J C 0 ; (2) 对一切0 < s < 1 , JC 0 p(xr 1) p(xr 2 ) ;
(3) 当参数s 和1 s互调时,有对称性,
JC (1,2;s) JC (2 ,1;1 s)
p(x1)dxP( 2 )
p(x 2 ) d x
W2
W1
min P(1) p(x1), P( 2 ) p(x 2 ) d x
W
利用不等式 mina,b ab1 , a 0,b 0,0 1 ,
由上式进一步可得:
P0 (e) P(1)s P( 2 )1s p(x1)s p(x 2 )1s d x
(ab)
且 f(0)=f(1) = 0,从而有 f(s)0。由该不等式有:
Jc (1,2, s) ln p(x|1)s p(x| 2 )1s dx
W
ln [sp(x|1) (1 s) p(x|2 )]dx ln(s 1 s) 0
W
证毕。
28
Jc 性质(2)证明:
只考虑连续的情况:
W
P(1)s P( 2 )1s exp JC
30
7.2.2基于类的概率密度函数的可分性判据
由JB和JC的定义知:JB=JC(1/2)
对两类都是正态分布情况:
p( x 1) ~ N (m(1) , C1)
p(x 2 ) ~ N (m(2) , C2 )
JC
1 s(1 s)(m(1) m(2) )T 2
(1 s)C1 sC2
1 (m(1)
m(2) ) 1 ln 2
(1 s)C1 sC2 C1 1s C2 s
JB
1 (m(1) 8
m(2)
)
T
C1
C2 2
1
(m(1)
m(2) )
1 ln 2
1 2
(C1
C2
)
C1 1/2 C2 1/2
31
7.2.2基于类的概率密度函数的可分性判据
1 Ni
Ni
(i) xk
k 1
i 1,2, , c
各类模式的总体均值矢量 m c Pi m(i)
i 1
Pi 为相应类的先验概率,当用统计量代替先验概 率时,总体均值矢量可表示为:
m
c i 1
Pi m(i)
c i 1
N i m(i) N
1 N
c i 1
Ni k 1
xk( i )
1 N
(4) 对特征数目是单调不减,即加入新的特征后, 判据值不减。
Ji j (x1, x2 , , xd ) Ji j (x1, x2 , , xd , xd 1 )
10
7.2 类别可分性判据
构造可分性判据
值得注意的是:上述的构造可分性判据的要求,即 “单调性”、“叠加性”、“距离性”、“单调不 减性”。在实际应用并不一定能同时具备,但并不 影响它在实际使用中的价值。
1 NiN j
Ni k 1
Nj
(
xk
(
i
)
l 1
xl
(
j)
)T
(
xk
(i
)
xl
(
j)
)
16
7.2.1基于几何距离的可分性判据
(七)各类模式之间的总的均方距离
d 2(x)
1 2
c
Pi
i1
c
Pj
j1
1 NiN j
Ni k 1
N j d 2 ( xk(i) ,xl( j) )
l 1
当取欧氏距离时,总的均方距离为
当 C1 C2 C时,
J
C
J
B
1 s(1 s)(m(1) m(2) )T C1(m(1) 2 1 (m(1) m(2) )T C 1(m(1) m(2) ) 8
m(2) )
32
7.2.2基于类的概率密度函数的可分性判据
实际上 JC ln p(x1)s p(x2 )1s dx 可以写成: W
7
第七章 特征提取与选择
7.2 类别可分性判据
8
7.2 类别可分性判据
构造可分性判据
为确立特征提取和选择的准则:引入类别可分性 判据,来刻划特征对分类的贡献。为此希望所构造 的可分性判据满足下列要求:
(1) 与误判概率(或误分概率的上界、下界)有单调关系。
(2) 当特征相互独立时,判据有可加性,即 :
20
7.2 类别可分性判据
7.2.2基于类的概率密度函数的可分性判据
考虑两类问题。上图是一维的两类概率分布密度。 (a) 表示两类是完全可分的。 (b)是完全不可分的。
21
7.2.2基于类的概率密度函数的可分性判据 可用两类概密函数的重叠程度来度量可分性,
构造基于类概密的可分性判据。此处的所谓重叠 程度是指两个概密函数相似的程度。
特征提取与选择的两个基本途径
(1)直接选择法:当实际用于分类识别的特征数目d 确定后,直接从已获得的n 个原始特征中选出d 个特征 x1, x2 , , xd,使可分性判据J 的值满足下
式: Jx1, x2 , , xd max J xi1, xi2 , , xid
式中xi1, xi2 , , xid 是n 个原始特征中的任意d 个特征,
xk
(i
)
k 1
m( i )
)(
xk
(i
)
m(i) )T
类间离差 SB c Pi (m(i) m)(m(i) m)T
i 1
总体离差
ST
1 N
N l 1
( xl
m)(
xl
m)T
SW
SB
易导出 d 2 (x) TrSW SB TrST
18
7.2.1基于几何距离的可分性判据
J1 Tr SW1 SB
J
3
Tr S B Tr SW
J2
ln
SB SW
J4
SW SB SW
ST SW
19
7.2.1基于几何距离的可分性判据
在特征空间中,当类内模式较密聚,而不同类的 模式相距较远时,从直觉上我们知道分类就较容 易,由各判据的构造可知,这种情况下所算得的 判据值也较大。由判据的构造我们还可以初步了 解运用这类判据的原则和方法。
相关主题