当前位置:文档之家› 哈工大模式识别第四章第五章

哈工大模式识别第四章第五章

36
2、J5判据下的特征提取
▪ 由于 阵U使得:
和 是对称矩阵,因此,存在矩
▪ 则:
37

即: 是
的本征值矩阵
38
J5的另一种形式

设 则:
的本征值矩阵是
39
4.3.2 按概率距离判据提取特征
▪ 设原始特征为Y,而经变换后的特征为X,两 者之间有映射关系 X=WTY
▪ 则原空间中一矩阵A经映射后为:A*=WTAW ▪ 映射后概率距离判据:
即从总体上说同类物体内各样本由于具有共性,因 此类内样本间距离应比跨类样本间距离小。 ▪ Fisher准则(也可看成是特征提取方法)正是以使类间 距离尽可能大同时又保持类内距离较小这一种原理 为基础的。 ▪ 同样在特征选择与特征提取中也使用类似的原理, 这一类被称为基于距离的可分性判据。
12
• 两类之间的距离:ω1任一点与ω2中任一点的距离 和的平均。
的秩是一,换句话说
它只有一个非零本征值,W是D×1矩阵,是一个
向量,求该向量需解
35
▪ 利用W向量对原始的两类两维样本进行线性 变换得到新的一维分布,特征空间从二维降 到一维,并满足J2判据。
▪ 该特征空间实质上就是对应于Fisher准则求 得的线性分类器的法向量。
▪ 如果讨论的是多类别C问题,则优化后的维 数至多为类别数减一(C-1)。
50
二、用散度准则JD的特征提取
只有两类时:
51
最佳W是对应下列次序的本征值对应的本 征向量
52
▪ 例:有两类样本:
W1: x11=(0,0,0)T,X12=(1,0,0)T,X13=(1,0,1)T,X14=(1,1,0)T W2: x21=(0,0,1)T,X22=(0,1,0)T,X23=(0,1,1)T,X24=(11,1)T 试利用散度JD降低维数。
25
若 则
26
4.3 特征提取
▪ 4.3.1 按距离度量的特征提取方法 ▪ 基于距离的可分性判据的实质是Fisher准则
的延伸,即综合考虑不同类样本的类内聚集 程度与类间的离散程度这两个因素。 ▪ 这种判据的优化体现出降维后的特征空间较 好地体现类内密集、类间分离的要求。
27
按欧氏距离度量的特征提取方法
2. 对所有X都有p(X|ω1)=p(X|ω2),则两类就完全不可分。
完全可分
重合,完全不可分
18
• 任何函数
• 若满足下列条件,则用于做判据: 1、Jp≥0 2、当两类完全不交叠时,Jp取最大值 若对所有x有:p(X| ω 2)≠0时,p(x| ω 1)=0,则 Jp=max 3、当两类分布相同时,Jp=0 若:p(X| ω 2)=p(x| ω 1),则Jp=0
28
1、J2判据下的特征提取
▪ 将原特征空间X(D维)通过线性映射Y=WTX降维到特 征空间Y中,若X空间的类内离散度矩阵和类间离散 度矩阵分别为SW ,Sb;
▪ 则按J2判据的的最后特征提取矩阵W是按如下方式 构造的:
▪ 若矩阵 SW-1Sb 的本征值λi按大小顺序列为
▪ 则选择前d个本征值所对应的本征向量组成变换矩 阵WD*d,都可使这些判据J2(W)达到最大值。
可提供ωi对ωj的可分性信息。 如果对某个X,当p(X|ω1)=p(X|ω2) 时,则lij=0 , 反之若两者差异越大,则lij的绝对值也大。
23
对整个特征空间概率分布的差异程度作出评价,可将对 ωi类及对ωj 的平均可分性信息定义为
总的平均可分信息则可表示成散度
24
3、正态分布时可分性判据
若 则 一维:
哈工大模式识别第四章 第五章
2020年4月24日星期五
§4.1 基本概念
▪ 如何确定合适的特征空间是设计模式识别系统另一 个十分重要,甚至更为关键的问题。
▪ 如果所选用的特征空间能使同类物体分布具有紧致 性,即各类样本能分布在该特征空间中彼此分割开 的区域内,这就为分类器设计成功提供良好的基础 。
▪ 反之,如果不同类别的样本在该特征空间中混杂在 一起,再好的设计方法也无法提高分类器的准确性 。
▪ 这一章要讨论的问题就是特征空间如何设计的问题
2
如何构造一个特征空间,即对要识别的事 物用什么方法进行描述、分析的问题?
▪ 1、物理量的获取与转换(原始测量) 这是指用什么样的传感器获取电信号,如摄取
景物则要用摄像机。可以称之为原始信息(原始测 量,得到测量空间)。 ▪ 2、描述事物方法的选择与设计(特征形成)
在得到了原始信息之后,要对它进一步加工, 以获取对分类最有效的信息。
设计所要信息的形式是十分关键的。
3
例 用RGB颜色空间和HSI颜色空间
▪ 右边是原始图像,左边是用HSI空间描述的同一图 像(但是为了显示出来,用H对应R,S对应G,I对应 B,然后再以RGB的方式显示出来
JC(X)= JC(W TY)= JC(W) JD(X)=JD (WTY)= JD (W)
40
一、正态分布下基于Jc的特征提取
▪ 当两类都是正态分布时:
41
42
是 W是其本征向量
的本征值矩阵
可证,只有一个非零本征值,此时,W是一维的:
45
46
47
根据Jc对非奇异变换的不变性,W即是Σ2-1Σ1 的本征向量。此时:
7
§4.2 类别可分离性判据
▪ 对原特征空间优化,就要对优化结果进行评价 ▪ 实际的评价方法,是对系统性能进行测试,测试指
标主要有正确率、计算速度、 存储容量等。 ▪ 本章讨论的评价方法:目的在于找出对特征空间进
行优化的具体算法。 ▪ 对特征空间进行优化是一种计算过程,它的基本方
法仍然是模式识别的典型方法:找到一种准则(或称 判据,通常用一种式子表示),以及一种优化计算 方法,使这种准则达到一个极值。
▪ 另一种用两者间的比值,称为散度。
21
1、Bhattacharyya距离 和Chernoff界限
• Bhattacharyya距离
• 显然,当p(X|ω1)=p(X|ω2) 时,JB=0;而当两者完 全不交迭时JB为无穷大
• Chernoff界限
22
2、散度
另一种常用的基于概率距离度量的判据是利用似然比 或对数似然比。 对两类问题,对数似然比为:
• (4)单调性:加入新的特征时,判据不减小
10
几种常用的可分性判据
▪ 以计算样本在特征空间离散程度为基础的准 则,称为基于距离的可分性判据(重点)
▪ 基于概率密度分布的可分性判据。▪ 基于熵函数的可分性判据(不讲)
11
一、基于距离的可分性判据
▪ 基于距离的度量是用来进行分类的重要依据。 ▪ 因为一般情况下同类物体在特征空间呈聚类状态,
31
▪ 上式表明D维特征空间中,J2判据的值是矩阵 的全部本征值之和。
▪ 令上式中WT=Ud =[u1,u2,….,ud] ▪则
▪ 则:如果矩阵
的本征值按大小顺序列为
▪ 那么由对应于d个最大的本征值的本征向量所组成的矩阵 W(D×d),就能使所得到的d维特征满足J2判据最大的要求 。
▪ 此结论对J4判据也适用
8
判据
▪ 理想的情况是与计算错误率有关的判据 ▪ 直接反映错误率的是贝叶斯公式,在实际中
运用有困难 ▪ 采用其他判据
9
可分性判据应满足的要求
• (1)与错误率有单调关系,这使判据取最大值时 错误率也较小
• (2)当特征独立时

有可加性:
(Jij是第i类与第j类的可分性准则) • (3)度量特性:
▪ 基于距离可分性判据的特征优化过程是通过 一个线性变换实现的。
▪ 设在原特征空间一个样本向量表示成X(D维) 而在优化特征空间中,样本向量表示成Y(d维 )而X与Y之间的关系是: Y=WTX
▪ 其中W是一个D×d维矩阵(d<D) ▪ 目的:利用判据找出一种线性变换W,它可
实现这种判据J(Y)=J(W)的极值化。

= tr[SW-1SbWT(WT)-1] = tr[SW-1Sb]=J2(X)
▪ 设SW-1Sb的本征值为λ1 >λ2 >λ3 >……>λD ,对应的 本征向量矩阵为U=[u1,u2,….,uD]
▪ 则 UT SW-1Sb U =Λ, 其中: ▪ 令W=UT=U-1
▪ 则J2(W)= tr[UTSW-1SbU] ▪
4
3、特征空间的优化
▪ 这个层次的工作发生在已有了特征的描述方法之后 ,也就是已有了一个初始的特征空间,如何对它进 行改造与优化的问题。一般说来要对初始的特征空 间进行优化是为了降维。即初始的特征空间维数较 高。能否改成一个维数较低的空间,称为优化,优 化后的特征空间应该更有利于后续的分类计算,这 就是本章着重讨论的问题。
48
为使Jc最大,应选择满足如下关系的d个本征 值对应的本征向量组成的矩阵。
49
步骤
▪ 不同s,结果不同。 ▪ 1、s=0.5,得:Vi,i=1,2,…,d。 ▪ 2、根据Vi,i=1,2,…,d,求最优S(使Jc最大) ▪ 3、求最佳Vi,i=1,2,…,d ▪ 4、重复2、3直至获得一组稳定Vi
• 多类:各类之间的平均距离

:ωi任一点xk(i)与ωj中任一点xj( j)的距离
• Pi, Pj是第i类和第j类的先验概率
• 度量类内、类间的距离,可用不同方法,如欧氏距 离等。
13
欧氏距离下的可分性判据
欧氏距离: 每类均值:
所有样本集总均值: 平均距离:
(判据)
令:
则得判据的矩阵形式:
14
▪ 上述公式是有限样本集,
▪ X只是Y的一个子集,每个分量xi必然能在原 特征集中找到其对应的描述量xi=yj。
相关主题