当前位置：文档之家› 哈工大模式识别第四章第五章

哈工大模式识别第四章第五章

36
2、J5判据下的特征提取
▪ 由于阵U使得：
和是对称矩阵，因此，存在矩
▪ 则：
37
或
即：是
的本征值矩阵
38
J5的另一种形式
又
设则：
的本征值矩阵是
39
4.3.2 按概率距离判据提取特征
▪ 设原始特征为Y，而经变换后的特征为X，两者之间有映射关系 X=WTY
▪ 则原空间中一矩阵A经映射后为：A*=WTAW ▪ 映射后概率距离判据：
即从总体上说同类物体内各样本由于具有共性，因此类内样本间距离应比跨类样本间距离小。 ▪ Fisher准则(也可看成是特征提取方法)正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的。 ▪ 同样在特征选择与特征提取中也使用类似的原理，这一类被称为基于距离的可分性判据。
12
• 两类之间的距离：ω1任一点与ω2中任一点的距离和的平均。
的秩是一，换句话说
它只有一个非零本征值，W是D×1矩阵，是一个
向量，求该向量需解
35
▪ 利用W向量对原始的两类两维样本进行线性变换得到新的一维分布，特征空间从二维降到一维，并满足J2判据。
▪ 该特征空间实质上就是对应于Fisher准则求得的线性分类器的法向量。
▪ 如果讨论的是多类别C问题，则优化后的维数至多为类别数减一(C-1)。
50
二、用散度准则JD的特征提取
只有两类时：
51
最佳W是对应下列次序的本征值对应的本征向量
52
▪ 例：有两类样本：
W1: x11=(0,0,0)T,X12=(1,0,0)T,X13=(1,0,1)T,X14=(1,1,0)T W2: x21=(0,0,1)T,X22=(0,1,0)T,X23=(0,1,1)T,X24=(11,1)T 试利用散度JD降低维数。
25
若则
26
4.3 特征提取
▪ 4.3.1 按距离度量的特征提取方法 ▪ 基于距离的可分性判据的实质是Fisher准则
的延伸，即综合考虑不同类样本的类内聚集程度与类间的离散程度这两个因素。 ▪ 这种判据的优化体现出降维后的特征空间较好地体现类内密集、类间分离的要求。
27
按欧氏距离度量的特征提取方法
2. 对所有X都有p(X|ω1)＝p(X|ω2)，则两类就完全不可分。
完全可分
重合，完全不可分
18
• 任何函数
• 若满足下列条件，则用于做判据： 1、Jp≥0 2、当两类完全不交叠时，Jp取最大值若对所有x有：p(X| ω 2)≠0时，p(x| ω 1)=0，则 Jp=max 3、当两类分布相同时，Jp=0 若：p(X| ω 2)=p(x| ω 1)，则Jp=0
28
1、J2判据下的特征提取
▪ 将原特征空间X(D维)通过线性映射Y=WTX降维到特征空间Y中，若X空间的类内离散度矩阵和类间离散度矩阵分别为SW ,Sb;
▪ 则按J2判据的的最后特征提取矩阵W是按如下方式构造的：
▪ 若矩阵 SW-1Sb 的本征值λi按大小顺序列为
▪ 则选择前d个本征值所对应的本征向量组成变换矩阵WD*d，都可使这些判据J2(W)达到最大值。
可提供ωi对ωj的可分性信息。如果对某个X，当p(X|ω1)＝p(X|ω2) 时，则lij=0 , 反之若两者差异越大，则lij的绝对值也大。
23
对整个特征空间概率分布的差异程度作出评价，可将对 ωi类及对ωj 的平均可分性信息定义为
总的平均可分信息则可表示成散度
24
3、正态分布时可分性判据
若则一维：
哈工大模式识别第四章第五章
2020年4月24日星期五
§4.1 基本概念
▪ 如何确定合适的特征空间是设计模式识别系统另一个十分重要，甚至更为关键的问题。
▪ 如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为分类器设计成功提供良好的基础。
▪ 反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。
▪ 这一章要讨论的问题就是特征空间如何设计的问题
2
如何构造一个特征空间，即对要识别的事物用什么方法进行描述、分析的问题？
▪ 1、物理量的获取与转换(原始测量）这是指用什么样的传感器获取电信号，如摄取
景物则要用摄像机。可以称之为原始信息(原始测量，得到测量空间)。 ▪ 2、描述事物方法的选择与设计(特征形成)
在得到了原始信息之后，要对它进一步加工，以获取对分类最有效的信息。
设计所要信息的形式是十分关键的。
3
例用RGB颜色空间和HSI颜色空间
▪ 右边是原始图像，左边是用HSI空间描述的同一图像(但是为了显示出来，用H对应R，S对应G，I对应 B，然后再以RGB的方式显示出来
JC(X)= JC(W TY)= JC(W) JD(X)=JD (WTY)= JD (W)
40
一、正态分布下基于Jc的特征提取
▪ 当两类都是正态分布时：
41
42
是 W是其本征向量
的本征值矩阵
可证，只有一个非零本征值，此时，W是一维的：
45
46
47
根据Jc对非奇异变换的不变性，W即是Σ2-1Σ1 的本征向量。此时：
7
§4.2 类别可分离性判据
▪ 对原特征空间优化，就要对优化结果进行评价 ▪ 实际的评价方法，是对系统性能进行测试，测试指
标主要有正确率、计算速度、存储容量等。 ▪ 本章讨论的评价方法：目的在于找出对特征空间进
行优化的具体算法。 ▪ 对特征空间进行优化是一种计算过程，它的基本方
法仍然是模式识别的典型方法：找到一种准则(或称判据，通常用一种式子表示），以及一种优化计算方法，使这种准则达到一个极值。
▪ 另一种用两者间的比值，称为散度。
21
1、Bhattacharyya距离和Chernoff界限
• Bhattacharyya距离
• 显然，当p(X|ω1)＝p(X|ω2) 时，JB＝0；而当两者完全不交迭时JB为无穷大
• Chernoff界限
22
2、散度
另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。对两类问题，对数似然比为：
• （4）单调性：加入新的特征时，判据不减小
10
几种常用的可分性判据
▪ 以计算样本在特征空间离散程度为基础的准则，称为基于距离的可分性判据（重点）
▪ 基于概率密度分布的可分性判据。▪ 基于熵函数的可分性判据（不讲）
11
一、基于距离的可分性判据
▪ 基于距离的度量是用来进行分类的重要依据。 ▪ 因为一般情况下同类物体在特征空间呈聚类状态，
31
▪ 上式表明D维特征空间中，J2判据的值是矩阵的全部本征值之和。
▪ 令上式中WT=Ud =[u1，u2,….,ud] ▪则
▪ 则：如果矩阵
的本征值按大小顺序列为
▪ 那么由对应于d个最大的本征值的本征向量所组成的矩阵 W(D×d)，就能使所得到的d维特征满足J2判据最大的要求。
▪ 此结论对J4判据也适用
8
判据
▪ 理想的情况是与计算错误率有关的判据 ▪ 直接反映错误率的是贝叶斯公式，在实际中
运用有困难 ▪ 采用其他判据
9
可分性判据应满足的要求
• （1）与错误率有单调关系，这使判据取最大值时错误率也较小
• （2）当特征独立时
•
有可加性：
（Jij是第i类与第j类的可分性准则） • （3）度量特性：
▪ 基于距离可分性判据的特征优化过程是通过一个线性变换实现的。
▪ 设在原特征空间一个样本向量表示成X(D维) 而在优化特征空间中，样本向量表示成Y(d维 )而X与Y之间的关系是： Y=WTX
▪ 其中W是一个D×d维矩阵（d<D） ▪ 目的：利用判据找出一种线性变换W，它可
实现这种判据J(Y)=J(W)的极值化。
▪
= tr[SW-1SbWT(WT)-1] = tr[SW-1Sb]=J2(X)
▪ 设SW-1Sb的本征值为λ1 >λ2 >λ3 >……>λD ，对应的本征向量矩阵为U=[u1，u2,….,uD]
▪ 则 UT SW-1Sb U =Λ, 其中： ▪ 令W=UT=U-1
▪ 则J2(W)= tr[UTSW-1SbU] ▪
4
3、特征空间的优化
▪ 这个层次的工作发生在已有了特征的描述方法之后，也就是已有了一个初始的特征空间，如何对它进行改造与优化的问题。一般说来要对初始的特征空间进行优化是为了降维。即初始的特征空间维数较高。能否改成一个维数较低的空间，称为优化，优化后的特征空间应该更有利于后续的分类计算，这就是本章着重讨论的问题。
48
为使Jc最大，应选择满足如下关系的d个本征值对应的本征向量组成的矩阵。
49
步骤
▪ 不同s，结果不同。 ▪ 1、s=0.5，得：Vi,i=1,2,…,d。 ▪ 2、根据Vi,i=1,2,…,d,求最优S(使Jc最大) ▪ 3、求最佳Vi,i=1,2,…,d ▪ 4、重复2、3直至获得一组稳定Vi
• 多类：各类之间的平均距离
•
:ωi任一点xk(i)与ωj中任一点xj( j)的距离
• Pi, Pj是第i类和第j类的先验概率
• 度量类内、类间的距离，可用不同方法，如欧氏距离等。
13
欧氏距离下的可分性判据
欧氏距离：每类均值：
所有样本集总均值：平均距离：
（判据）
令：
则得判据的矩阵形式：
14
▪ 上述公式是有限样本集，
▪ X只是Y的一个子集，每个分量xi必然能在原特征集中找到其对应的描述量xi＝yj。

e商务文档

哈工大模式识别第四章第五章

相关文档推荐：