第五章 特征选择与特征提取5.1 问题的提出前面主要介绍的是各种分类器的设计方法,实际上我们已经完全可以解决模式识别的问题了。
然而在实际应用中,在分类器设计之前,往往需要对抽取出的特征进行一下处理,争取尽量减小特征的维数。
在实践中我们发现,特征的维数越大,分类器设计的难度也越大,一维特征的识别问题最容易解决,我们只要找到一个阈值t ,大于t 的为一类,小于t 的为一类。
同时特征维数越大,要求的训练样本数量越多,例如在一维的情况下,10个训练样本就可以比较好的代表一个类别了,而在10维空间中,10个训练样本则是远远不够的。
这一章中我们就来介绍一下减小特征维数的方法。
一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据,其中有一些数据直接可以作为特征,有一些数据经过处理之后可以作为特征,这样的一组特征一般称为原始特征。
在原始特征中并不一定每个特征都是有用的,比如在识别苹果和橙子的系统中,我们可以抽取出的特征很多,(体积,重量,颜色,高度,宽度,最宽处高度),同样还有可能抽取出其它更多的特征。
在这些特征中对分类有用的是(颜色,高度,最宽处高度),其它特征对识别意义不大,应该去除掉。
这样的过程称为是特征选择,也可以称为是特征压缩。
特征选择可以描述成这样一个过程,原始特征为N 维特征()12,,,TN x x x =X ,从中选择出M 个特征构成新的特征矢量()11,,,MTi i i Y x x x =,M N <。
同时,特征矢量的每一个分量并不一定是独立的,它们之间可能具有一定的相关性,比如说高度和最宽处的高度,高度值越大,最宽处的高度值也越大,它们之间具有相关性,我们可以通过一定的变换消除掉这种相关性,比如取一个比值:最宽处的高度/高度。
这样的过程称为特征提取。
特征提取可以描述为这样一个过程,对特征矢量()12,,,TN x x x =X 施行变换:()i i y h =X ,1,2,,i M =,M N <,产生出降维的特征矢量()12,,,TM Y y y y =。
在一个实际系统的设计过程中,特征的选择和提取过程一般都需要进行,首先进行特征选择,去除掉无关特征,这些特征实践上根本就不需要抽取出来,这部分传感器根本不需要安装,这样也可以减小系统的的成本。
然后进行特征提取,降低特征的维数。
然后利用降维之后的样本特征来设计分类器。
5.2 模式类别的可分性判据在讨论特征选择和特征压缩之前,我们先要确定一个选择和提取的原则。
对一个原始特征来说,特征选择的方案很多,从N 维特征种选择出M 个特征共有()!!!MN N C M N M =-中选法,其中哪一种方案最佳,则需要有一个原则来进行指导。
同样,特征的压缩实际上是要找到M 个N 元函数,N 元函数的数量是不可数的,这也要有一个原则来指导找出M 个最佳的N 元函数。
我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。
用这样的可分性判据可以度量当前特征维数下类别样本的可分性。
可分性越大,对识别越有利,可分性越小,对识别越不利。
人们对的特征的可分性判据研究很多,然而到目前为止还没有取得一个完全满意的结果,没有哪一个判据能够完全度量出类别的可分性。
下面介绍几种常用的判据,我们需要根据实际问题,从中选择出一种。
一般来说,我们希望可分性判据满足以下几个条件:1. 与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2. 当特征独立时有可加性,即:()()121,,,Nij N ij k k J x x x J x ==∑ij J 是第i 类和第j 类的可分性判据,ij J 越大,两类的可分程度越大,()12,,,N x x x 为N 维特征;3. 应具有某种距离的特点:0ij J >,当i j ≠时; 0ij J =,当i j =时; ij ji J J =;4. 单调性,加入新的特征后,判据不减小:()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。
但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。
一、基于几何距离的可分性判据在介绍这一类判据之前,先来看一下各种几何距离的定义。
1. 点与点的距离这是我们前面已经介绍过的一种距离,可以有多种形式,如欧氏距离、街市距离、马氏距离等,特征矢量X 和Y 之间的距离可以表示为:()()(),Td =--X Y X Y X Y (欧氏距离)2. 点与类别之间的距离这也是我们前面定义过的一种距离度量,常用的有:平均样本法、平均距离法、最近距离法,K -近邻法等。
特征矢量X 与i Ω类别之间距离的平方可以表示为:()()()2211,,iN i i kk id d N =Ω=∑X X X (平均距离法)其中()()()12,,,iiii N X X X 为i Ω类中的样本,i N 为i Ω类别中的样本数。
3. 类内距离设i Ω了由样本集()()(){}12,,,ii i i N X X X ,样本的均值矢量为()i m ,则由样本集定义的类内均方距离为:()()()()22111,i iN N i i i klk l i id d N N ==Ω=∑∑X X当取欧氏距离时有:()()()()()()()211iN Ti i i ii kkk id N =Ω=--∑XmX m4. 类别之间的距离在第二章中对类别之间的距离也做过定义,包括最短距离法,最长距离法,类平均距离法等。
i Ω类与j Ω类之间的距离可以表示为:()()()()111,,jiN N i j i j klk l i jd d N N ==ΩΩ=∑∑X X (平均距离法)当取欧氏距离时,可定义两类之间的均方距离:()()()()()()()2111,jiN N Ti j i j i j klklk l i jd N N ==ΩΩ=--∑∑XX X X有了距离度量之后,我们就可以在此基础上定义可分性测度了。
一般来讲,当各个类别的类内距离越小时可分性越强,而类间距离越大时,可分性越强。
因此可以有以各类样本之间的平均距离作为判据:()()()()111,2MMd i j i j i j J P P d ===ΩΩΩΩ∑∑X()d J X 所反映的主要还是类别之间的分离程度,对类内的聚集程度反映不够。
通常我们采用跟一般的矩阵形式来构造可分性判据。
1. 类内散度矩阵设有M 个类别,1,,M ΩΩ,i Ω类样本集()()(){}12,,,ii i i N X X X ,i Ω类的散度矩阵定义为:()()()()()()()11iN Ti i i i i wkkk iS N ==--∑XmXm总的类内散度矩阵为:()()()()()()()()()1111iN MMTi iiiiw i wi k k i i k i S P S P N ====Ω=Ω--∑∑∑X m X m2. 类间散度矩阵第i 个类别和第j 个类别之间的散度矩阵定义为:()()()()()()()Tij i j i j B S =--m mmm总的类间散度矩阵可以定义为:()()()()()()()()()()()11111122M M M Mij i j i j B i j B i i i j i j S P P S P P =====ΩΩ=ΩΩ--∑∑∑∑m m m m令:m 为总体均值,()()1Mi ii P ==Ω∑m m ,则有: ()()()()()1MTi i B i i S P ==Ω--∑m m m m3. 总体散度矩阵总体散度矩阵可以定义为:()()11N TT l l l S N ==--∑X m X m其中N 为总的样本数,1Mii N N ==∑。
可以证明:TW B SS S =+。
可以看出三个散度矩阵均为实对称矩阵。
上面我们所定义的判据:()d J X =()()()tr tr d T W B J S S S ==+X 。
tr 表示取一个矩阵的迹,也就是主对角线元素之和,N 维方阵A 的迹为:()1tr Niii a=A =∑同样我们可以利用三个散度矩阵定义出一系列的可分性判据:()11tr W B J S S -=2B WS J S =()()3tr tr B W S J S =4T WS J S =其中Α表示方阵Α的行列式的值,比较常用的判据是1J 。
基于几何距离的可分性判据计算起来比较简单,只要我们已知各个类别的训练样本集,就可以计算出三个散度矩阵,同时也就可以计算出各种可分性判据。
二、基于概率分布的可分性判据基于几何距离的可分性判据计算起来比较简单,然而它没有考虑各类别的概率分布,因此与识别错误率之间的联系却不是很紧密。
下面介绍一种直接基于概率分布的可分性判据。
先以最简单的一维特征、两类问题为例,下图表示了两种极端情况:第一种情况是两类完全可分:对所有()10p Ω≠X 的点,有()20p Ω=X ; 第二种情况是两类完全不可分:对所有的X 有()()12p p Ω=ΩX X 。
下面我们可以定义两个类条件概率密度函数之间的距离P J 作为交叠程度的度量,P J 应该满足如下条件:1. 非负性,0P J ≥;2. 当两类完全重叠时P J 取最大值,即若对所有X 有()20p Ω≠X 时,()10p Ω=X ,则max P J =;3. 当两类密度函数完全相同时,P J 应为零,即若()()21p p Ω=ΩX X ,则0P J =。
按照这样的要求,可以定义出多种可分性判据,这里我们只介绍其中一种—散度。
现在考虑i Ω和j Ω两类之间的可分性,取其对数似然比:()()()lni ij j p l p Ω=ΩX X X则i Ω类对j Ω类的平均可分性信息可以定义为:()()()()()lni ij ij i j p I E l p d p Ω⎡⎤==Ω⎣⎦Ω⎰XX X X X X X同样j Ω类对i Ω类的平均可分性信息:()()()()()lnj ji ji j i p I E l p d p Ω⎡⎤==Ω⎣⎦Ω⎰XX X X X X X散度P J 定义为区分i Ω类和j Ω类的总平均信息:()()()()ln i P ij ji i j j p J I I p p d p Ω⎡⎤=+=Ω-Ω⎣⎦Ω⎰XX X X X X从P J 的定义可以看出,当两类分不完全性同()()i j p p Ω=ΩX X 时,0P J =;当两类完全可分时,P J =+∞。
基于概率的可分性判据优点是直接与识别的错误率相联系,缺点是需要已知各个类别类概率密度函数,只有当我们预先已知各类别的概率分布时,才可以利用训练样本集合估计出概率密度函数,但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的。