当前位置：文档之家› 第8章特征的选择与提取(特征选择)

第8章特征的选择与提取(特征选择)

其核心问题
是通过合理组合搜索过程，可以避免一些计算而仍能得到最优的结果。
其关键是利用了判据的单调性
最优搜索算法
判据的单调性
如果特征存在包含关系: 则有: 称该判据具有单调性讨论过的J1-J5,以及基于概率距离的判据 JD,JC,JB都满足上述关系
最优搜索算法
下面我们结合一个从D＝6的六维特征空间选择d＝2的二维最优子空间的例子，说明该算法的原理以及如何利用判据的单调性减少计算量。设原D维空间有六个特征表示成 {x1,x2,x3,x4,x5,x6}
(2) 确定直接后继结点要删除的特征
删去其中一特征的相应判据值，判据最小
最优搜索算法
回溯过程
要执行的任务是将第i层的ψ加上第i-1层被删除的特征，并检查其分支路数q 待发现到 qi-1>1,就到达回溯转折点，转入其相邻左边第i层结点。
最优搜索算法
优点
该算法避免了部分d个特征组合的判据计算，与穷举相比节约了时间。
当l＜r时，入选特征数逐渐增加，属“自下而上” 型反之属“自上而下”型。
增l减r法(l-r法)
此法也可推广至用GSFS及GSBS代替SFS及SBS 并可在实现增加l特征时采用分几步实现
增l特征用Zl步减r则用Zr步，该种方法一般称为(Zl, ( Zr)法这种做法是为了既考虑入选(或剔除)特征之间的相关性，又不至因此引起计算量过大。合理地设置Zl和 Zr可以同时对两者，即计算复杂性及特征选择的合理性兼顾考虑
简单回顾
类别可分离性判据的种类
基于距离度量的可分性判据基于概率分布的可分性判据等
特征提取
按欧氏距离度量的特征提取方法按概率距离判据提取特征
8.4 特征选择
特征选择
即对原有特征进行删选优化
概念上十分简单
一般人常想，只要逐个分析每个特征，判断它对分类的价值，然后根据其优值删去或保留，这是一个为人们常采用方法但是这种方法并不能保证特征空间的最优组合优化
搜索算法
要得最优解，就必需采用穷举法
任何非穷举的算法都不能确保所得结果是最优的，因此要得最优解，就必需采用穷举法搜索技术上采用一些技巧，使计算量有可能降低最优特征搜索法，次优解的算法
搜索算法
“自上而下”与“自下而上”两类算法
“自上而下”: 从D维特征开始，逐步将其中某些特征删除，直到剩下所要求的d维特征为止。
单独最优特征组合
单独最优特征组合
将各特征按单独使用计算其判据值，然后取其前d个判据值最大的特征作为最优特征组合。这种做法的问题在于即使各特征是独立统计的，也不一定得到最优结果。但如果可分性判据可写成如下形式
可以选出最优特征来
顺序前进法(SFS)
顺序前进法
最简单的自下而上搜索方法首先计算每个特征单独进行分类的判据值，并选择其中判据值最大的特性，作为入选特征。然后每次从未入选的特征中选择一个特征，使得它与已入选的特征组合在一起时所得的 J值为最大，直到特征数增至d个为止。
可用下面的搜索树形结构图表示搜索过程
最优搜索算法
最优搜索算法
搜索树形结构图
根结点为原特征空间，包含全部特征，在这里是六个特征除了根结点外，其它结点每删除一个特征，结点上的号表示被删特征序号叶结点本身也删除一个特征，而剩下的特征组的特征数为d，在此为2。该树的结构特点:即每一层结点的直接后继结点数各不相同，但是却有规律性。
另一个问题是要找出较好的特征选择方法
以在允许的时间内选择出一组最优的特征。所谓最优的特征组，就是要找到合适的特征的组合
搜索算法
计算量问题
如果从逐个特征配组进行性能比较的话，即穷举的算法，特征配组的数量极大
如果D＝100，d＝10，则q的数量级就是1013，即使D＝20，d＝10，则q也可达184756种。如果将所有可能的特征配组列举出来，按某选定的可分离性判据进行计算，从中择优，其计算量非常大
搜索算法
如何解决这个问题呢?
如果将每维特征单独计算可分离性判据，并按其大小排队，如
然后直接选用前d个特征构成新的特征空间能得到最优的可分离性？不能即使所有特征都互相独立，除了一些特殊情况外，一般用前d个最有效的特征组合成的特征组并非是最优的d维特征组因此采用这种方法并不能保证得到最优的特征组合
譬如第一层中三个结点各自的直接后继结点数从左到右分别是3、2与1个，而第一层的最左结点的三个直接后继结点的后继结点数也是如此
最优搜索算法
最优搜索算法
在每个当前计算结点要执行的计算按是否处于回溯过程而不同。如处在非回溯过程，则执行以下几个计算:
(1)确定直接后继结点数
一结点的直接后继点数: 在根结点处r＝6，故q＝3，有三个直接后继结点
缺点
但是由于在搜索过程中要计算中间的判据值，因此在d很小或d很接近D时，还不如使用穷举法另外该算法必须使用具有单调性的判据
有时在理论上具有单调性的判据，在实际运用样本计算时，可能不再具备单调性因此存在不能保证结果为最优的可能性
8.4.2 次优搜索法
上述分支定界算法虽然比盲目穷举法节省计算量，但计算量仍可能很大而无法实现，因此人们还是常用次优搜索法
模式识别
徐蔚然北京邮电大学信息工程学院
简单回顾
本章讨论的问题
对已有的特征空间进行改造,着重于研究对样本究竟用什么样的度量方法更好譬如用三种度量来描述苹果与梨
那么是否运用这三种度量是最有效的呢？颜色：
这一个指标对区分红苹果与梨很有效区分黄苹果与梨就会困难得多即，这个指标就不很有效了
简单回顾
顺序后退法(SBS)
顺序后退法(SBS)
与面一个方法相反，是自上而下的方法从现有的特征组中每次减去一个不同的特征并计算其判据，找出这些判据值中之最大值，如此重复下去直到特征数达到予定数值d为止与SFS相比，此法计算判据值是在高维特征空间进行的，因此计算量比较大此法也可推广至每次剔除r个，称为广义顺序后退法 (GSBS)
增l减r法(l-r法)
前面两种方法的缺点
即一旦特征入选(或剔除)，过程不可逆转
为了克服这种缺点，可采用将这两种方法结合起来的方法，即增l减r法原理:对特征组在增加l个特征后，转入一个局部回溯过程，又用顺序后退法，剔除掉r个特征这种方法既可能是“自上而下”方法，也可能是“自下而上”的，这取决于l与r的数据大小
顺序前进法(SFS)
优点
顺序前进法与前一小节的单独特征最优化组合相比，由于考虑了特征之间的相关性，在选择特征时计算与比较了组合特征的判据值，要比前者好些。
缺点
一旦某一特征被选入，即使由于后加入的特征使它变为多余，也无法再把它剔除。
该法可推广至每次入选r个特征，而不是一个，称为广义顺序前进法(GSFS)
增l减r法(l-r法)

筛选剩下的特征组在每一步上都是最优的
“自下而上”: 从零维特征空间开始，逐个地从D维持征中选择特征，直至达到预定的维数指标为止。
在每一步都生成最优的特征空间
8.4.1 最优搜索算法
用最少的计算量得到最优的特征组合 “分支定界”算法
能得到最优解的唯一快速算法属于“自上而下”算法，但是具有回溯功能，可使所有可能的特征组合都被考虑到。
简单回顾
特征选择和特征提取
两者区别
特征选择: 删掉部分特征特征提取:通过一种映射，也就是说新的每一个特征是原有特征的一个函数
简单回顾
类别可分离性判据
特征选择与特征提取的任务是求出一组对分类最有效的特征所谓有效是指在特征维数减少到同等水平时，其分类性能最佳因此需要有定量分析比较的方法, 判断所得到的特征维数及所使用特征是否对分类最有利这种用以定量检验分类性能的准则称为类别可分离性判据
降维主要有两种途径
对特征空间的改造、优化、主要的目的是降维，即把维数高的特征空间改成维数低的特征空间，降维主要有两种途径特征的选择: 一种是删选掉一些次要的特征
问题在于如何确定特征的重要性，以及如何删选
特征的提取: 另一种方法是使用变换的手段，在这里主要限定在线性变换的方法上，通过变换来实现降维
搜索算法
特征选择的含意
由原有D维特征所组成的特征空间中选出若干个特征，组成描述样本的新特征空间即从原有的D维空间选取一个d维子空间(d＜ D)，在该子空间中进行模式识别
搜索算法
有两个问题要解决
一个是选择特性的标准
也就是选择前面讨论过的可分离性判据以这些判据为准则，使所选择的d维子空间具有最大的可分离性

e商务文档

第8章特征的选择与提取(特征选择)

相关文档推荐：

e商务文档

第8章 特征的选择与提取(特征选择)

相关文档推荐：

第8章特征的选择与提取(特征选择)