当前位置：文档之家› 特征选择方法与算法的研究_李敏

特征选择方法与算法的研究_李敏

Abstract： The main idea of feature selection is to choose a subset of input features by eliminating features w ith little or no predictive information． Feature selection methods can be decomposed into three broad classes： one is filter methods， another one is w rapper methods count on criteria that and the third one is embedded methods． In view of the substantial number of existing feature selection algorithms， enable to adequately decide w hich algorithm to use in certain situations need arises to． This w ork review s several fundamental algorithms found in the literature， proposed a criteria w hich guide researchers to make a decision to use proper algorithms by presenting an empirical comparison of feature selection methods and its algorithms． Key words： feature selection methods； feature selection algorithms； filter methods； w rapper methods； embedded methods
2
特征选择算法
特征选择算法的目的是使选出的最优特征子集所
构建的分类或回归模型达到和特征选择前近似甚至更好的预测精度，提高模型的泛化能力、可理解性以及计算效率。在文献中需要考虑到特征选择算法的几个因素，鉴于这几个因素，可以把特征选择描述为在假设空间的搜索寻优问题。（ 1 ）搜索策略。搜索策略和特征空间的特征个数有关，一个搜索算法用一种特定的策略去搜索特征，主要有三种搜索类型：穷举式搜索、启发式搜索、随机搜索。（ 2 ）特征子集的构造。以下五种方法常用于构造特征子集：前向选择、后向选择、双向选择、加权方法和随机选择。（ 3 ）评价函数。评估候选特征子集函数，评价函数主要有：错误率、分散度、依赖性、距离测度、精确度、信息测度、一致 2］性等。文献［给出了特征选择基本框架，如图 1 。
0
引
言
1
1． 1
特征选择
特特征征
［1 ］
特征选择实质是从原始数据集中选取最优子集的过程，通过特定的评价标准去衡量最优子集的优良性。特征选择理论经历了几十年的发展，其研究成果被广泛应用于文本分类、图像提取、基因组分析等。与机器学习算法结合形成了复杂的算法体系，正由于算法的多样化和跨学科性，使得很多从事这一领域的研究专家花费大量的时间去了解和研究每种算法，基于这种考虑，文中罗列和总结了现有的特征选择算法，结合已有的理论和实验成果客观地对每种算法并依据评价准则对其进行分类，最后提出一进行评价，种引导从事这一领域的人员根据现有技术选择合适的算法解决实际问题的可依赖或判定标准。
2 c） = χ （ t， 2 2 2
图1
通用特征选择算法流程
3
特ቤተ መጻሕፍቲ ባይዱ选择方法
特征选择算法依据不同的评价准则可分为 Fil-
N × （ AD － CB） 2 （ A + C）（ B + D）（ A + B） + （ C + D）（ 1）
18
计算机技术与发展
第 23 卷
第 23 卷第 12 期 2013 年 12 月
计算机技术与发展
COMPUTEＲ TECHNOLOGY AND DEVELOPMENT
Vol． 23 No． 12 Dec． 2013
特征选择方法与算法的研究
李敏，卡米力·木依丁
（新疆大学信息与科学工程学院，新疆乌鲁木齐 830046 ）
的评估方法没有考虑到特征之间的相关性，近年来提出的 MＲMＲ（ Minimum Ｒedundancy － Maximum Ｒelevance）特征选择方案，这种方法用最大相关和最小冗余的标准选择加入特征子集的特征项，优化了特征子集并提高了其泛化能力。 3． 2 封装式（ Wrapper） Wrapper 方法把分类器作为一个黑盒，根据特征项的预测能力去存储特征子集。基于支持向量机的 Wrapper 方法已经被广泛应用于机器学习领域， SVM －ＲFE（ Support Vector Machine Ｒecursive Feature Elimination）采用劣势特征淘汰制递归地消除特征子集中的无用特征项，这种方法已经被应用于癌症研究。在每次递归中，依据特征在目标函数的减少量对特征项进行排序，然后消去底部的特征项，还有一些采用向后消除的方案和线性核函数的变种方法。 3． 3 嵌入式（ Embedded）在嵌入型特征选择中，特征选择算法是作为学习算法的部分嵌入其中的，不需要将训练文本分为训练集和验证集，即不需要对中间结果进行验证，特征选择和训练过程同时进行。直接使用分类模型来决定选择经典的嵌入型算法为决策树和人特征还是拒绝特征，工神经网络。
t ） logP （ c i | t ） + P （ t ）
∑ P（ c
i =1
i
| t ） logP （ c i | t ）（ 5）
P（ c i ）表示 c i 类文档在语料中出现的概率； P 式中，（ t ）表示语料中包含词条 t 的文档的概率； P（ c i | t ）表示文档包含词条 t 时属于 c i 类的条件概率； P （ t ）表示语料中不包含词条 t 的文档的概率； P （ c i | t ）表示文档不包含词条 t 时属于 c i 的条件概率； m 表示类别数。 4． 5 基于关联性的特征选择（ CFS） CFS［3］根据特征间的冗余度来搜索特征子集，其
4
4． 1
特征选择算法的基本描述
CHI（ χ2 统计） CHI 统计方法［6］是度量词条和文档类别之间的
相关程度的统计测试方法，其最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。在统计中， χ 检验被用于测试两个相互独立的事件 A， B 的偏差程度， B 被定义为如果 P （ AB ） = P 事件 A，（ A） P（ B ）， B 分别代表词条和在特征选择中，事件 A，类出现的频数。如果 χ 足够小，就认为误差是测量手段不够精确导致或者偶然发生的，两者确实是独立的，此时就接受原假设；如果 χ 大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，就可认为两者实际上是相关的，即否定原假设，而接受备择假设。计算方程如下：
Ｒesearch on Feature Selection Methods and Algorithms
LI M in， KAM IL M oydi
（ College of Information Science and Technology ， Xinjiang University ， Urumuqi 830046 ， China）
摘要：特征选择的主要思想是通过去除一些包含少量或不相关的信息的特征去选择特征子集。特征选择方法可分为三大类：一
是过滤式，二是封装式，三是嵌入式。鉴于目前存在大量的特征选择算法，为了能够适当地决定在特定的情况下使用哪种算法，需要提出可以依赖或判定的标准。文中的主要工作就是综述一些基本特征选择算法，根据文献中已有的理论和实验结果对特征选择方法和算法进行比较分类，然后提出一种可以依赖或判定的标准。关键词：特征选择方法；特征选择算法；过滤式；封装式；嵌入式中图分类号： TP301 文献标识码： A 文章编号： 1673 － 629X（ 2013 ） 12 － 0016 － 06 doi： 10． 3969 / j． issn． 1673 － 629X． 2013． 12． 004
第 12 期
李
敏等：特征选择方法与算法的研究
17
实际的问题中，却包含大量的噪声数据，无关的和一些容易误导性的特征。为了完全确定每一个特征，理想但是在大多数情况情况下应该测试所有的枚举特征，
n 下是不可行的，因为如果有 n 个特征将会产生 2 － 1
ter［3］方法、 Wrapper［4］方法和 Embedded 方法。 3． 1 过滤式（ Filter）这些特征选择方法
－ m －－
N 表示训练语料中的文档总数； c 为某一特式中，定类别； t 表示特定的词条； A 表示属于 c 类且包含 t 的文档频数； B 表示不属于 c 类但是包含 t 的文档频数； C 表示属于 c 类但是不包含 t 的文档频数； D 是既不属于 c 也不包含 t 的文档频数。 4． 2 欧式距离欧式距离（ Euclidean Distance）是最常采用的距离定义，欧式距离计算的是一对坐标间的方差，对于任意特征 x i ，计算其和样本中其余特征的欧式距离。特征 x i 和 y i 之间的欧式距离的计算方程如下式： Ed（ x i ， yi ） =

e商务文档

特征选择方法与算法的研究_李敏

相关文档推荐：