当前位置:
文档之家› 特征选择方法与算法的研究_李敏
特征选择方法与算法的研究_李敏
Abstract: The main idea of feature selection is to choose a subset of input features by eliminating features w ith little or no predictive information. Feature selection methods can be decomposed into three broad classes: one is filter methods, another one is w rapper methods count on criteria that and the third one is embedded methods. In view of the substantial number of existing feature selection algorithms, enable to adequately decide w hich algorithm to use in certain situations need arises to. This w ork review s several fundamental algorithms found in the literature, proposed a criteria w hich guide researchers to make a decision to use proper algorithms by presenting an empirical comparison of feature selection methods and its algorithms. Key words: feature selection methods; feature selection algorithms; filter methods; w rapper methods; embedded methods
2
特征选择算法
特征选择算法的目的是使选出的最优特征子集所
构建的分类或回归模型达到和特征选择前近似甚至更 好的预测精度 , 提高模型的泛化能力 、 可理解性以及计 算效率。 在文献中需要考虑到特征选择算法的几个因素 , 鉴于这几个因素 , 可以把特征选择描述为在假设空间 的搜索寻优问题 。 ( 1 ) 搜索策略 。 搜索策略和特征空间的特征个数有关 , 一个搜索 算法用一种特定的策略去搜索特征 , 主要有三种搜索 类型: 穷举式搜索 、 启发式搜索 、 随机搜索 。 ( 2 ) 特征子集的构造 。 以下五种方法常用于构造特征子集 : 前向选择 、 后 向选择、 双向选择 、 加权方法和随机选择 。 ( 3 ) 评价函数 。 评估候选特征子集函数 , 评价函数主要有 : 错误 率、 分散度 、 依赖性 、 距离测度 、 精确度 、 信息测度 、 一致 2] 性等 。文献[ 给出了特征选择基本框架 , 如图 1 。
0
引
言
1
1. 1
特征选择
特 特征 征
[1 ]
特征选择实质是从原始数据集中选取最优子集的 过程, 通过特定的评价标准去衡量最优子集的优良性 。 特征选择理论经历了几十年的发展 , 其研究成果被广 泛应用于文本分类 、 图像提取 、 基因组分析等 。 与机器学习算法结合形成了复杂的算法体系 , 正 由于算法的多样化和跨学科性 , 使得很多从事这一领 域的研究专家花费大量的时间去了解和研究每种算 法, 基于这种考虑 , 文中罗列和总结了现有的特征选择 算法, 结合已有的理论和实验成果客观地对每种算法 并依据评价准则对其进行分类 , 最后提出一 进行评价 , 种引导从事这一领域的人员根据现有技术选择合适的 算法解决实际问题的可依赖或判定标准 。
2 c) = χ ( t, 2 2 2
图1
通用特征选择算法流程
3
特ቤተ መጻሕፍቲ ባይዱ选择方法
特征选择 算 法 依 据 不 同 的 评 价 准 则 可 分 为 Fil-
N × ( AD - CB) 2 ( A + C) ( B + D) ( A + B) + ( C + D) ( 1)
18
计算机技术与发展
第 23 卷
第 23 卷 第 12 期 2013 年 12 月
计算机技术与发展
COMPUTER TECHNOLOGY AND DEVELOPMENT
Vol. 23 No. 12 Dec. 2013
特征选择方法与算法的研究
李 敏, 卡米力·木依丁
( 新疆大学 信息与科学工程学院, 新疆 乌鲁木齐 830046 )
的评估方法没有考虑到特征之间的相关性 , 近年来提 出 的 MRMR ( Minimum Redundancy - Maximum Relevance) 特征选择方案 , 这种方法用最大相关和最小冗 余的标准选择加入特征子集的特征项 , 优化了特征子 集并提高了其泛化能力 。 3. 2 封装式 ( Wrapper) Wrapper 方法把分类器作为一个黑盒 , 根据特征 项的预测能力去存储特征子集 。 基于支持向量机的 Wrapper 方法已经被广泛应用于机器学习领域 , SVM - RFE( Support Vector Machine Recursive Feature Elimination) 采用劣势特征淘汰制递归地消除特征子集中的 无用特征项 , 这种方法已经被应用于癌症研究 。 在每 次递归中 , 依据特征在目标函数的减少量对特征项进 行排序 , 然后消去底部的特征项 , 还有一些采用向后消 除的方案和线性核函数的变种方法 。 3. 3 嵌入式 ( Embedded) 在嵌入型特征选择中 , 特征选择算法是作为学习 算法的部分嵌入其中的 , 不需要将训练文本分为训练 集和验证集 , 即不需要对中间结果进行验证 , 特征选择 和训练过程同时进行 。直接使用分类模型来决定选择 经典的嵌入型算法为决策树和人 特征还是拒绝特征 , 工神经网络 。
t ) logP ( c i | t ) + P ( t )
∑ P( c
i =1
i
| t ) logP ( c i | t ) ( 5)
P( c i ) 表示 c i 类文档在语料中出现的概率 ; P 式中 , ( t ) 表示语料中包含词条 t 的文档的概率 ; P( c i | t ) 表示 文档包含词条 t 时属于 c i 类的条件概率 ; P ( t ) 表示语 料中不包含词条 t 的文档的概率 ; P ( c i | t ) 表示文档 不包含词条 t 时属于 c i 的条件概率 ; m 表示类别数 。 4. 5 基于关联性的特征选择 ( CFS) CFS[3]根据特征间的冗余度来搜索特征子集 , 其
4
4. 1
特征选择算法的基本描述
CHI( χ2 统计 ) CHI 统计方法[6] 是度量词条和文档类别之间的
相关程度的统计测试方法 , 其最基本的思想就是通过 观察实际值与理论值的偏差来确定理论的正确与否 。 在统计中 , χ 检验被用于测试两个相互独立的事件 A, B 的偏差 程 度 , B 被 定 义 为 如 果 P ( AB ) = P 事 件 A, ( A) P( B ) , B 分别代表词条和 在特征选择中 , 事件 A, 类出现的频数 。如果 χ 足够小 , 就认为误差是测量手 段不够精确导致或者偶然发生的 , 两者确实是独立的 , 此时就接受原假设 ; 如果 χ 大到一定程度 , 使得这样 的误差不太可能是偶然产生或者测量不精确所致 , 就 可认为两者实际上是相关的 , 即否定原假设 , 而接受备 择假设 。计算方程如下 :
Research on Feature Selection Methods and Algorithms
LI M in, KAM IL M oydi
( College of Information Science and Technology , Xinjiang University , Urumuqi 830046 , China)
摘 要: 特征选择的主要思想是通过去除一些包含少量或不相关的信息的特征去选择特征子集 。特征选择方法可分为三大类: 一
是过滤式, 二是封装式, 三是嵌入式。鉴于目前存在大量的特征选择算法, 为了能够适当地决定在特定的情况下使用哪种算法, 需 要提出可以依赖或判定的标准 。文中的主要工作就是综述一些基本特征选择算法, 根据文献中已有的理论和实验结果对特征选 择方法和算法进行比较分类 , 然后提出一种可以依赖或判定的标准。 关键词: 特征选择方法; 特征选择算法; 过滤式; 封装式; 嵌入式 中图分类号: TP301 文献标识码: A 文章编号: 1673 - 629X( 2013 ) 12 - 0016 - 06 doi: 10. 3969 / j. issn. 1673 - 629X. 2013. 12. 004
第 12 期
李
敏等: 特征选择方法与算法的研究
17
实际的问题中 , 却包含大量的噪声数据 , 无关的和一些 容易误导性的特征 。 为了完全确定每一个特征 , 理想 但是在大多数情况 情况下应该测试所有的枚举特征 ,
n 下是不可行的 , 因为如果有 n 个特征将会产生 2 - 1
ter[3]方法、 Wrapper[4]方法和 Embedded 方法 。 3. 1 过滤式 ( Filter) 这些特征选择方法
- m - -
N 表示训练语料中的文档总数 ; c 为某一特 式中 , 定类别; t 表示特定的词条 ; A 表示属于 c 类且包含 t 的 文档频数 ; B 表示不属于 c 类但是包含 t 的文档频数 ; C 表示属于 c 类但是不包含 t 的文档频数 ; D 是既不属 于 c 也不包含 t 的文档频数 。 4. 2 欧式距离 欧式距离 ( Euclidean Distance) 是最常采用的距离 定义, 欧式距离计算的是一对坐标间的方差 , 对于任 意特征 x i , 计算其和样本中其余特征的欧式距离 。 特征 x i 和 y i 之间的欧式距离的计算方程如下式 : Ed( x i , yi ) =