当前位置：文档之家› 机器学习之特征选择

机器学习之特征选择

特征选择的子集产生过程
(4) 增L去R选择算法 ( LRS , Plus-L Minus-R Selection )
该算法有两种形式:
<1> 算法从空集开始，每轮先加入L个特征，然后从中去除R 个特征，使得评价函数值最优。( L > R )
<2> 算法从全集开始，每轮先去除R个特征，然后加入L个特征，使得评价函数值最优。( L < R ) 算法评价：增L去R选择算法结合了序列前向选择与序列后向选择思想， L与R的选择是算法的关键。
算法评价：缺点是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A 就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。
特征选择的子集产生过程
(2)序列后向选择( SBS , Sequential Backward Selection )
(3) 遗传算法( GA, Genetic Algorithms )
算法描述：首先随机产生一批特征子集，并用评价函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，并且评分越高的特征子集被选中参加繁殖的概率越高。这样经过N代的繁殖和优胜劣汰后，种群中就可能产生了评价函数值最高的特征子集。随机算法的共同缺点：依赖于随机因素，有实验结果难以重现。
算法描述：使用序列前向选择(SFS)从空集开始，同时使用序列后向选择(SBS)从全集开始搜索，当两者搜索到一个相同的特征子集C时停止搜索。
双向搜索的出发点是2��/2 < �� 。如下图所示，O点代表搜索起点，A点代表搜索目标。灰色的圆代表单向搜索可能的搜索范围，绿色的2个圆表示某次双向搜索的搜索范围，容易证明绿色的面积必定要比灰色的要小。
算法评价：枚举了所有的特征组合，属于穷举搜索，时间复杂度是O(2n)，实用性不高。
(2)分支限界搜索( Branch and Bound )
算法描述：在穷举搜索的基础上加入分支限界。例如：若断定某些分支不可能搜索出比当前找到的最优解更优的解，则可以剪掉这些分支。
特征选择的子集产生过程
(3) 定向搜索 (Beam Search )
特征选择的子集产生过程
2FS , Sequential Forward Selection )
算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单的贪心算法。
�� =1
�� − ��
2
(1)
当样本特征很多，而样本数相对较少时，式(1)很容易陷入过拟合，为了缓解过拟合问题，可对式(1)引入正则化项，若使用L1范数正则化，则有 �� = ��
为什么L1易获得稀疏解？（解释一） L1 正则化时，X=0点为不可导点，导函数不存在，此时只要正则化项的系数λ大于原先费用函数在 0 点处的导数的绝对值，左右导函数异号，x = 0 就会变成一个极小值点。
嵌入式选择与L1正则化
为什么L1易获得稀疏解？（解释二）
嵌入式选择与L1正则化
注意到��取得稀疏解意味着初试的d个特征中仅有对应着��的非零向量的特征才会出现在最终模型中，于是，求解L1范数正则化的结果是得到了仅才用一部分初始特征值的模型，换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程与学习器训练过程融为一体，同时完成。 L1正则化问题求解可使用近端梯度下降（Proximal Gradient Descent,简称PGD）
算法描述：从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。算法评价：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。
另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。
特征选择的子集产生过程
(3) 双向搜索( BDS , Bidirectional Search )
嵌入式选择与L1正则化
在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别；于此不同，嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择。最典型的例子就是带剪枝的决策树。
嵌入式选择与L1正则化
�� =1
�� − ��
2
+ λ||��||1
(2)
式(2)称为LASSO（Least Absolute Shrinkage and Selection Operator 最小绝对收缩算子）
嵌入式选择与L1正则化
特征选择的子集评价
( 2) 距离 (Distance Metrics )
运用距离度量进行特征选择是基于这样的假设：好的特征子集应该使得属于同一类的样本距离尽可能小，属于不同类的样本之间的距离尽可能远。
常用的距离度量（相似性度量）包括欧氏距离、标准化欧氏距离、马氏距离等。 (3) 信息增益( Information Gain ) 假设存在特征子集A和特征子集B，分类变量为C，若IG( C|A ) > IG( C|B ) ，则认为选用特征子集A的分类结果比B好，因此倾向于选用特征子集A。
算法评价：可作为SFS与SBS的补充，用于跳出局部最优值。
(2) 模拟退火算法( SA, Simulated Annealing )
算法评价：模拟退火一定程度克服了序列搜索算法容易陷入局部最优值的缺点，但是若最优解的区域太小（如所谓的 “高尔夫球洞”地形），则模拟退火难以求解。
特征选择的子集产生过程
特征选择的子集评价
通过子集搜索产生的特征子集需要用评价尺度来进行评价，常见的评价方法如下： (1) 相关性( Correlation)
运用相关性来度量特征子集的好坏是基于这样一个假设：好的特征子集所包含的特征应该是与分类的相关度较高（相关度高），而特征之间相关度较低的（亢余度低）。可以使用线性相关系数(correlation coefficient) 来衡量向量之间线性相关度。
特征选择
Feature Selection
重庆大学余俊良
特征选择
• 什么是特征选择
– 特征选择 ( Feature Selection )也称特征子集选择 ( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。
产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete)，启发式搜索(Heuristic)，随机搜索(Random) 3 大类
特征选择的子集产生过程
1.完全搜索
完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(NonExhaustive)两类。 (1) 广度优先搜索( Breadth First Search ) 算法描述：广度优先遍历特征子空间。
特征选择的常用方法
将特征子集搜索与子集评价相结合，即可得到特征选择方法，例如将前向搜索与信息熵相结合，这显然与决策树算法非常相似。事实上，决策树可用于特征选择，树结点的划分属性所组成的集合就是选择出的特征子集。常见的特征选择方法大致可分为三类：过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。
�� =1
�� − ��
2
+ λ||��||1
(2)
嵌入式选择与L1正则化
L1范数和L2范数正则化都有助于降低过拟合风险，但前者还会带来一个额外的好处：它比后者更易于获得“稀疏”解，即它求得的��会有更少的非零分量. �� = ��
给定数据集D={(��1,��1), (��2, ��2),…(��,��)}，其中 �� ∈ �� , �� ∈ �� ，考虑最简单的线性回国模型，以平方误差为损失函数，则优化目标为 �� = ��
特征选择的子集评价
(4)一致性( Consistency )
若样本1与样本2属于不同的分类，但在特征A、 B上的取值完全一样，那么特征子集{A，B}不应该选作最终的特征集。 (5)分类器错误率 (Classifier error rate )
使用特定的分类器，用给定的特征子集对样本集进行分类，用分类的精度来衡量特征子集的好坏。
包裹式选择
一般而言，由于包裹式特征选择方法直接针对给定学习器进行优化，因此从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好，但另一方面，由于在特征选择过程中需多次训练学习器，因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
前面介绍的评价尺度中，相关性、距离、信息增益、一致性属于过滤式，而分类器错误率属于包裹式。
算法描述：首先选择N个得分最高的特征作为特征子集，将其加入一个限制最大长度的优先队列，每次从队列中取出得分最高的子集，然后穷举向该子集加入1个特征后产生的所有特征集，将这些特征集加入队列。 (4) 最优优先搜索 ( Best First Search ) 算法描述：与定向搜索类似，唯一的不同点是不限制优先队列的长度。

e商务文档

机器学习之特征选择

相关文档推荐：