当前位置：文档之家› 第八章-特征选择与提取

第八章-特征选择与提取

19
基于熵的判据
熵（Entropy）:
Y
Ent(D) pk log2 pk k 1 样本类别确定： �� = 1, �� = 0; 样本类别不确定： �� < 1, �� > 0;
目标函数
m
min
( yi T xi )2 1
i 1
易获得稀疏解，是一种嵌入式特征选择方法
L1 norm
特征选择+特征提取
并行的思路
L1范数比L2范数更易获得稀疏解
m
min
( yi
i 1
T xi )2

2 2
L2 norm
33
嵌入式
34
总结
• 背景 • 特征子集搜索方法
14
基于距离的判据
• 搜索一个特征子集，我们希望 : 样本类内的距离尽可能小样本类间距离尽可能大
Far away…
Far away…
Class1
Class2
15
基于距离的判据
样本均值向量:
ui

1 Ni
xDi
x,
(i 1, 2)
协方差矩阵:
Si (x ui )(x ui )T , (i 1, 2)
23Βιβλιοθήκη 基于熵的判据香农熵（Shannon Entropy）:
��
�� = − ෍ ��(��|��) log2 ��(��|��)
��=1
平方熵（Square Entropy）:
��2�� = �� 1 �� , �� 2 �� , … ��
基于距离的类可区分性判据 Distance based separation criterion
基于概率分布的类可区分性判据 Probability distributions based separation criterion
基于熵的类可区分性判据 Entropy based separation criterion
8
特征选择
特征：对象所具有的属性例如: 西瓜{颜色, 根蒂, 敲声, 纹理, 触感…}
根蒂: 蜷缩敲声: 清脆纹理: 清晰
有经验瓜农判断：
恩，这是一个好瓜
9
特征选择
相关特征: 和任务相关的属性，且属性之间互相不相关比如：{根蒂、敲声、纹理} 好而不同
无关特征: 和任务不相关的属性比如：{颜色、触感…}
空间 • 特征提取是特征工程的一种
37
特征提取的方法
• 线性方法
• Principal Component Analysis (PCA)[Pearson , 1901] • Linear Discriminant Analysis (LDA) [Ronald Fisher , 1936]
[Belhumeur, 1996]
特征选择：从所有的已知属性中选择出和任务相关，且相互之间不相关的属性
10
特征选择
一般来说，特征选择步骤如下，主要包括子集搜索和子集评估
原始特征集合
子集搜索
子集评估
分类器
否
是否满足
是
停止条件
11
目录
• 背景 • 特征选择简介 • 特征子集搜索与子集评估 • 特征提取 • 特征选择与特征提取讨论 • 总结
25
特征选择
过滤式：特征选择发生在训练过程之前（无训练过程）
代表性方法: Relief
包裹式：直接将分类器的性能作为特征选择中的子集评估方法（无训练过程）
代表性方法: LVW（拉斯维加斯算法）
嵌入式：特征选择和学习器训练同时嵌入到一个优化过程中，特征选择在学习器训练过程中完成（有训练过程）
分类错误率:
��
=
1
−
1 ��
=
��−1 ��
�� = 1 , �� = 0, �� ≠ ��
分类错误率: �� = 0
熵值可以度量后验概率的分布!
• 非线性方法
• Multidimensional Scaling (MDS) [Torgerson, W.S. et al. ,1958] • Kernel principal component analysis (KPCA) [Scholkopf et al., 1998] • Principal Curves [Hastie, 1989] • Self-Organizing Feature Map (SOM) [Kohonen et al., 1995] • Generative topographic map (GTM) [Bishop et al., 1998] • Manifold Learning：Isomap,LLE,LE……. • ......
类 �� 1 条件概率密度
分离 �� 2
x
Class1
Class2
类条件概率密度曲线
�� 1
类
条件
�� 2
概率
Class1
密
度
Class2
根据搜索到的特征子集，分析一下两个类的类条件概率密度曲线分布情况
m
min
( yi
i 1
T xi )2

1
L1 norm
易获得稀疏解，是一种嵌入式特征选择方法
26
过滤式
过滤式：特征选择发生在训练过程之前
Relief (Relevant Features) [Kira and Rendell, 1992] • 给定‘相关统计量’，度量特征的重要性 • 设置一个阈值t, 如果某一个特征的相关统计量大于阈
其他子集搜索方法：
/heaad/archive/2011/01/02/1924088.html
How Question:
to evaluate the searched feature?
13
子集评估
类可区分性判据(Separation Criterion) 用于评估特征子集的类别区分性的能力
• 特征提取：将原始特征通过线性或者非线性组合的方式转化为新的特征表示 For example:�� = σ��=1 �� 作用: 降维特征优化提升分类性能
7
目录
• 背景 • 特征选择简介 • 特征子集搜索与子集评估 • 特征提取 • 特征选择与特征提取讨论 • 总结
18
基于概率密度的判据
• 满足以上条件的任何函数都可以作为基于概率密度的类可区分性判据的距离度量!!!
• 概率密度距离的常用函数: 1) 巴氏距离（Bhattacharyya distance） 2) Chernoff 界限（Chernoff bound ） 3) 散度（Divergence）
参考书: 边肇祺《模式识别》第8章
西瓜特征
分类器
(SVM,Beyes,KNN….)
好瓜坏瓜
原始特征: 西瓜{颜色, 根蒂, 敲声, 纹理, 触感…}
以往研究，是特征固定，研究重点是分类器
4
背景
举例: 对于一个有经验的瓜农，怎么判断西瓜是好还是坏？
特征
结果
颜色：绿色根蒂：蜷缩 ① 敲声：清脆纹理：清晰触感：光滑
好瓜
根蒂：蜷缩 ② 敲声：清脆
值t, 那么就将其加入特征子集 • 特征子集的重要性等于特征子集相关统计量的和
27
包裹式
包裹式：直接将分类器的性能作为特征选择中的子集评估方法 LVW(Las Vegas Wrapper) 是一种典型的包裹式算法 1）在候选特征集中自由选择特征子集 2）在特征子集表示的数据集上，运行学习算法 3）用分类的错误率来评估特征子集的好坏
12
子集搜索
1) 前向搜索: 依次在候选集合中增加相关特征
Optimal feature:
⇒ ��2 ⟹ ��2, ��4 … . .
子集评估
2) 后向搜索: 在候选集合中，依次去除不相关特征
Optimal feature:
These strategies are greedy, only consider optimization of this round 这些方法是贪心的策略，因为是在上一轮的基础上考虑本轮最优，所以不一定得到最优特征组合
前向搜索，后向搜索，双向搜索
• 特征子集评估方法
基于距离的判据，基于概率密度的判据，基于熵的判据
• 特征选择的策略
过滤式，包裹式，嵌入式
35
目录
• 背景 • 特征选择介绍 • 特征子集搜索与子集评估 • 特征提取 • 特征选择与特征提取讨论 • 总结
36
特征提取
• 特征提取不同于特征选择 • 特征提取是将原始特征通过组合转换到新的特征
纹理：清晰
好瓜
③ 颜色：绿色
① 相比 ②，部分特征冗余，需要选择特征
5
背景
特征: {根蒂，敲声，

e商务文档

第八章-特征选择与提取

相关文档推荐：