当前位置：文档之家› 高维数据特征降维研究综述

高维数据特征降维研究综述

1 1 特征抽取
特征抽取也被称为特征重参数化 ( feature repa rame teriza
tion) [ 1] 。由于自然语言中存在大量的多义词、同义词现象, 特
征集无法生成一个最优的特征空间对数据内容进行描述。特
征抽取通过将原始特征空间进行变换, 重新生成一个维数更
K ira和 R endell提出的 R elief算法 [8] 是一个比较著名的特征权重类方法, 主要根据特征值在同类实例中以及相近的不同类实例中的区分能力来评价特征的相关度。首先从训练集中随机抽取 m 个实例, 再根据被选实例与两个最近实例 ( 一个同类最近实例, 一个相反类最近实例 )的差异来更新每个特征的相关度评价, 依赖相关度评价进行特征选择。其对于含 M 个实例、N 个特征的数据集 R e lie f的时间复杂度为 O ( mMN )。因此, 该算法很适合于处理具有大量实例的高维数据集。但是, R e lief不能消除冗余特征, 只要特征被认为与类概念相关即被选中, 即使这些特征之间相互高度关联。近几年, 许多学者纷
Ab stract: F ea ture dmi ension reduction is effective in mi p rov ing m achine learn ing, the po int is how to search the subset and selection cr iter ia. T h is paper defined genera lm ode ls for dmi ension reduction, com pared d ifferent appro aches, and discussed the un reso lv ed topics and deve lopm en t trends. K ey words: dmi ension reduction; m ach ine learning; feature selection; feature abstraction; se lection cr iter ia
小、各维之间更独立的特征空间。可以按照表 1对特征抽取算
法进行分类。
表 1 特征抽取方法分类
有无指导无无无有
线性
主成分分析 ( PCA ) 独立成分分析 ( ICA)
投影追踪线性区别分析
非线性
K oh onen 匹配非线性 PCA 网络
Samm on投影非线性区别分析
1 2 特征选择
纷就 R elie f的改进提出了各种建议, 如 Sun Y i jun最新提出的 I R elie f算法 [ 9] 通过探索期望最大化算法的框架, 认为迭代 R e lie f算法能够减轻 R e lief的不足, 并使用新的多类别边缘定义将 I R elief扩展至多类别设置, 同时减少计算开销、发展在线学习算法。
特征权重算法为每个特征指定一个权值, 并按照它与目标概念的相关度对其进行排序, 如果一个特征的相关度权值大于某个阈值, 则认为该特征优秀, 并且选择该特征。特征权重算法的缺点在于: 它们可以捕获特征与目标概念间的相关性, 却不能发现特征间的冗余性。经验证明除了无关特征对学习任务的影响, 冗余特征同样影响学习算法的速度和准确性, 也应尽可能消除冗余特征。
摘要: 特征降维能够有效地提高机器学习的效率, 特征子集的搜索过程以及特征评价标准是特征降维的两个
核心问题。综述国际上关于特征降维的研究成果, 总结并提出了较完备的特征降维模型定义; 通过列举解决特
征降维上重要问题的各种方案来比较各种算法的特点以及优劣, 并讨论了该方向上尚未解决的问题和发展
趋势。
HU J ie ( a. L abora tory of M ach in e P erception, b. D ept. of M ach in e In te llig ence, School of E lectron ics E ng ineering & Compu ter S cience, c. Institu te of D ig ital L ibra ry, P eking Un iversity, Be ijing 100871, Ch ina )
2 特征降维模型
特征降维是一个从初始高维特征集合中选出低维特征集合, 以便根据一定的评估准则最优化缩小特征空间的过程。综合国际上现有的特征降维模型, 可以将特征降维模型作如下定义。
定义 1 特征降维模型是一个四元组 { F, S, P, R ( si, fj ) }。其中:
2 1 2 子集搜索算法子集搜索算法通过在一定的度量标准指导下遍历候选特
征子集, 对每个子集进行优劣评价, 当搜索停止时即可选出最优 (或近似最优 )的特征子集。现有子集搜索算法的时间复杂度至少为维度的平方, 所以在处理高维数据时不具有强可量测性。 N akariyaku i和 C asasent最新提出的分支跳跃算法 [ 10] 通过避免对解决方案树中某些节点不必要的评价函数计算来提高
特征降维 ( feature d im ension reduction) 是一个从初始高维特征集合中选出低维特征集合, 以便根据一定的评估准则最优化缩小特征空间的过程, 通常作为机器学习的预处理步骤。特征降维自 20世纪 70年代以来就获得了广泛的研究。近几年以来, 在许多应用 ( 如基因染色体组工程、文本分类、图像检索、消费者关系管理 )中, 数据的实例数目和特征数目都急剧增加, 这种数据的海量性使得大量机器学习算法在可测量性和学习性能方面产生严重问题。例如, 高维数据即具有成百上千特征的数据集, 会包含大量的无关信息和冗余信息, 这些信息可能极大地降低学习算法的性能。因此, 当面临高维数据时, 特征降维对于机器学习任务显得十分必要。大量研究实践证明, 特征降维能够有效地消除无关和冗余特征, 提高挖掘任务的效率, 改善预测精确性等学习性能, 增强学习结果的易理解性。然而, 数据在数量和维度上的剧增趋势也对特征降维算法提出了更加严峻的挑战。本文给出了特征降维的相关概念介绍, 概括了目前国际上常用的特征降维模型、特征降维领域的重要问题特征选取的评价标准, 并且通过列举不同的解决方案, 比较这些方案的特点。
L i等人 [11]提出的多层过滤模型中首先使用 R elie fF[ 12] 通过为每个特征指定相关权重来移除无关特征。 R e liefF 算法是针对 R elie f的改进算法, 它具有鲁棒性, 能够处理不完整数据、噪声数据以及多重类别问题, 然而在移除冗余数据方面效率较差。因此, L i等人又在系统中使用特征聚类算法 KNNC[ 13] 来消除冗余特征。假设训练样本数为 s, 原始特征数为 n, 则 R e lie fF 和 KNN C的时间复杂度分别为 O ( s2 n )和 O ( n2 s) 。使用多层过滤模型对海量特征进行特征选择时, 应当将时间复杂度低的算法先于其他算法运行。如果 n > > s, 则 KNNC 应当在 R e lie fF 之后运行 (记为 R + K ) , 以 R elie fF 的输出作为 KNNC 的输入; 如果 s > > n, 则 KNN C 应先于 R e lie fF 运行 ( 记为 K + R ), 并将 KNN C的输出作为 Re lie fF 的输入。因为 R + K 时 R e lie fF 过滤得到的特征具有权重, 所以在 KNNC 进行特征选择后, 应当再对余下的未选中特征进行逐个检查, 以确定该特征是否基于局部有效而非基于全局判断。如果某特征权重大于
a) F 是特征集合中的一组特征逻辑视图, 称为特征的表示; b) S 是一组目标特征需求的逻辑视图, 称为降维目标; c)P 是一种机制, 用于构建特征表示、降维目标及它们之间关系的模式; d) R ( si, fj ) 是排序函数, 该函数输出一个与降维 si ∀ S 和特征表示 fj∀ F 有关的实数, 这样就在特征之间根据降维目标 si 定义了一个顺序。可以将现有的特征降维模型大致分为过滤模型、包裹模型及其他改进模型。
特征选择就是从特征集 T = { t1, , ts } 中选择一个真子集 T!= { t1, , ts! }, 满足 ( s!< < s )。其中: s 为原始特征集的大小; s!为选择后的特征集大小。特征选择不改变原始特征空间的性质, 只是从原始特征空间中选择一部分重要的特征, 组成一个新的低维空间。
2 2 多层过滤模型
考虑到各种过滤方法各有优劣, 可以使用多层过滤模型分别消除无关特征和冗余特征。多层过滤模型不仅能够保留各
种过滤算法的优点, 而且该模型易于理解和执行。对于消除无关特征和冗余特征的次序, 模型中没有明确限定, 可以根据数据集合的特点以及应用特性, 选择适合的过滤算法及过滤步骤。多层过滤模型的框架如图 1所示。
关键词: 降维; 机器学习; 特征选择; 特征抽取; 评估准则
中图分类号: TP181
文献标志码: A
文章编号: 1001 3695( 2008) 09 2601 06
Survey on feature dim ens ion reduction for h igh dim ensiona l data

e商务文档

高维数据特征降维研究综述

相关文档推荐：