当前位置:文档之家› 数据挖掘(三)数据归约

数据挖掘(三)数据归约


1.对已知的特征的所有值进行分类。 1.对已知的特征的所有值进行分类。 2.大概在指定每个箱中分类的相邻值(vi)的均 2.大概在指定每个箱中分类的相邻值( 等数目,箱子数已给定。 3.当减少全局距离误差(ER)(所有从每个vi到 3.当减少全局距离误差(ER)(所有从每个v 其指定箱子的均值或众数的距离之和) 其指定箱子的均值或众数的距离之和)时, 把边界元素v 从一个箱中移到下一个( 把边界元素vi从一个箱中移到下一个(或前 一个) 一个)箱中。
特征子集选择的两种方法 1.自底向上方法:从空集开始,然后从初始 1.自底向上方法:从空集开始,然后从初始 特征集选择最相关的特征来写入此集。这 种方法采用一种基于一些试探式的特征评 估标准。 2.自顶向下方法:从原始特征的的完整集合 2.自顶向下方法:从原始特征的的完整集合 开始,然后根据所选的试探式评估尺度一 个一个挑选出不相关的特征,并将其去除。
基于均值和方差的检验公式 设A和B是两个不同类特征的值的集 合,n 合,n1和n2是相应的样本数。
SE ( A − B ) = (var( A ) / n 1 + var( B ) / n 2 ) TEST : mean ( A ) − mean ( B ) / SE ( A − B ) > 阈值
结果分析:选择X进行归约,因它均值 接近,检验结果小于阈值。Y不需要归 约,它可能是两类间的区别特征。 上述方法分别检验特征。当分别考虑时, 一些特征可能是有用的,但是在预测能 力上它们可能会是冗余的。如果对特征 进行总体的而不是单个的检查,我们就 可获得一些关于它们的特性的额外信息。
3.3 值归约
0 . 01 / 3 + 0 . 0133 / 3 = 0 . 0875
mean ( X A ) − mean ( X B ) / SE ( X A − X B ) = 0 . 4667 − 0 . 4333 / 0 . 4678 = 0 . 0735 < 0 . 5 mean ( Y A ) − mean ( Y B ) / SE ( Y A − Y B ) = 0 . 6 − 0 . 8333 / 0 . 0875 = 2 . 6667 > 0 . 5
上式基于这样一种假设,已知特征独 立于其他特征。主要用于分类问题。
例题:下表是一组数据集,有两个输 入特征X 入特征X和Y,C是把样本分成两类 的附加特征。假设检验阈值为0.5 的附加特征。假设检验阈值为0.5
X 0.3 0.2 0.6 0.5 0.7 0.4 Y 0.7 0.9 0.6 0.5 0.7 0.9 C A B A A B B
一种可行的特征选择技术是基于均值和方 差的比较。它适用于特征的分布是未知的 情况,实际情况也不知道特征的分布,如 果假设分布是正态,利用统计学可获得好 的结果。这种技术仅是一种试探式的、不 严密的数学建模工具。 如果一个特征描述了不同种类的实体,用 特征的方差对特征的均值进行标准化,进 行不同类之间的比较。如果均值偏离很远, 此特征具有分别两样本的能力,否则该特 征的意义不大。
例如,若一个数据集有3个特征{A1,A2,A3}, 例如,若一个数据集有3个特征{A1,A2,A3}, 特征出现或不出现取值0,1,共有2 特征出现或不出现取值0,1,共有23个归约的 特征子集, 特征子集, {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1}, {1,1,0},{1,1,1} 特征选择的任务是搜索空间中的每一种状态 都指定可能特征的一个子集。此问题n=3, 都指定可能特征的一个子集。此问题n=3, 空间较小,但大多数挖掘应用,n>20,搜 空间较小,但大多数挖掘应用,n>20,搜 索起点和搜索策略相当重要,常常用试探 搜索代替穷举搜索。
例如:有一特征f 例如:有一特征f的值集合是: {3,2,1,5,4,3,1,7,5,3}, {3,2,1,5,4,3,1,7,5,3}, 通过分类组成一个有序集合: {1,1,2,3,3,3,4,5,5,7} 分为3个箱: {1,1,2, 3,3,3, 4,5,5,7} 4,5,5,7} BIN1 BIN2 BIN3 下面分别中数、均值和边界对其平整。
特征归约的目标与任务: 1.特征选择-基于应用领域的知识和挖掘 1.特征选择-基于应用领域的知识和挖掘 的目标,选择初始数据集中特征的一个子 集。 2.特征构成-有一些数据的转换对挖掘方 2.特征构成-有一些数据的转换对挖掘方 法的结果有惊人影响,因此特征构成是一 个比特殊的挖掘技术更有决定性因素。特 征构成依赖于应用的知识,交叉学科知识 的应用有利于数据准备的改进。 的应用有利于数据准备的改进。
3,3,3, BIN2
4,4,4,7} 4,4,4,7} BIN3
主要问题是找到最好的分割点。理论上, 分割点不能独立其他特征来决定。但很多 挖掘应用每个特征的试探性决策独立地给 出了合适的结果。 值归约问题可表述为一个选择k 值归约问题可表述为一个选择k个箱的最优 化问题:给出箱的数量k 化问题:给出箱的数量k,分配箱中的值, 使得一个值到它的箱子的均值或中值的平 均距离最小。算法可能非常复杂,通常采 均距离最小。算法可能非常复杂,通常采 用近似最优化算法,下面是一个改进的试 探性程序过程步骤:
第三章 数据归约
本章目标 明确基于特征、案例维归约与值归约的区别。 解释数据挖掘过程的预处理阶段中进行数据 归约的优点。 应用相应的统计方法,理解特征选择和特征 构成的基本原则。
3.1 大型数据集的维度
对数据描述,特征的挑选、 对数据描述,特征的挑选、归约或转换可能 是决定挖掘方案质量的最重要的问题。 是决定挖掘方案质量的最重要的问题。除了 影响到数据挖掘算法的属性, 影响到数据挖掘算法的属性,它也能决定问 题量否可解,或所得到的挖掘模型有多强大。 题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约: 1.一旦特征数量达到数百,而只有上百条样 一旦特征数量达到数百, 本用于分析时,对挖掘是相对不够的。 本用于分析时,对挖掘是相对不够的。 2.由高维度引起的数据超负,使一些挖掘算 由高维度引起的数据超负, 法不适用。 法不适用。
特征选择方法: 1.特征排列算法:特征等级列表是根据特有的评 1.特征排列算法:特征等级列表是根据特有的评 估测量标准进行排序的。测量标准基于可用数据 的精度、一致性、信息内容、样本之间的距离和 特征之间的最终统计相关性。它仅指出特征间的 相关性,不提供子集。 相关性,不提供子集。 2.最小子集算法:返回一个最小特征子集,子集 2.最小子集算法:返回一个最小特征子集,子集 中的特征之间没有等级区别。子集中的特征与挖 掘过程相关,其余的则是不相关的。 掘过程相关,其余的则是不相关的。 在特征选择过程中需要建立特征评估方案来确定 等级排列或特征子集选择,这一点很重要。
3.4 案例归约
如果我们没有参与数据收集过程,那么在 挖掘时可看作是二次数据分析,挖掘过程 与收集数据和选择初始数据的样本集的最 优方法没有联系,样本是已知的,质量或 好或坏,或者没有先验知识,需要解决案 例数据集中使用的维数和样本数目,或者 说数据表中的行数。因此案例归约是数据 归约中最复杂的任务。
在数据归约操作时的目标过程: 1.计算时间:较简单的数据,也即经过数据归 1.计算时间:较简单的数据,也即经过数据归 约后的结果,可减少挖掘所消耗的时间。 约后的结果,可减少挖掘所消耗的时间。 2.预测/描述精度:多数挖掘模型的主要度量 2.预测/描述精度:多数挖掘模型的主要度量 标准,它估量了数据归纳和慨括为模型的好 坏。 3.数据挖掘模型的描述:简单的描述通常来自 3.数据挖掘模型的描述:简单的描述通常来自 数据归约,意味着模型能得到更好的理解。 理想的情况是维归约后既能减少时间,又能 同时提高精度和简化描述。
预处理数据集的三个主要维度:列(特 预处理数据集的三个主要维度:列(特 征),行(案例或样本)和特征的值。它 们以平面文件的形式出现。 数据归约过程3个基本操作:删除列、删 数据归约过程3个基本操作:删除列、删 除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征 合并代替原来特征(身体素质指标代替人 的身高和体重特征) 数据归约的约定是不要降低结果的质量。 数据归约的约定是不要降低结果的质量。
数据归约算法的特征: 1.可测性:已归约的数据集可精确确定近似结果的质 1.可测性:已归约的数据集可精确确定近似结果的质 量。 2.可识别性:挖掘前能执行归约算法时能确定近似结 2.可识别性:挖掘前能执行归约算法时能确定近似结 果的质量。 3.单调性:算法是可迭代的,结果的质量是时间和输 3.单调性:算法是可迭代的,结果的质量是时间和输 入数据质量的一个非递减的函数。 4.一致性:结果的质量与时间和输入数据质量有关。 4.一致性:结果的质量与时间和输入数据质量有关。 5.收益递增:方案在迭代早期可获得大的改进,但随 5.收益递增:方案在迭代早期可获得大的改进,但随 时间递减。 6.中断性:算法可在任何时刻停止并给出答案。 6.中断性:算法可在任何时刻停止并给出答案。 7.优先权:算法可以暂停并以最小的开销新开始。 7.优先权:算法可以暂停并以最小的开销新开始。
3.2 特征归约
在进行数据归约时不但要处理干扰数 据和污染数据,而且要处理不相关、 相关、冗余数据。为了提高效率,通 常单独处理相关特征,只选择与挖掘 应用相关的数据,以达到用最小的测 量和处理量获得最好的性能。特征归 约的目标:
更少的数据,以便挖掘算法能更快的学 习。 更高的挖掘处理精度,以便更好地从数 据中归纳出模型。 简单的挖掘处理结果,以便理解和使用 起来更加容易。 更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭。
X和Y特征的值的子集: XA={0.3,0.6,0.5},XB={0.2,0.7,0.4} YA={0.7,0.6,0.5},YB={0.9,0.7,0.9} 计算特征子集的均值和方差: var(XA)=0.0233, var(XB)=0.6333 var(YA)=0.01, var(YB)=0.0133
相关主题