实例选择:2011博-华中科技大-给予特征和实例的海量数据约简方法研究
所谓实例选择就是从海量的原始数据集中选择有代表性的实例,形成一个相对较小的数据集,
以降低处理数据集时对时间和空间的需求。但是对实例的选择应满足一个约束条件,即通过
实例选择而得到的数据集不应对数据分类效果产生影响。
实例选择应该满足以下两个前提:
(l)训练集的实例个数必须大于测试集的实例个数。
(2)经算法处理后得到的压缩集必须使得其实例数目小于测试集的实例数目。
数据集进行实例选择时需要考虑以下几个方面的问题:
(l)约简率(DataReduetionRratio)
约简率反映了数据集约简的程度。
(2)约简效果
约简方法的约简效果表示约简后数据集和原始数据集的相似程度,相似程度越高,约简的效果
越强。
(3)对噪声点和异常点的敏感程度
噪声和异常点的存在会对后期的处理产生误导作用,如果约简集中过多地存在噪声点和异常
点,必定会影响后期的处理,实例选择的算法应该能很好地去除噪声和异常点。
(4)算法的时间复杂度应该尽可能的小。
目前,很多研究人员对实例选择都展开了研究,其方法主要包括:
(l)关键点选择:关键点是数据集中对分类起关键作用的实例。关键点的出现是在使NN算法进
行分类时,数据集过大而泞致算法性能急剧下降,从而提出使少IJ数据集`},的关键点取代使用
整个数据集。
(2)边界点去除:边界点去除主要用在分类数据集中,为了提高分类效果,可以将处于类边缘的
数据去除,在降低数据集大小的同时,提高分类效果。很多研究都使用支持向量机的方法进行
边界点的去除。
(3)原型选择:原型选择是用原始数据集中的原型来取代数据集,原型一般是指最有代表性的
实例,一般是通过对原始数据集的处理后所产生的新的实例。
2011硕-河北大学-给予欧氏距离的实例选择算法研究
测试方法:目前大部分算法的测试方法采用K − NN方法。
评价标准
(1) 压缩比(compression ratio)
compression ratio=|SC|/|ST|
|SC| 表示压缩集样本个数,|ST| 表示训练集样本个数
(2) 泛化能力。对于某种分类器而言,相似程度越高,压缩集泛化能力越强。
(3) 对噪声和异常点的敏感程度。
(4) 算法时间复杂度。通常其时间复杂度应该低于O(n2 ) 。
研究方向:增量、删除、混合、批量处理、投票、搜索。
算法分类:根据选择策略不同
实例选择可分为两类。根据实例选择的数据源不同, 有监督,无监督
一类是从有类别标注的实例集中挑选,另一类是从没有类别标注的实例集中挑选。
2011硕-河北大学-SFL算法在实例选择中的应用
实例选择算法的核心是 K-近邻算法,K-近邻算法的核心是相似度函数的计算。相
似度函数又称为距离函数。
分类:
原型法是 Chang 提出的一种实例选择的算法。该算法迭代的把每两个邻近的同类实
例合并为一个新的实例,新实例的由两个实例的属性加权平均计算得到。由于每次合并
后实例个数均减少,因此,原型法可以看成是一种特殊的实例选择算法。
剪辑法 1972 年,Wilson 提出了 ENN(Edited Nearest Neighbor)算法,该算法的主要目的是
提高压缩集的分类精度。主要思想是如果一个实例的近邻均为异类,则删除当前实例。ENN
算法剪辑主要实例为(1) 噪声实例;(2) 类边界实例。
基于实例的算法 2002 年,Henry Brighton 对所有实例选择算法进行了总结,对算法进行了
归纳分析,提出实例的分布和算法的设计之间的关系,指出没有算法在所有数据集上一致的
好,实例选择算法的执行效果取决与实例的两种分布:同类聚集分布和非同类聚集分布,如
螺旋分布等。
进化算法 最具代表性的算法是:Tabu搜索和遗传算法。