第4O卷第5期 2016年1O月 北京交通大学学报
JOURNAL 0F BEUING JIA0T0NG UNIVERSITY Vo1.40 NO.5
Oct.2O16
文章编号:1673—0291(2016)05—0009—07 DOI:10.11860/j.issn.1673—0291.2016.05.002
数据流滑动窗口方式下的自适应集成分类算法
孙艳歌 ,王志海 ,原继东 ,韩 萌 (1.北京交通大学计算机与信息技术学院,北京100044; 2.信阳师范学院计算机与信息技术学院,河南信阳464000)
摘 要:针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念 漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑 动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本 文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算 法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境. 关键词:数据挖掘;数据流;概念漂移;集成分类器;滑动窗口 中图分类号:TP181 文献标志码:A
Adaptive ensemble algorithm based on sliding windows model for data streams
SUN Yange ,WANG Zhihai ,YUAN Jidong ,HAN Meng (1.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China; 2.School of Computer and Information Technology,Xinyang Normal University,Xinyang Henan 464000,China)
Abstract:The main drawback of block—based ensembles is the difficulty of tuning the block size to offer a compromise between fast reactions to drifts.Motivated by this challenge,an adaptive en— semble for evolving data streams is proposed to deal with different types of drift.The algorithm uses the adaptive window algorithm as a change detector.When a change is detected,the worst classifier of the ensemble is removed and a new is added.The proposed algorithm is experimental— ly compared with the state—of-the—art algorithms on synthetic and real datasets.Out of all the compared algorithms,the proposed algorithm provided higher classification accuracy while pro— ving to be less memory consuming than other approaches.Experimental results show that the proposed algorithm can be considered suitable for scenarios,involving different types of drift as well as static environments. Key words:data mining;data streams;concept drift;ensemble classifier;sliding windows
传感器网络异常检测、信用卡欺诈行为监测、天 气预报和电价预测等众多实际问题中,数据都是以 流的形式不断产生的.这种快速到达的、实时的、连 续的和无界的数据序列称为数据流口 .传统的数据 流挖掘与分析过程,一般假设数据是独立同分布的. 基于这种假设已经研究与开发了许多实用的面向数 据流的分类算法 . 在现实生活中数据流的数据分布常会随着时间
收稿日期:2016-01—15 基金项目:国家自然科学基金资助项目(61572005);北京市自然科学基金资助项目(4142042);信阳师范学院青年骨干教师资助计划项目 资助(2016GGJS--08) 作者简介:孙艳歌(1982一),女,河南平顶山人,讲师,博士生.研究方向为数据挖掘和机器学习.email:13112074@bjtu.edu.cn. 通信作者:王志海(1963),男,河南安阳人,教授,博士,博士生导师.email:zhhwang@bjtu.edu.cn. 1O 北京交通大学学报 第4O卷 而变化 ].如,天气预报所依据改变的规律可能会随 着季节的变化而发生改变;顾客网上购物偏好分析 方法可能会随顾客群体的兴趣、商家信誉和服务类 型等因素的变化而改变;工业用电量会随着季节交 替出现周期性变化.一般地,把这种数据流的数据分 布随着时间以某种方式发生变化的现象称为概念漂 移 .近年来,针对概念漂移问题国内外学者作了 大量研究,主要分为基于实例选择的方法,基于实例 加权的方法和集成学习方法3类_】 ”].其中,集成学 习方法通过在不同时段数据来训练个体分类器来保 留历史概念,因此是一种有效的处理概念漂移的方 法.概念漂移方式根据改变速度分为突变式和渐变 式_】 ,然而大多数算法只是针对某一类型进行处理 的,一个理想的分类模型应能增量式的学习并能适 应多种类型的变化. 基于数据块的集成算法 13q 5]将数据流划分 为大小相等的数据块,不断在最新数据块上训练并 产生分类器,并添加到集成分类器中,周期更新权 重,采用加权投票等原则来预测结果.这种方式有助 于应对渐变式概念漂移,但存在数据块大小影响分 类效果的问题_2],且不能应对突变式概念漂移. 本文作者设计并实现了一种能应对多种类型概 念漂移的自适应数据块大小的集成算法,涉及3个 方面问题:概念漂移的类型及其检测,数据块大小对 分类效果的影响,集成方式对算法性能的影响.主要 贡献如下:1)引入了滑动窗口检测机制来应对突变 式概念漂移;2)建立了一种数据块大小的控制机制 以适应数据变化的特征;3)构建了一种综合考虑差 异性和准确率的集成方式,以提高分类算法的泛化 能力. 1面向数据流的集成式分类研究背景 1.1模型描述及相关概念 数据流可以表示为S一{S ,S:,…,S },其中 一( , )为t时刻(£一1,2,…,T)的实例, eR 是特征向量, ∈{f1,c 2,…,C )是类值,尼 (是>1)为S中所包含的类值数.数据流理论上是源 源不断产生的. 若数据流中数据分布随着时问以某种方式发生 变化,则称在该数据流中发生了概念漂移现象.更具 体的从贝叶斯学习理论的角度来讲,在t。到t 时 刻发生了概念漂移可定义为_8 :P ( , )≠P ( ,Y), 式中,P ( , )表示t。时刻一组输入变量 与目 标变量 的联合概率分布. 若在较短的时间内,数据流中数据分布突然地 被另一个完全不同的数据分布所取代,则称此时数 据流中发生了突变式概念漂移.此类型的漂移通常 在毫无征兆的情况下发生(如传感器突然发生故 障),会使准确率急剧下降甚至模型完全失效.而渐 变式概念漂移则是一种慢速率改变(如传感器逐渐 失灵),通常是经过较长一段时问后才能观察到,且 概念漂移发生前后概念之间有或多或少的相似. 1.2相关工作 如何根据概念变化来更新基分类器的权重及采 取何种集成策略是影响基于数据块的集成算法的关 键,数据流集成分类算法大多数是基于此进行研究 的.文献E13]提出数据流集成分类器算法(Stream— ing Ensemble Algorithm,SEA),不断在最新数据 块上训练基分类器,采用启发式策略替换性能最差 的分类器,以此来适应概念变化.文献[2]提出基于 准确率加权集成(Accuracy Weighted Ensemble, AWE)算法,以分类器在最新数据块上的分类错误 率作为加权依据,但算法性能对数据块大小设置依 赖较大,且不能及时应对突变式概念漂移.文献[9] 提出的准确率更新集成(Accuracy Update Ensem— ble,AUE)算法,采用非线性的加权函数对基分类 器进行加权.结果表明:比AWE准确率高且消耗更 少内存.文献[3]提出的Learn++.NSE(Nonsta— tionary Environment)算法采用类似AdaBoost算法 的动态加权投票机制来适应概念漂移环境.为了解 决概念变化频繁的问题.文献[14]提出的数据流集 成分类器算法根据分类器分类情况制定分类器权重 更新策略和分类器淘汰方法.文献[15]提出了一种 用于解决由数据集不平衡引起分类器分类性能下降 问题的数据流集成分类算法. 上述算法的周期更新分类器权重方式,有助于 应对渐变式概念漂移,但不能及时应对突变式概念 漂移.文献[2]中实验表明:这与适当调整数据块大 小有一定关系.使用过小的数据块在一定程度上有 助于应对突发的概念漂移,但可能会由于训练实例 不足而导致过拟合.相反的,选用过大的数据块可能 会获得更准确的分类器,但会消耗更多时间和内存, 且同一数据块内可能同时蕴含多个概念.为此,本文 作者提出了一种能应对多种类型概念漂移的自适应 集成算法.
2 滑动窗口方式下的自适应集成算法 2.1概念漂移检测方法 数据流中滑动窗口(Sliding Window,SW)是指