当前位置：文档之家› 数据流滑动窗口方式下的自适应集成分类算法

数据流滑动窗口方式下的自适应集成分类算法

第４Ｏ卷第５期　２０１６年１Ｏ月　北京交通大学学报　

ＪＯＵＲＮＡＬ　０Ｆ　ＢＥＵＩＮＧ　ＪＩＡ０Ｔ０ＮＧ　ＵＮＩＶＥＲＳＩＴＹ　Ｖｏ１．４０　ＮＯ．５　

Ｏｃｔ．２Ｏ１６　

文章编号：１６７３—０２９１（２０１６）０５—０００９—０７　ＤＯＩ：１０．１１８６０／ｊ．ｉｓｓｎ．１６７３—０２９１．２０１６．０５．００２　

孙艳歌　，王志海　，原继东　，韩　萌　（１．北京交通大学计算机与信息技术学院，北京１０００４４；　２．信阳师范学院计算机与信息技术学院，河南信阳４６４０００）　

摘　要：针对基于数据块的集成算法，存在数据块大小影响分类效果，且不能及时应对完整式概念　漂移的问题，提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法．用滑　动窗口作为概念漂移检测器，当检测到概念漂移时，则建立新的分类器并加入到集成分类器中．本　文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验．结果表明：提出的算　法在分类准确率上具有明显优势，消耗更少的内存，更适合多种类型概念漂移的环境．　关键词：数据挖掘；数据流；概念漂移；集成分类器；滑动窗口　中图分类号：ＴＰ１８１　文献标志码：Ａ　

Ａｄａｐｔｉｖｅ　ｅｎｓｅｍｂｌｅ　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ｓｌｉｄｉｎｇ　ｗｉｎｄｏｗｓ　ｍｏｄｅｌ　ｆｏｒ　ｄａｔａ　ｓｔｒｅａｍｓ　

ＳＵＮ　Ｙａｎｇｅ　，ＷＡＮＧ　Ｚｈｉｈａｉ　，ＹＵＡＮ　Ｊｉｄｏｎｇ　，ＨＡＮ　Ｍｅｎｇ　（１．Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ　Ｊｉａｏｔｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ　１０００４４，Ｃｈｉｎａ；　２．Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，Ｘｉｎｙａｎｇ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｘｉｎｙａｎｇ　Ｈｅｎａｎ　４６４０００，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｍａｉｎ　ｄｒａｗｂａｃｋ　ｏｆ　ｂｌｏｃｋ—ｂａｓｅｄ　ｅｎｓｅｍｂｌｅｓ　ｉｓ　ｔｈｅ　ｄｉｆｆｉｃｕｌｔｙ　ｏｆ　ｔｕｎｉｎｇ　ｔｈｅ　ｂｌｏｃｋ　ｓｉｚｅ　ｔｏ　ｏｆｆｅｒ　ａ　ｃｏｍｐｒｏｍｉｓｅ　ｂｅｔｗｅｅｎ　ｆａｓｔ　ｒｅａｃｔｉｏｎｓ　ｔｏ　ｄｒｉｆｔｓ．Ｍｏｔｉｖａｔｅｄ　ｂｙ　ｔｈｉｓ　ｃｈａｌｌｅｎｇｅ，ａｎ　ａｄａｐｔｉｖｅ　ｅｎ—　ｓｅｍｂｌｅ　ｆｏｒ　ｅｖｏｌｖｉｎｇ　ｄａｔａ　ｓｔｒｅａｍｓ　ｉｓ　ｐｒｏｐｏｓｅｄ　ｔｏ　ｄｅａｌ　ｗｉｔｈ　ｄｉｆｆｅｒｅｎｔ　ｔｙｐｅｓ　ｏｆ　ｄｒｉｆｔ．Ｔｈｅ　ａｌｇｏｒｉｔｈｍ　ｕｓｅｓ　ｔｈｅ　ａｄａｐｔｉｖｅ　ｗｉｎｄｏｗ　ａｌｇｏｒｉｔｈｍ　ａｓ　ａ　ｃｈａｎｇｅ　ｄｅｔｅｃｔｏｒ．Ｗｈｅｎ　ａ　ｃｈａｎｇｅ　ｉｓ　ｄｅｔｅｃｔｅｄ，ｔｈｅ　ｗｏｒｓｔ　ｃｌａｓｓｉｆｉｅｒ　ｏｆ　ｔｈｅ　ｅｎｓｅｍｂｌｅ　ｉｓ　ｒｅｍｏｖｅｄ　ａｎｄ　ａ　ｎｅｗ　ｉｓ　ａｄｄｅｄ．Ｔｈｅ　ｐｒｏｐｏｓｅｄ　ａｌｇｏｒｉｔｈｍ　ｉｓ　ｅｘｐｅｒｉｍｅｎｔａｌ—　ｌｙ　ｃｏｍｐａｒｅｄ　ｗｉｔｈ　ｔｈｅ　ｓｔａｔｅ—ｏｆ－ｔｈｅ—ａｒｔ　ａｌｇｏｒｉｔｈｍｓ　ｏｎ　ｓｙｎｔｈｅｔｉｃ　ａｎｄ　ｒｅａｌ　ｄａｔａｓｅｔｓ．Ｏｕｔ　ｏｆ　ａｌｌ　ｔｈｅ　ｃｏｍｐａｒｅｄ　ａｌｇｏｒｉｔｈｍｓ，ｔｈｅ　ｐｒｏｐｏｓｅｄ　ａｌｇｏｒｉｔｈｍ　ｐｒｏｖｉｄｅｄ　ｈｉｇｈｅｒ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｃｃｕｒａｃｙ　ｗｈｉｌｅ　ｐｒｏ—　ｖｉｎｇ　ｔｏ　ｂｅ　ｌｅｓｓ　ｍｅｍｏｒｙ　ｃｏｎｓｕｍｉｎｇ　ｔｈａｎ　ｏｔｈｅｒ　ａｐｐｒｏａｃｈｅｓ．Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ａｌｇｏｒｉｔｈｍ　ｃａｎ　ｂｅ　ｃｏｎｓｉｄｅｒｅｄ　ｓｕｉｔａｂｌｅ　ｆｏｒ　ｓｃｅｎａｒｉｏｓ，ｉｎｖｏｌｖｉｎｇ　ｄｉｆｆｅｒｅｎｔ　ｔｙｐｅｓ　ｏｆ　ｄｒｉｆｔ　ａｓ　ｗｅｌｌ　ａｓ　ｓｔａｔｉｃ　ｅｎｖｉｒｏｎｍｅｎｔｓ．　Ｋｅｙ　ｗｏｒｄｓ：ｄａｔａ　ｍｉｎｉｎｇ；ｄａｔａ　ｓｔｒｅａｍｓ；ｃｏｎｃｅｐｔ　ｄｒｉｆｔ；ｅｎｓｅｍｂｌｅ　ｃｌａｓｓｉｆｉｅｒ；ｓｌｉｄｉｎｇ　ｗｉｎｄｏｗｓ　

传感器网络异常检测、信用卡欺诈行为监测、天　气预报和电价预测等众多实际问题中，数据都是以　流的形式不断产生的．这种快速到达的、实时的、连　续的和无界的数据序列称为数据流口　．传统的数据　流挖掘与分析过程，一般假设数据是独立同分布的．　基于这种假设已经研究与开发了许多实用的面向数　据流的分类算法　．　在现实生活中数据流的数据分布常会随着时间　

收稿日期：２０１６－０１—１５　基金项目：国家自然科学基金资助项目（６１５７２００５）；北京市自然科学基金资助项目（４１４２０４２）；信阳师范学院青年骨干教师资助计划项目　资助（２０１６ＧＧＪＳ－－０８）　作者简介：孙艳歌（１９８２一），女，河南平顶山人，讲师，博士生．研究方向为数据挖掘和机器学习．ｅｍａｉｌ：１３１１２０７４＠ｂｊｔｕ．ｅｄｕ．ｃｎ．　通信作者：王志海（１９６３），男，河南安阳人，教授，博士，博士生导师．ｅｍａｉｌ：ｚｈｈｗａｎｇ＠ｂｊｔｕ．ｅｄｕ．ｃｎ．　１Ｏ　北京交通大学学报　第４Ｏ卷　而变化　］．如，天气预报所依据改变的规律可能会随　着季节的变化而发生改变；顾客网上购物偏好分析　方法可能会随顾客群体的兴趣、商家信誉和服务类　型等因素的变化而改变；工业用电量会随着季节交　替出现周期性变化．一般地，把这种数据流的数据分　布随着时间以某种方式发生变化的现象称为概念漂　移　．近年来，针对概念漂移问题国内外学者作了　大量研究，主要分为基于实例选择的方法，基于实例　加权的方法和集成学习方法３类＿】　”］．其中，集成学　习方法通过在不同时段数据来训练个体分类器来保　留历史概念，因此是一种有效的处理概念漂移的方　法．概念漂移方式根据改变速度分为突变式和渐变　式＿】　，然而大多数算法只是针对某一类型进行处理　的，一个理想的分类模型应能增量式的学习并能适　应多种类型的变化．　基于数据块的集成算法　１３ｑ　５］将数据流划分　为大小相等的数据块，不断在最新数据块上训练并　产生分类器，并添加到集成分类器中，周期更新权　重，采用加权投票等原则来预测结果．这种方式有助　于应对渐变式概念漂移，但存在数据块大小影响分　类效果的问题＿２］，且不能应对突变式概念漂移．　本文作者设计并实现了一种能应对多种类型概　念漂移的自适应数据块大小的集成算法，涉及３个　方面问题：概念漂移的类型及其检测，数据块大小对　分类效果的影响，集成方式对算法性能的影响．主要　贡献如下：１）引入了滑动窗口检测机制来应对突变　式概念漂移；２）建立了一种数据块大小的控制机制　以适应数据变化的特征；３）构建了一种综合考虑差　异性和准确率的集成方式，以提高分类算法的泛化　能力．　１面向数据流的集成式分类研究背景　１．１模型描述及相关概念　数据流可以表示为Ｓ一｛Ｓ　，Ｓ：，…，Ｓ　｝，其中　一（　，　）为ｔ时刻（￡一１，２，…，Ｔ）的实例，　ｅＲ　是特征向量，　∈｛ｆ１，ｃ　２，…，Ｃ　）是类值，尼　（是＞１）为Ｓ中所包含的类值数．数据流理论上是源　源不断产生的．　若数据流中数据分布随着时问以某种方式发生　变化，则称在该数据流中发生了概念漂移现象．更具　体的从贝叶斯学习理论的角度来讲，在ｔ。到ｔ　时　刻发生了概念漂移可定义为＿８　：Ｐ　（　，　）≠Ｐ　（　，Ｙ），　式中，Ｐ　（　，　）表示ｔ。时刻一组输入变量　与目　标变量　的联合概率分布．　若在较短的时间内，数据流中数据分布突然地　被另一个完全不同的数据分布所取代，则称此时数　据流中发生了突变式概念漂移．此类型的漂移通常　在毫无征兆的情况下发生（如传感器突然发生故　障），会使准确率急剧下降甚至模型完全失效．而渐　变式概念漂移则是一种慢速率改变（如传感器逐渐　失灵），通常是经过较长一段时问后才能观察到，且　概念漂移发生前后概念之间有或多或少的相似．　１．２相关工作　如何根据概念变化来更新基分类器的权重及采　取何种集成策略是影响基于数据块的集成算法的关　键，数据流集成分类算法大多数是基于此进行研究　的．文献Ｅ１３］提出数据流集成分类器算法（Ｓｔｒｅａｍ—　ｉｎｇ　Ｅｎｓｅｍｂｌｅ　Ａｌｇｏｒｉｔｈｍ，ＳＥＡ），不断在最新数据　块上训练基分类器，采用启发式策略替换性能最差　的分类器，以此来适应概念变化．文献［２］提出基于　准确率加权集成（Ａｃｃｕｒａｃｙ　Ｗｅｉｇｈｔｅｄ　Ｅｎｓｅｍｂｌｅ，　ＡＷＥ）算法，以分类器在最新数据块上的分类错误　率作为加权依据，但算法性能对数据块大小设置依　赖较大，且不能及时应对突变式概念漂移．文献［９］　提出的准确率更新集成（Ａｃｃｕｒａｃｙ　Ｕｐｄａｔｅ　Ｅｎｓｅｍ—　ｂｌｅ，ＡＵＥ）算法，采用非线性的加权函数对基分类　器进行加权．结果表明：比ＡＷＥ准确率高且消耗更　少内存．文献［３］提出的Ｌｅａｒｎ＋＋．ＮＳＥ（Ｎｏｎｓｔａ—　ｔｉｏｎａｒｙ　Ｅｎｖｉｒｏｎｍｅｎｔ）算法采用类似ＡｄａＢｏｏｓｔ算法　的动态加权投票机制来适应概念漂移环境．为了解　决概念变化频繁的问题．文献［１４］提出的数据流集　成分类器算法根据分类器分类情况制定分类器权重　更新策略和分类器淘汰方法．文献［１５］提出了一种　用于解决由数据集不平衡引起分类器分类性能下降　问题的数据流集成分类算法．　上述算法的周期更新分类器权重方式，有助于　应对渐变式概念漂移，但不能及时应对突变式概念　漂移．文献［２］中实验表明：这与适当调整数据块大　小有一定关系．使用过小的数据块在一定程度上有　助于应对突发的概念漂移，但可能会由于训练实例　不足而导致过拟合．相反的，选用过大的数据块可能　会获得更准确的分类器，但会消耗更多时间和内存，　且同一数据块内可能同时蕴含多个概念．为此，本文　作者提出了一种能应对多种类型概念漂移的自适应　集成算法．　

２　滑动窗口方式下的自适应集成算法　２．１概念漂移检测方法　数据流中滑动窗口（Ｓｌｉｄｉｎｇ　Ｗｉｎｄｏｗ，ＳＷ）是指

e商务文档

数据流滑动窗口方式下的自适应集成分类算法

相关文档推荐：