632计算机研究与发展2006,43(增刊)
不到保证.
为了解决交通数据质量问题,本文根据交通领域著名的车流量/时间占有率的倒“V”字型曲线模型,提出了一种基于最Jb--乘法曲线拟合的异常检测方法来识别交通数据库中的异常数据,并对其进行修正.该方法是我们在城市交通监控与管理系统(iCentroView)[2J的研发过程中,针对交通流数据预处理提出来的,实验证明了方法是有效的,并且已经在iCentroView系统中的到了应用.
1相关工作
异常检测是数据挖掘中一个重要方面,被用来发现小的模式(相对于聚类),即数据集中间显著不同于其他数据的对象[31.Hawkins在文献[4]中给出了异常的本质性的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制.
从20世纪80年代起,异常检测问题就在统计学领域里得到广泛研究L5J,基于统计的异常检测建模基于领域专家多年研究实践总结出来的先验知识,其准确性高且时间复杂度低.其难点就在于很多情况下,用户并不知道这些数据的分布情况.Ruts和Rousseeuw提出了基于深度的算法,根据算法,每一个数据被映射到一个惫维数据空间上的点.并且每个点被赋予一个特定定义的“深度”,并根据不同的深度将数据划分成不同层次【6J.Knorr和Ng在1998年提出了基于距离的异常检测算法.聚类算法Clarans,Dbscan,Birch等都具有一定的噪声处理能力.但是聚类中的噪声和异常在概念上还是有些偏差的.
Breunig和Kriegel等人提出局部异常因子的概念,定义了对象的局部异常因子表示其异常程度L_7|.Aggarwal和Yu提出了一个针对高维数据集进行降维异常检测的新思路,并利用遗传算法优化性能【8].本文提出的异常检测方法是在交通领域车流量/时间占有率分布的倒“V”字型数据分布理论的指导下,通过对交通流量数据及时间占有率的拟合来识别异常数据,并对其进行修正。
2交通数据特征信息的融合,其数据主要分两类:
静态交通信息.基础地理信息GIS数据,交通设施信息如停车场等,以及车辆、出行者等的相关如0D矩阵等.
动态交通信息.通过各种检测设备提供的道路交通实时采集信息(流量、时间占有率、速度等)和人工报告、观测的动态交通信息,如巡逻交警现场汇报.车流量和时间占有率是交通数据中最为重要的两个特性,在大多数交通管理与控制系统中实际使用率、贡献率都是最大的,并且很多其他特性都能由它们计算推出..
交通流量又称流率,设单位时间丁内通过路段上某一点的车辆数为N,则交通流量计为
N
q2亍。
时间占有率是单位时间丁内,车辆覆盖在检测器上的时间比例.
2.2流量/时间占有率关系模型
交通特性及其关系的研究是交通领域研究的基础,流量和时问占有率的模型是交通中最为基础的模型.
1986年Hall等人提出倒“V”字形(如图1所示)流量/时间占有率曲线模型更加合理,并且用加拿大多伦多的数据验证了他们的模型,同年Hall等人又使用来自更多城市的数据再次验证了他们提出的倒“V”字形曲线模型.1989年Bank用美国圣地亚哥地区的交通数据肯定了倒“V”字形曲线模型,并且提出了该模型的数学解释.倒“V”字形曲线模型的实际意义就是:驾驶员在低速时维持着一个比较恒定的车头时距,当速度比较大时他们就不去维持这一距离了,进入自由行驶状态,根据他们的喜好速度前进.
因此,本文根据倒“V”字形曲线模型来对交通流量/时间占有率曲线进行拟合.
2.1交通数据概述
智能交通系统数据是不同来源、不同类型交通
图1车流量/占有率曲线模型
一种基于曲线拟合异常检测的交通数据预处理方法
作者:陆明伟, 尚宁, 覃明贵, 朱扬勇
作者单位:陆明伟(复旦大学软件学院,上海,200433), 尚宁(复旦大学计算机与信息技术系,上海
,200433), 覃明贵(复旦大学计算机与信息技术系,上海,200433;上海宝信软件股份有限公
司,上海,201203), 朱扬勇(复旦大学软件学院,上海,200433;复旦大学计算机与信息技术系
,上海,200433)
本文链接:/Conference_6360717.aspx。