当前位置:文档之家› 基于聚类分析的非参数回归短时交通流预测方法

基于聚类分析的非参数回归短时交通流预测方法

基于聚类分析的非参数回归短时交通流预测方法——刘洋马寿峰27基于聚类分析的非参数回归短时交通流预测方法*刘洋

马寿峰

(天津大学管理与经济学部天津300072)

摘要大部分非参数回归预测算法并不对交通流历史数据进行区分,而是将全部历史流量数据建立模式库进行分析。基于交通流的现实特征,提出基于聚类分折的非参数回归短时交通流预测方法,首先根据流量分布特点运用聚类分析将其分类成不同的流量模式,然后选择匹配待预测时刻的流量模式作为样本数据库运用非参数回归进行预测。实例计算结果表明,其预测精度优于传统非参数回归方法。关键词短时交通流预测;聚类分析;非参数回归中图分类号:U491文献标志码:Adoi:10.3963/i.issn1674—4861,2013.02,007

O引言智能交通系统近年发展迅猛,交通控制和诱导成为当今社会交通领域的一大课题,解决这一问题的前提是采用精度高、时效性强的方法对交通流进行准确预测。现存的预测方法大致可分为2类:第1类是传统的基于数理统计模型的预测方法,如ARIMA模型[1。2j、自适应权重联合模型[2]、卡尔曼滤波模型[11等,这些预测方法基于数理统计模型,计算简便,但是由于交通流的随机性与非线性,实际情况下,很难建立精确且符合交通流特征的数学模型,尤其无法克服随机干扰因素的影响。近年来,交通流预测开始逐渐依赖于第2类智能交通流预测方法,如神经网络方法[34、支持向量机方法[5]、非参数回归方法[6。71等。神经网络具有自学习自适应等优点,炱天鹂[8]针对传统预测方法准确性低、预测时间长等问题将遗传算法和神经网络相结合,提高了交通量的预测精度,张敬磊[91提出的1种基于RBF和ARIMA网络非线性组合模型的短时交通流预测方法组合发挥了2种方法的预测优势。非参数回归是近几年兴起的1种适合不确定性的、非线性的动态系统的建模方法,其基本思想是:从交通流数据中寻找不同的“模式”、即交通流的当前状态和未来状态的固定对应关系并建立模式库,然后通过在模式库中寻找与当前状态相似的历史状态,并把与当前点匹配的历史状态应用于状态预测,具有可移植性强和预测精度高等特点,适应短时交通流预测。1995年Smithcto第1次将其应用在短时交通流预测上,这之后很多学者提出了改进方法,王晓原[1妇将小波分析算法和非参数回归结合,先将交通流数据分解重构得到光滑的交通信号曲线,提升了非参数回归的预测效果。贾宁u23针对提高搜索速度和关键参数的优化设置2个问题,提出使用KD树作为模式库的存储结构,能够有效提高搜索速度,使预测性能进一步提高,这些预测方法在一定程度上满足了交通流预测的需要。从预测原理上讲,非参数回归预测就是通过模式匹配的方法,利用交通流的当前状态(自变量)来估计交通流参数的未来值(因变量),因此自变量的选取是非参数固归预测方法应用中1个十分重要的问题[7]。在交通流预测中,一般有2种代表性思路。1)时间关联。例如,利用待预测位置前推若于个周期的交通流量来预测未来的交通流量,这种选取方法的依据是交通流变化趋势的重复性。2)空问关联。例如,该位置上游某点的当前流量,来预测该位置的未来流量,这种思路的依据是交通流的空间变化性质。在实际应用中,具体应用哪种策略需要根据

收稿日期:2012—1031修回日期:2013-0327*国家自然科学基金项目(批准号:70971094)、教育部博士点基金项目(批准号:20090032110033.20090032120032)资助第一作者简介:刘洋(1989),硕士生.研究方向:智能交通、交通系统工程.E—mail:liuyan989@tju.edu.Cll

万方数据28交通信息与安全2013年2期第31卷总175期

待预测道路的实际情况来选择。在高速公路交通流预测中,由于交通流信息采集设备一般间隔较远,大多只安装在高速公路的出入口附近,因此空间关联策略由于受到数据因素的限制,很难采用,因此只能以时间关联策略为主。在目前提出的方法中,通行的做法是将收集的所有历史流量数据构造为样本数据库,然后采用预测路段前N个时刻的流量作为状态向量。但是,根据交通科学的原理,不同日期(例如:工作日和周末)的交通流量分布有明显的差异,如果忽视这一现实特点,对提高预测精度是不利的。因此,本文根据不同日期流量模式分布不同的原理,将聚类分析和非参数回归相结合,提出了基于聚类分析的非参数回归短时交通流预测方法,即先根据不同时间的交通流数据特点将流量数据进行分类,再选择匹配待预测时刻流量模式的类别作为样本数据库运用非参数回归进行预测,更好地考虑了交通流的现实特点和规律,使短时交通流预测的精度有所提高。1基于聚类分析的非参数回归短时交通流预测方法不同日期道路状况、天气情况下,人们出行需求等都有很大差异,导致流量在不同日期的分布具有不同的特点。例如人们在节假日由于工作产生的出行需求大大降低,而因为旅游的出行增加,流量模式和非节假日必然不同。如图1、2对比所示,图1为天津市高速公路九宣闸站2011年3月3日的流量数据,3月3日为普通工作日,图2为九宣闸站2011年10月1日国庆节的流量数据,数据均来自天津市高速公路信息管理中心的实测数据。图1和图2虽然都具有早高峰和晚高峰,但是国庆节的高峰值所在时间早于3月3日。从流量值上看,国庆节的最高值在220辆左右,是3月3日的最高值2倍以上。器Ⅻ啷埕o__Nn寸呐卜。。ao._“寸”∞卜q。小H“n。。。。。。。。。百开百……“““图12011年3月3日流量Fig.1ThetrafficflowofMarch3,20J1由图1可见,不同日期之间,交通流量在ld当中的分布差异很大,从3月3日数据中发现的流量模式,直接应用于国庆节流量的预测势必会产生很大的误差。因此在交通流预测中,需要根据不同类型的交通流量分布去分别建立不同的交通流量模式库。因此,如何区分流量模式的类别对于预测精度有很大影响。凭经验直接分类不能科学准确地将交通流量分布区分,应该采用聚类分析方法根据流量相似程度分类。

吕苫g昌吕g吕若詈言========旦戈罱划焉时间

图22011年国庆节流量

Fig.2Thetrafficflow。fNationalDay,2011

1.1K-means聚类方法聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,符合短时交通流预测对予流量模式分类的要求,本文选择K—means聚类方法。K—means算法采用距离作为相似性的评价指标。该算法认为簇是由距离较近的对象组成的,它要求同一聚类中的对象相似度较高,不同聚类中的对象相似度较小。流程如下:1)初始化。设定聚类数(K),随机选择某些样本点作为初始聚类中心;2)循环,按就近原则将其余记录向聚类中心聚集,计算出各个类新的聚类中心位置,并用它们重新进行聚类,反复循环直至聚类中心位置收敛。K—means聚类方法需要预先设定类别个数(K),K值的选择对于之后聚类结果好坏以及预测的效果有直接影响。类别过少或过多都不能准确的表现出样本特性,无益于提升预测精度,类别太少会掩盖“同一类”样本中实际存在的差别;类别太多则无法抽象出“不同类别”问存在的共同特征,且可能导致预测流程繁琐或者某个类别中数据不足的情况。K值的设定应满足同一类中的对象相似程度较高,不同类中的对象相似程度较低。在进行交通流预测时,各类中的对象指的是不同日期流量的时间序列,本文选择这些时间序列之间的欧式距离作为衡量相似程度高低的标准,计算方法如下。

万方数据基于聚类分析的非参数回归短时交通流预测方法——刘洋马寿峰

29

d=为了满足以上聚类要求,可选择类间距离/类际距离作为评价K值优劣的指标。类间距离指的是同l类中每个数据和这个类中其他所有数据均值的欧式距离的和,用来表示同1类内部的距离大小,设为tntraDistance。类际距离指的是将每1类的每个数据和其他各类中数据均值的欧式距离的和,用来表示不同类之间的距离大小,设为InterDistance。IntraDistance/InterDistance越小,聚类效果越好。因此,在运用K—means聚类区分流量模式时,只需预先设定几个符合实际情况的K值,分别进行聚类,然后计算IntraDistance/InterDis—tance,选择该指标较小的结果作为聚类结果,根据聚类结果分别建立数据库,为预测交通流做准备。1.2基于聚类分析的非参数回归短时交通流预测方法框架基于聚类分析的非参数回归短时交通流预测方法框架见图3。图3基于聚类分析的非参数回归短时交通流预测方法框架Fig.3Frameofnon—parametricregressionshort—termtrafficflowforecastingmethodbasedclusteranalysis由图3可知,预测流程如下:1)基于聚类分析建立模式库:非参数回归预测的准确程度和效率很大程度上取决于模式库的质量。模式库并不是越大越好,1个质量较好的数据库应该包含研究道路的所有状态,而又不存在过多数据冗余。为了区分不同日期的交通流量模式,应将以天为单位的历史流量时间序列作为对象,运用上述K—means聚类方法将其分为几类,然后对不同类中的历史数据分别建立模式库。2)定义状态向量和数据相似性:状态向量是指能够描述当前状态的几个分量组成的1个向量,在预测交通流时一般选择预测路段前Ⅳ个时刻的流量时间序列;数据相似性的定义指根据何种标准评价当前点和历史数据库中的点的相似度,一般选用欧式距离作为相似性指标。3)选择样本数据库:将待预测时刻前N个时刻的流量时间序列作为表征流量模式的向量,计算该向量与流程1中建立的各数据库中的聚类中心点同时间的N个时刻组成的时间序列之问的相似性。选择相似性最小的库作为样本数据库。4)近邻机制的建立:近邻机制是如何根据数据相似性来判断历史数据库中的点是否是当前状态的近邻,一般有最小K近邻法和核近邻法u5)定义预测算法:近邻点找到以后,如何利用这些近邻点预测下1个时刻的预测变量的值。常用的方法有:求平均值,加权平均法等。综上,基于聚类分析的非参数回归短时交通流预测方法是指将历史数据库中的交通流数据运用聚类分析的方法区分为流量模式不同的几个类别,在有交通流预测需求时,基于模式识别的思想,选定流量模式最近似的类别作为样本数据库,然后采用非参数回归方法进行计算得到预测结果。该方法有以下特点:1)该方法的数据首先经过聚类处理对不同交通流状态进行区分,使在交通流预测时考虑到不同时间的交通流特点不同的现实特征;2)选择非参数回归作为预测方法,具有可移植性和高适应性,当需要采用该方法在其他路段或站点进行预测时,只需将数据库更换即可。另外,车辆保有量和区间需求量的变化是对交通流预测结果的1个影响因素,由于车辆保有量和区间需求量一般是1个长期因素,它在短时间内变化较小,因此定期将新数据更新到非参数回归的模式库中可以较好地减小两者对预测结果的影响。

相关主题