50882010,31(23)计算机工程与设计ComputerEngineeringandDesign
0引言
交通拥堵是交通拥挤和交通堵塞的统称,目前各国用来
衡量交通拥堵的参数主要有拥堵时间、排队长度、车速等。中
国公安部则对拥堵路段给出了定义:车辆在车行道上受阻且
排队长度超过lkm的状态。美国诺贝尔奖获得者GaryS.Becker
曾做过一个测算,全球每年因交通拥堵造成的损失占GDP的
2.5%
[1]
,造成巨大的资源浪费。在中国由于汽车保有量的急剧
上升,这种趋势还在增加。对于交通拥堵的治理,应该尽量做
到事前处理,即当道路的交通状态出现轻度拥挤现象时,能够
通过拥堵预测系统分析出短时间内的交通状态变化趋势,然
后利用GPS信息平台、广播等发出预警,诱导车辆进行合理分配行驶、加强秩序管理,来避免拥堵或缓解拥堵程度。国内外大多数文献对于交通拥堵识别预测方法,主要有人工判别法、模糊理论、模式识别、神经网络等技术,不过单独利用其中一种方法进行交通拥堵的判别,其准确率及可靠性难以保证[2]。并且多数文献中主要利用交通流信息来预测交通拥堵,利用交通流检测信息及环境信息多源组合来进行城市交通拥堵判别的文献较少。文中充分考虑各种环境因素的基础上采用多分类器组合的方法来保证模型的稳定性,为提高预测的准确程度,采用了Bagging类算法形成单分类器的训练集,然后通过简单多数投票法对城市道路的交通状态进行集成决策。实验数据表明,多分类器组合的模型在城市道路拥堵预测方面是可行的,可以提高BP神经网络的泛化能力和获得更高的识别率,能够为交通拥堵预警及诱导系统提供数据上的支持。1输入数据处理分析现实中一些环境因素对于城市道路交通状态的影响是非
常重要的,比如暴雨经常容易造成交通瘫痪,上、下班的高峰
时段容易造成道路拥挤,另外节假日和一些市政施工等也会
造成道路拥挤。因此本文对于交通状态预测模型的输入数据
主要有两部分组成:一类是环境因素,对于环境因素的处理涉
收稿日期:2010-05-20;修订日期:2010-07-22。
智能技术
李春英,汤志康,曹元大:多分类器组合的交通拥堵预测模型研究2010,31(23)5089
及到如何将定性的描述转换成定量的数据作为多分类器模型
的输入。另一类是交通流参数,由交通部门直接获得。由于
其原始数据基本上都存在噪声,必须根据经验知识对数据进
行预处理,主要包括相关性分析、数据噪声的清理、输入数据的归一化等[3]。1.1环境因素数据处理根据德克萨斯大学交通部对交通拥堵来源分类的数据研究,文中对于交通状态所涉及的环境因素主要从4个方面进行处理:(1)气候W的影响。气候影响分成5个等级,借助于天气预报的预警信号颜色,没有出现预警信号时,用0.1表示;蓝色预警信号用0.3表示;黄色预警信号用0.5表示;橙色预警信号用0.7表示;红色预警信号用0.9表示。(2)时段T的影响。上下班高峰7:30-9:00和16:30-18:30用0.9表示;中午上、下班11:30-15:00用0.7表示;9:00-10:30用0.5表示;20:30-22:00用0.3表示;其余时段用0.1表示。(3)特殊事件S的影响。主要涉及市政工程,道路维修,交通事故,体育盛会等。道路无特殊事件的时候用0.1表示,当存有上述特殊事件的时候,可按照对交通状态的影响程度依次用0.3、0.5、0.7、0.9表示。(4)假日H的影响。非假日时用0.1表示,周六、日时用0.3表示,其它法定的节假日按照休假的时间长短依次用0.5、0.7、0.9表示对交通的影响程度。1.2交通流参数的处理2007版《城市道路交通管理评价指标体系》对于城市交通通行状况的描述主要涉及到3个方面:①交叉路口阻塞率,衡量整个路网饱和程度的指标;②平均行程延误;综合地反映出城市路网的整体性能和城市交通管理的效率及水平。③高峰时段建成区主干道平均车速,用以评价道路的通畅程度,高峰时段主干道平均车速是指建成区早、晚交通流高峰时主干道上机动车的平均行程车速。由于模型的输入参数中已经考虑了与交通拥堵相关的环境因素,所以我们在模型输入参数中的交通信息仅仅使用路段平均行程车速表示观测路段的长度(m),表示第表示单位时间内检测到的车辆总数(veh)。平均行程车速也可以由GPS浮动车和线圈检测数据进行组合后得出观测路段的平均行程时间[4],然后通过路段长度与平均行程时间之比得出平均行程车速。每个城市的交通状态与平均行程车速之间的对应程度各不相同,需要通过经验数据得出,以肇庆市为例将路段平均行程车速划分为4个级别:①通畅:该路段的平均行程车速≥25km/h。②拥挤:该路段的平均行程车速10km/h≤<25km/h,相当于骑自行车的速度。③堵塞:该路段的平均行程车速3km/h≤<10km/h,相当于步行速度。④死锁:该路段的平均行程车速<3km/h,车辆几乎不能前行。综合环境因素和平均行程车速可得到多分类器的输入变量=,,ÖµºÍÉÏһʱ¼äÐòÁеÄ4个环境因素共7个因素,作为多分类器交通状态判决系统的输入,实时得出下一时间序列的交
通状态,然后根据给定的阈值
≤0.1死锁,0.1<≤0.8拥挤,0.8<
1+
50902010,31(23)计算机工程与设计ComputerEngineeringandDesign
结果的显著变动,而对稳定的学习算法效果不明显,有时甚至
使预测精度降低。Bagging是一种通过重取样技术提高组合
学习的差异性。其基本思想是:单分类器的训练集通过重复
抽样的方式自主选择若干样本组成,训练集的规模与原始数
据集规模相当,通过处理后一些样本在训练集中出现的概率
是随机的。Bagging方法通过重新选取训练集,增加各训练集
之间的差异,从而使单分类器模型参数的差异度增加,提高整
个多分类器的泛化能力。因此本模型采用Bagging类算法来
提高预测模型的稳定性和精度。
2.2组合规则
常见的组合规则有投票法、基于概率的方法等,这些方法
需要苛刻的前提条件:各分类器要相互独立。Kittler给出了多
分类器组合的理论框架,在此基础上得出组合的两个基本规
则:和规则与积规则。其中和规则表现出较好的分类性能,原
因是和规则对误差影响的抵制力较强。本模型采用和规则中
的一种:简单多数投票法,由单分类器对样本进行预测(决策),
每一个单分类器对自己所预测的类投一票,得到票数最多的
类就是分类器系统的最终预测结果。在投票的时候,对各单
分类器一视同仁,各个单分类器的权值相同。设样本类别总
数为=1,2,…,
£¬ÏµÍ³µÄ×îÖÕ·ÖÀà½á¹û¿É±íʾΪ
[3]
:=
argmax{1,2,…,1
{}
。
2.3性能评价
构造出多分类器模型后,需要评价该多分类器模型对给
定问题的泛化程度,以便了解该模型对数据进行分类时的性
能表现如何,是否足够适合用于给定的问题。评价多分类器
的一个基本要求是:测试集当中不能包含用于训练单分类器
时的训练样本,否则会导致“用训练集进行测试”的方法论上
的错误。由于分类器对训练它的数据存在着过分特化的现象,
所以,如果用训练数据来评价分类器的话,可能会得到过于乐
观的估计。本模型的仿真实验是用样本集的一部分作为训练
数据,余下的样本用于检测分类器的分类性能。
多分类器系统的性能通常用识别率来评价,即被正确识
别的测试样本数占总测试样本的比率,但是仅仅通过识别率
来评价一个多分类系统的优劣存在一定的不足之处,因为同
一个分类系统可以通过增大识别的阈值
李春英,汤志康,曹元大:多分类器组合的交通拥堵预测模型研究2010,31(23)5091
多分类器模型的处理过程保持不变。
仿真结果分成两种情况:考虑环境因素的影响时如图3
所示,图中显示随着单分类器个数的增加,当单分类器数量超
过30个时预测结果基本趋于稳定;没有考虑环境因素的影响
时仿真结果如图4所示,可以看出随着分类器数量的增加其
预测精度同样会得到提高,但其稳定性并不理想,也就是说本
文所列出的4类环境因素对于城市道路交通状态是有影响的。
因此,通过比较两类仿真结果可以说明以下几个问题:其一,
该多分类器模型对交通状态预测有较好的适用性,识别率接
近90%,而误报率仅为3%,理论上可以为城市交通诱导、预警
系统提供数据支撑;其二,多分类器模型的预测效果优于单个
分类器,可以提高进一步系统的泛化能力,由图3可以看出多
分类器模型的识别率高于单分类器15%;其三,考虑环境因素
时预测精度及模型稳定性都要优于单纯利用交通流参数