用出租车GPS数据分析深圳道路交通情况摘要一个完整的城市交通系统非常庞大复杂,这种情况使得数学建模交通问题分析求解的困难复杂度提高将完整的城市交通系统按照交通流向路网布局等特性划分为若干交通小区,然后对不同的交通小区进行数学建模,可以有效地降低这种复杂性。
各大城市出租车越来越多的安装了GPS终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS实时数据。
原始数据主要保存出租车上装配的GPS终端所采集的数据目前对于交通小区的研究主要集中在应用层次,本文针对交通出行数据的空间分布特征,利用K-Means 空间聚类算法进行交通小区的自动划分,为城市交通系统的管理控制及规划提供技术支持,对交通出行数据进行优化,抽取出租车载客过程中乘客上下车的GPS 位置坐标。
基于聚类与交通小区划分的相似性,采用K- Means 聚类法进行交通小区的划分。
首先,通过聚类得到交通出行OD 矩阵,然后据此划分出交通小区。
基于Google Maps API,搭建了软件平台。
通过试验可以看出,这种动态划分方法得到的区域能够与现有的交通小区相吻合。
这种高实时的交通小区划分方法将对动态的OD 估计有着极大的参考价值。
关键词:GPS;交通小区;K-Means ;空间聚类算法;动态分析;k 均值聚类;边界计算一、 问题重述各大城市出租车越来越多的安装了GPS 终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS 实时数据。
原始数据主要保存出租车上装配的GPS 终端所采集的数据问题一,根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。
问题二, 根据小区划分和出租车GPS 数据,给出载客出租车的OD 时空分布。
如:某时刻从坐标(,)i j 到(,)i j ''、(,)i j ''''的出租车有多少辆。
问题三, 由此,在合理的假设条件下,能否对人们出行的OD 时空分布进行推断?问题四, 根据出租车载客后的行驶数据,筛选出拥堵的路段时段以及拥堵的路口时段。
拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,10公里/小时),可认为是拥堵。
二、 模型假设一般来说,交通小区的划分应该遵循以下原则:(1)同质性,分区内的经济 社会等特性尽量一致(2)小区划分尽量不打破行政区的划分,以便可以利用行政区的统计资料(3)分区数量适当,中等城市不超过 50 个,大城市最多不超过100-150 个 数量太多将加重规划的工作量,数量太少又会降低调查和分析的精度(4)对于已做过 OD 调查的城市,最好维持原已划分的小区三、 符号说明 车牌号2.time 采集时间点(格式:YYYY/MM/DD hh:mm:ss)3.jd 经度4.wd 纬度5.status 车辆状态(0=非打表,即:空载;1=已打表,即:重载)6.v 车速(单位为:km/h)7.angle 行车方向(0=东;1=东南;2=南;3=西南;4=西;5=西北;6=北;7=东北)四、问题分析与模型建立4.1对问题的分析和模型建立4.1.1 交通小区概念交通小区是具有一定交通关联度和相似度的节点或连线的集合,反映了城市路网交通特征的时空变化特性交通小区具有同质性关联性动态性稳定性自组织性等特性[1]交通小区的划分是分析城市交通网络的一个很好的方式,因为交通小区内具有相似的交通特征和较强的交通关联性交通小区的划分与该城市的人口面积经济特征产业结构等密切相关,并在一定程度上反应了一个城市的吸引力4.1.2 交通小区划分概况国内部分城市在不同时期的交通小区的平均面积可以看出,单个小区的平均面积有逐年变小的趋势,划分小区的数量在逐渐增加传统的进行交通小区划分的方法主要基于大规模的人工抽样调查这种划分方法成本高周期长,调查的数据存在抽样率低抽样统计的精度不高数据更新周期长等问题由于我国大部分城市正处于快速发展期,土地利用不断变化,人口高速增长,通过这种方式进行交通小区的划分时效性较差本文通过交通出行数据的聚类运算,提供实时的交通小区的分布状态这种快速动态的划分方法弥补了传统划分方式的不足五、模型求解图1 交通小区分过程5 .1基于K均值聚类算法的交通小区划分方法5.1.1 划分方法本划分方法首先对坐标数据进行空间聚类运算,得到出行起讫点的OD矩阵,最后以此为依据进行交通小区的划分划分过程如图1所示5.1.2 出租车GPS 数据预处理试验中所用到的数据来源于北京奇华通讯有限公司,主要包括车辆GPS实时数据和车辆类型等相关数据信息原始数据表主要保存了出租车上装配的GPS终端所采集的数据,这些数据包括车牌号·时间·经纬度·速度以及该车的空重车状态等由于每天的数据量庞大(2.5 千万条/ 天),基于缩短数据查询时间以及提高整体运算性能等方面的考虑,需要对原始数据进行优化原始数据内容见表4表4 原始表据其中status字段代表的是出租车的空重车状态,当值为0 时表示车的状态为空车,值为 1 时表示车的状态为重车当status值由0 变为1 时,status值为1 的车的位置即为乘客上车时的位置;相反地,乘客下车时的位置也可以得到根据这一特性剔除原始表中的无用数据,优化后的数据见表500:00:305.1.3 聚类计算经过上一步的数据优化,即可得到由起讫点数据组成的数据集现在需要对这些数据进行聚类运算:一段时间内的起点或者讫点被划分为若干个区域,每个区域中的点分布紧凑区域与区域之间自然分开本文采用了K-Means聚类算法K-Means 聚类算法是一种分割式聚类方法,它是数据挖掘技术中一种经典的基于划分的聚类算法其目的在于从大量数据点中找出具有代表性的数据点,即中心点,然后再根据这些中心点进行后续的处理K-Means 算法采用了迭代更新的运算思想,聚类过程如下:首先从n 个数据点随机选择k 个点作为初始聚类中心;通过运算其它点与这些聚类中心点的相似度(距离),将其分别分配给与其相似度最高(距离最近)的中心点所在的聚类;然后对划分好后的聚类重新运算聚类中心这一过程不断重复直到标准测度函数开始收敛[8]5.1.4 对区域数据进行边界运算聚类运算结束之后,得到若干组包含中心点在内的一些坐标点,如图2 所示(点X表示出租车的坐标点,实心圆点表示交通小区中心)将所有聚类后的坐标通过GIS平台输出,通过这种方式很难看出不同区域之间的界线这时需要将区域的边界绘制出来本文采用的边界运算过程如下:首先建立平面直角坐标系,将坐标系以(0,0)为中心点均分为n等份区域(n 的值将决定边界运算结果的精度),每个区域的角度为360/n 如图3所示图3360 度分为n 份图4 距离中心点的距离然后,将某个聚类的点集放入该坐标系,使得区域中心点与坐标原点重合通过计算其它点与中心所形成的角的正余弦,即可得到每个点与中心点所形成的夹角,进而将这些点归入上一步所划分的区域依次计算第i个区域里每个点距离中心点的距离,记录距离中心点最远的点为ci 如图4中P点等最后,将这所有的ci 点相连接,即可得到点集的相应边界,如图5 所示5.2 试验平台搭建与实例分析5.2.1 试验平台搭建为了检验划分结果的准确度,本文搭建了具有GIS功能的试验平台平台使用Java 语言进行开发,GIS 功能采用GoogleMapsAPI解决方案平台通信过程如图6 所示5.2.2 实例分析通过上述方法,利用2008 年8 月 3 号北京市出租车GPS数据进行交通小区的划分,并将划分结果输出到GIS平台上,如图7 所示可以看出这种动态划分方法产生的结果能够与现有的部分交通小区相吻合(标注A为CBD小区,标注B为西郊小区)详细的OD矩阵数据见表 6表6中O 代表起点,D 代表讫点比如坐标位置(2,5)的值为2,代表某一段时间内,共有2 辆出租车从5 号区域前往2 号区域,并且乘客是在5 号区域上车,在2号区域下车六、模型评价与推广6.1 模型评价:本文通过对出租车GPS数据进行聚类运算,快速计算出不同时间段内出租车载客OD矩阵,进而将划分好的区域在GIS平台中显示出来从实验结果可以看出:这种划分方法能够反映出不同时间段内交通小区的绝对动态性以及相对稳定性的特征,对城市交通小区的划分具有很高的参考价值本文所使用的交通小区划分方法也存在一定的不足:首先,划分算法使用了纯粹的K-Means 空间聚类法,没有与现有的位置属性相结合,比如住宅区商业区等属性;其次,算法没有对出租车的特殊数据和异常数据进行处理,比如红绿灯停车GPS信号机发生故障等情况,这些都将影响最终结果的准确性;再次,针对特定时间段进行交通小区的划分更有代表性,比如早晚高峰等,本文没有对此展开讨论这些都是今后的改进方向6.2 模型推广:本文中的模型都是在综合考虑了各种不同情况下得出的满足实际需求的优化模型,因此它的适用性很强,可以推广到很多类似的现实问题。
七、参考文献[1]李晓丹,杨晓光,陈华杰.城市道路网络交通小区划分方法研究.计算机工程与应用,2009,45(5):19-22.[2]杨波,刘海洲.基于聚类分析的交通小区划分方法的改进.交通与运输,2007,(7):23-26.[3]徐吉谦.交通工程总论.北京:人民交通出版社,2003.[4]马超群,王瑞,王玉萍,严宝杰,陈宽民.基于区内出行比例的城市交通小区半径计算方法.交通运输工程学报,2007,(1):68-72.[5]张会娜,李枫.OD 矩阵估计问题研究综].预测技术,2007,(12):49-51.[6]张志强.人工神经网络在板形板厚综合控制中的应用研究.秦皇岛:燕山大学,2005.[7]李霞,杨长海.K-Means 聚类算法在客户细分中的应用.五邑大学学报,2008,22(4):49-51.[8]王祝文,刘菁华,任莉.基于K均值动态聚类分析的地球物理测井岩性分类方法.华东理工大学学报,2009,32(2):152-156。