摘要本文主要讨论了深圳交通小区划分及利用交通小区获取感兴趣的交通信息的问题。
首先,我们对获取的出租车GPS数据进行了预处理,由于GPS数据中地点由经纬度表示,而地球某一微小地区表面可以近似看成是平面,为了直观和方便,我们将该地区经纬度坐标转换成常见的平面直角坐标。
然后,根据交通小区的划分原则之一:应保证划定范围内的土地利用特征应尽可能简单,尽量不打破城市行政区的划分,再结合深圳实际的地理特征,独创性地引入了交通大区的概念,并根据行政区的划分首先得到交通大区的划分。
紧接着,利用层次分析法、模糊数学聚类分析法对交通大区进行分类,由于各个交通大区在经济、社会等方面存在一定程度上的相似性,分类后同类别的交通大区可以用相同的方法进行后期处理。
以上先划分后分类的做法可以使深圳复杂的不易处理的交通状况进行简化,分解为几类简单的易于处理的交通板块状况。
由于划分交通小区是为了研究交通流动信息,而人们的出行往往是在其所生活的交通大区内,所以必须对交通大区进行细分,以便得到更为准确的人群出行情况。
在细分过程中,我们考虑到既要使人们的一次出行尽可能的穿越交通小区,又要控制交通小区的数量,不能使其太多,不方便处理。
我们根据一组人们的一次出行距离的数据,进行了交通小区的半径择优,从而确定了各个交通大区内的交通小区的细分个数。
利用快速聚类分析法和简单的MATLAB程序实现了深圳整个城市交通小区的划分。
之后在已划分的交通小区的基础上,得到了人们出行的OD时空分布并其进行了分析,绘制出某时间段深圳整个城市路段网络的通畅情况图,这是对深圳交通情况的一个客观反映。
关键词:坐标转化交通大区交通小区模糊数学聚类分析法层次分析法快速聚类分析法交通小区半径择优法 OD时空分布一、问题的提出1、背景目前, 我国正在提倡大力发展公共交通, 出租车因其便利的特点成为公共交通的重要补充。
出租车交通运行特点可以从一定程度上客观地反映人们的出行时空分布特点和道路交通状况,因此,对出租汽车交通运行特点进行深入研究有其必要性和现实性。
当前,各大城市出租车越来越多的安装了GPS 终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS 实时数据。
原始数据主要保存出租车上装配的GPS 终端所采集的数据。
2、问题根据GPS 终端所采集的数据,解决以下几个问题: 问题一,根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。
问题二,根据小区划分和出租车GPS 数据,给出载客出租车的OD 时空分布。
如:某时刻从坐标(,)i j 到(,)i j ''、(,)i j ''''的出租车有多少辆。
问题三,由此,在合理的假设条件下,能否对人们出行的OD 时空分布进行推断? 问题四,根据出租车载客后的行驶数据,筛选出拥堵的路段时段以及拥堵的路口时段。
拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,10公里/小时),可认为是拥堵。
二、模型假设1、经纬度坐标转换由于GPS 数据中地点由经纬度表示,而地球某一微小地区表面可以近似看成是平面,为了直观和方便,我们不妨将该地区经纬度坐标转换成常见的平面直角坐标。
事实上,转换成平面直角坐标系足以帮助我们分析问题,并不会对问题实质带来多大的影响。
2、出租车的出行过程假设我们定义主体从出发点到终止点行驶的过程为主体的一次出行。
根据主体的不同,可以分为出租车和乘客两类。
出租车的出行分为有载出行和无载出行两种状态,有载即为出租车载客,在GPS 数据车辆状态中用1表示;无载即为出租车不载客,在GPS 数据车辆状态中用0表示。
3、对出租车的出行进行理想化处理假设处在营运过程中的出租车始终在有载和无载两个状态之间变换,不考虑在一个地方停留的情况。
4、随机抽取部分数据,简化数据处理工作量本题所给数据相当庞大,包含了大约10000辆出租车的数据,由于技术上的原因,不可能利用所有数据并对其进行处理。
随机抽取10辆车的数据,这10辆车的出行出发点和终止点也是随机的,而且每辆车的点的数目也足够多。
也就是从概率上说,每辆车出现在深圳各个地点的可能性都是存在的。
这样,就可以由10辆出租车的数据来客观反映整个城市上万辆出租车的情况。
5、出租车实际行驶距离的折算由GPS 数据得到的出租车出行距离为出发点和终止点之间的直线距离即位移,而实际生活中,由于道路不是笔直联系两点的,存在转道、上下坡等地形,出租车从出发点到终止点的路程是大于两点之间位移的。
GPS数据得到的直线距离和出租车实际行驶距离之间的相互转换需要引入一个距离折算系数K,即实际距离=K*直线距离。
三、符号说明1、name:车牌号2、time :采集时间点3、jd:经度4、wd:纬度5、status:车辆状态(0=非打表,即:空载;1=已打表,即:重载)6、v:车速(单位为:km/h)7、angle :行车方向(0=东;1=东南;2=南;3=西南;4=西;5=西北;6=北;7=东北)四、问题的分析1、交通小区的定义及其划分原则交通小区是具有一定交通关联度和相似度的节点或连线的集合,反映了城市路网交通特征的时空变化特性。
交通小区具有同质性、关联性、动态性、稳定性、自组织性等特性。
交通小区的划分是分析城市交通网络的一个很好的方式,因为交通小区内具有相似的交通特征和较强的交通关联性。
交通小区的划分与该城市的人口、面积、经济特征、产业结构等密切相关,并在一定程度上反应了一个城市的吸引力。
交通小区的划分原则有以下几点:1、应保证交通小区内土地利用、经济、社会等特性尽量一致,划定范围内的土地利用特征应尽可能简单,尽量不打破城市行政区的划分;2、结合深圳地图,交通小区边界尽量以高速公路等屏障作为分区界限3、小区应尽可能规则, 避免狭长形状;4、充分考虑城市道路网的构成,尽可能使小区划分与道路网协调一致;5、考虑到城市道路干道是汇集交通的渠道,因此一般不以干道作为划定小区的界线2、出行的定义和说明我们现在引入出行这一概念,定义主体从出发点到终止点行驶的过程为主体的一次出行。
根据主体的不同,可以分为出租车和乘客两类。
出租车的出行分为有载出行和无载出行两种状态,有载即为出租车载客,在GPS数据车辆状态中用1表示;无载即为出租车不载客,在GPS数据车辆状态中用0表示。
然后对出租车的出行进行理想化处理,即处在营运过程中的出租车始终在有载和无载两个状态之间变换,不考虑在一个地方停留的情况。
有载状态下出租车的出行目的服从乘客的出行目的; 无载状态下出租车的出行目的地的选择有很大的随机性,服从于驾驶者对下一个乘客需求点位置的判断。
因此,对于有载状态出租车, 认为乘客上车的地点为出发点,乘客下车的地点为终止点;对于无载状态出租车,认为上一个乘客出行终止点为本次出行出发点,而出租车驾驶者所选择的终止点为本次出行终止点。
本质上来说,一次载客出租车的出行与乘坐该出租车的乘客的出行相一致,即有载出租车的出行就反映了乘客的出行,出租车的出行包含了乘客的出行。
3、按行政区的划分情况,独创性地提出交通大区的概念根据交通小区划分原则,我们可以先按行政区的划分原则,得到交通大区的划分,然后对各个交通大区进行细分,得到更完整全面的交通小区的划分情况,这样做可以使结果更客观可靠,更具体说服力。
4、划分交通小区并处理数据得到OD 分布在划分了交通大区的基础上再划分交通小区,进而由每次出行的出发点和终止点得到OD 分布,并对人们的出行进行时空分析。
五、模型建立与求解1、基于MATLAB 的数据预处理为了得到载客出租车的OD 时空分布,先需要得到出租车出行的出发点和终止点。
根据GPS 车辆状态数据,由0变为1的地点即为有载出租车的出发点和无载出租车的终止点,由1变为0的地点即为有载出租车的终止点和无载出租车的出发点。
在海量的GPS 数据中,我们只需找到由0到1和由1到0这两种变化的地点,就可以找到出租车出行的出发点和终止点。
对得到的出发点和终止点进行坐标转换。
下面结合图对坐标转换的方法进行说明:首先选取一个参考点作为原点,自西向东为X 轴正方向,自南向北为Y 轴正方向。
本题中将东经114.07度,北纬22.53度作为坐标原点。
具体坐标转换公式为:*cos(22.53/180*)r R π=*((114.07)/180*)x r m π=-*((22.53)/180*)y R n π=-以上数据筛选和坐标转换过程可以利用MATLAB 实现。
示例如下:C由2011年4月19日10辆出租车的GPS数据,得到当天出租车出行的出发点和终止点的散点分布图,其中乘客上车点用红色表示,乘客下车点用绿色表示。
x 104-3.5-3-2.5-2-1.5-1-0.500.51 1.5x 104图1 出发点、终止点分布图2、交通小区的划分(1)划分交通大区(基于SPSS的快速聚类方法求交通小区中心点)。
根据交通小区划分原则中的第一条:应保证交通小区内土地利用、经济、社会等特性尽量一致,划定范围内的土地利用特征应尽可能简单,尽量不打破城市行政区的划分。
结合深圳的地理环境特点,其境内没有较大的山脉河流等天然屏障,故现在我们引入交通大区的概念:由于各个行政区内的经济、社会等特性相近,一个行政区就是一个交通大区。
根据行政区的划分,就可以得到交通大区的划分。
深圳共有6个行政区,所以有6个交通大区。
划分交通大区可通过SPSS得到实现,具体方法如下:得到了出发点和终止点坐标数据后,我们采用快速聚类法对坐标数据进行分类。
快速聚类法是非系统聚类法中是最常用的,采用快速聚类可以节省运算时间。
(1)选定凝聚点。
按照指定的希望分类的数量,按照某种原则选择(或人为指定)某些观测点作为凝聚点,它们将作为今后各类的初始核心。
(2)按就近原则(距离最小)将其余观测向凝聚点聚集,这样就可以得到一个初始的分类方案,并计算出各个初始分类的中心位置(均值)。
(3)使用计算出的中心位置重新进行聚类,因此在该方法中,各观测的分类情况会在运算过程中不断改变,分类完毕后再次计算各类的中心位置。
如此反复迭代,直到凝聚点位置改变很小(达到收敛标准)为止。
通过快速聚类得到的6个大区的中心点如下表所示表1 6个大区的中心点列表表2 6个大区内的散点数列表根据散点得到的6个大区划分情况,其中不同颜色和符号表示不同大区。
图2 6大区划分图标注了中心点的6个大区,其中中心点用黑色方框表示。
-4-3-2-1123-1-0.500.511.522.533.54图3 标注了中心点的6大区划分图通过观察上面散点图并结合深圳地图,可以发现这样一个问题:快速分类得到的6个大区的形状和范围与实际的6个行政区的形状和范围大致相同,但是部分区域存在差异。