第28卷第1l期 2011年11月 计算机应用研究 Application Research of Computers Vo1.28 No.11 NOV.2011
基于Hadoop的城市交通碳排放数据挖掘研究
朱钥,贾思奇,张俊魁,李琦
(北京大学遥感与地理信息系统研究所,北京100871)
摘要:针对交通数据大吞吐量及时效性等特点,为了更高效地处理该类型数据,探索了一种基于云计算服务
模式的、利用Hadoop技术架构可扩展的交通数据处理、发布、服务实现方法,并实现了原型系统。该方法的主要
思想是利用Hadoop所提供的分布式文件处理能力对海量的交通数据进行并行处理,该过程效率较高,且运行可
靠性强,与传统方法相比具有较为突出的优势。相关实验测试结果显示,该方法大大提高了该类型数据处理时
效,取得了较为理想的实验效果,进一步论证了此方法对于处理该类数据的可靠性和有效性。
关键词:海量数据处理;并行计算;空间信息服务;智能交通系统
中图分类号:TP315 文献标志码:A 文章编号:1001—3695(2011)11-4213—03
doi:10.3969/j.issn.1001-3695.2011.11.057
Research of urban traffic carbon emission data mining based on Hadoop
ZHU Yue,JIA Si—qi,ZHANG Jun—kui,LI Qi
(Institute ofRemote Sensing&GIS,Peking University,Beijing 100871,China)
Abstract:According to the characteristics of traffic data are big throughput and timeliness,and in order to more efficient pro— cessing this type data,this paper explored a kind of extensible traffic data processing,release,service method which based On cloud computing service mode,used Hadoop technical architecture,and the prototype system had been implemented.The main idea of the method was to make use of the distributed file handling ability provided by Hadoop,to make parallel process— ing for the massive traffic data,this process had high efficiency,and the operation reliability,compared with traditional meth— ods,had relatively outstanding advantages.The result of related experiments test shows,this method has greatly increased the data of this type processing limitation,achieved ideal experimental results,and it further demonstrates the reliability and valid— iIy of this method. Key words:mass data processing;parallel computing;spatial information service;intelligent transport systems
0 引言
近年来,全球气候变化问题引起了社会各界的广泛关注, 政府间气候变化专门委员会(IPCC)第四次评估报告指出,人 类活动排放CO 是引起气候变化的重要原因之一。城市作为 人口聚集的重要地区,由于对石化能源的巨大需求,造成了大
量的CO 排放,而在现代化大都市的发展进程中,来自城市交 通的CO:排放占据了重要部分。本文基于Hadoop技术的城
市交通路网排放数据挖掘,探讨城市交通路网排放的时空分布 情况,对实施节能减排的规划具有非常重要的参考意义。 在本文研究中之所以采用Hadoop技术…,是充分结合实
验实际情况,考虑了交通数据本身特点,即大部分采集到的交 通数据都有一定量的冗余,而且其吞吐量较大。因此在通常情 况下,很多企业或部门会采用数据仓库这种技术手段来处理交 通数据,而本文所提出的基于Hadoop技术的处理方式相比于
数据仓库,有其独特的优势:数据处理时效性更强,基础设备价 格廉价,投资较小,更加适合于小规模应用的推广。
1 系统框架
本文在建模研究的基础上,利用Hadoop实现了一个城市 交通碳排放数据挖掘原型系统。原型系统的体系架构如图1 所示,自下而上包括三个层次,即基础设施层、平台层和应用
层。该体系架构的思路、设计理念与云计算的空间信息服务系
统框架类似。 基础设施层主要用于海量交通原始数据的存储与管理;平
台层则针对本次实验设计了几大功能模块,对数据进行简单的 清洗与进一步有效处理,以提炼所需信息及获得分析结果;应
用层则是负责对外提供服务,用户可以登录一站式的平台门
户,直接使用系统提供的服务。在本实验中,重点在于第二 层——平台层的建设与研究。
1.1基础设施层
基础设施层主要由分布式文件系统、分布式空间数据库和 PC机群构成。本系统主要由廉价PC组成集群计算环境;该机 群的建设规模小、造价低,非常适合小型工程或小范围运作推
广。而针对本实验所要处理的数据特点,选择了分布式文件系 统和分布式数据库。其中,分布式文件系统可以通过冗余存储
有效地处理单点故障,并可以通过多个副本挺高响应速度,真 正地实现了海量数据的高可靠性和高可用性存储。而对于数
据库,分布式数据库通过建立全局视图、元数据和访问控制机
制,可以实现用户透明地访问全局数据。分布式文件系统本实
收稿日期:2011-03—29;修回日期:2011-04—25 基金项目:国家“863”计划资助项目(2009AA122101) 作者简介:朱钥(1971.),男,在职博士,主要研究方向为数字地球、数字城市(yarin.zhu@gmail.tom);贾思奇(1987-),男,内蒙古呼和浩特人, 硕士研究生,主要研究方向为数字地球、数字城市;张俊魁(1986-)男,湖南人,博士,主要研究方向为数字城市;李琦(1955-),女,云南昆明人,教 授。硕士,主要研究方向为数字地球、数字城市.
・4214・ 计算机应用研究 第28卷
验选择了HDFS(Hadoop distributed file system),分布式数据库 则选择了MySQL。
一一
一一
(c)数据清洗 (d)排放计算
(e)分布式数据库 (f)分布式文件系统
(g)PC集群 图1原型系统架构
1.2 平台层
在平台层,根据模型需求构建了四个主要模块,即数据清
洗、排放计算、聚类分析和制图渲染模块。数据清洗模块主要
负责在模型运算前对数据进行清洗,剔除不合理的数据。由于
道路线圈收集数据受到车辆速度和自身状况等因素的影响,采
集的数据并不总是能够反映真实的交通状况,所以需要进行预
处理。由于缺乏历史数据支持,目前的清洗策略主要是剔除空
值数据和速度异常数据。
排放计算模块根据实验所使用的计算模型,计算每一个时
段的路段排放,对结果进行累加,得到以天为单位的CO 排放
数据;然后根据以天为单位的排放数据,还可以合成累加生成
以月为单位的排放数据以供参考。
聚类分析根据CO 排放量,以某一初始值为中心,进行多
次迭代运算过程,寻找合适的中心值,将道路分成若干排放等
级,为后续的制图渲染模块提供数据基础。
制图渲染模块首先将聚类后的数据进行栅格化,然后以
CO 排放量值为依据进行着色渲染,再经过图块拼接,最后生
成实验数据成果图。
1.3应用层
应用层作为系统的门户,直接面向用户,试图提供一站式
服务。该层的设计应该遵循云服务中应用即服务(application
as a serviee,AaaS)的理念,所有的资源和功能都以服务的形式
提供给用户。云服务平台门户还提供了资源和交换体系,可以
与其他系统进行数据交换和服务互操作。
2关键算法实现
2.1 数据清洗中的MapReduce处理流程
数据清洗的策略较为简单,仅需一次MapReduce 就可以
完成处理。 Map阶段,使用路段的ID作为key,记录的其余属性作为 值,将原始数据集拆分成若干记录。检查记录的值是否合理,
如果异常,则遗弃该记录。将正常的数据发送至管道,进入
Reduce阶段。
Reduce阶段,将清洗过的数据按照路段编号进行归并,具
有相同路段编号的记录被归并为一个文件,得到新的数据集。
2.2排放计算中的MapReduce处理流程
根据计算的时间精度,可以使用多阶段的MapReduce完
成路段排放量计算。
Map阶段,使用记录的时间作为key,根据速度等属性,按
照模型计算该时间段内的路段气体排放。
Reduce阶段,根据时间段合并规则,对排放进行分时段累
加,得到分时段路段排放记录。
对于有多重时间精度需要的情况,可以根据原始记录的时
间分辨路段。首先计算出最小时间尺度的路段排放记录;然后
根据不同的时间精度,对计算结果在此运用类似的MapReduce 流程进行合并。
2.3聚类分析中的MapReduce处理流程
聚类分析过程较为繁琐,为了获得较为准确的分类结果,
需要进行多次迭代过程。
Map阶段,首先给定K个中心值,作为初始运算的基本参
照,利用每一个record值,计算排放值与这K个中心值的距离,
将其中距离最小的对应类别 作为它的同类。
Reduce阶段,把所有类别相同的值进行重新计算,以获得
其新的中心值,进一步地详细分类。
按照上述步骤,如此迭代循环,直到所有类另0中的数值不
再发生变化为止。
2.4制图渲染中的MapReduce处理流程
根据已经处理过的数据,利用该模块的MapReduce生成
所需的图像,以供研究人员直观地分析数据结果。
Map阶段,使用数据的路段ID、CO 排放量、几何信息以
及渲染信息,进行处理生成其外包矩形(MBR)的buffer值。
Reduce阶段,利用Map阶段生成的buffer值,将其与原数
据进行匹配、更新,从而生成最后的结果图。
3应用实例
本次实验采用的是上海市交通路网数据,包括地面一般道
路、地面主干道路、地面次干道路三个级别,时间跨度从2009
年6月1日到2009年6月15日,数据量达9.5 GB,主要字段
是路段编号、路段面积、路段长度、车道数目、行车时间、拟合后
的行车速度以及行车方向等。
3.1 交通流量基本模型
由于排放模型中需要确定机车数量Ⅳ,而机车数量N=
,其中Q为交通流量,t为行车时间;加之行车速度不具有累
加性,无法实现时间尺度从2 min一1 一l d转换,而交通流量
具有相对较好的时间累加性,因此,需要将行车速度转换为时
段交通流量。
在实验中,以一天为一个时间阶段,对行车速度进行适当
抽样,通过路段行车速度周期变化图、频率直方图和累积频率
曲线来分析速度变化规律,以便针对不同的行车速度变化阶段