当前位置：文档之家› 基于Hadoop的城市交通碳排放数据挖掘研究

基于Hadoop的城市交通碳排放数据挖掘研究

第２８卷第１ｌ期　２０１１年１１月　计算机应用研究　Ａｐｐｌｉｃａｔｉｏｎ　Ｒｅｓｅａｒｃｈ　ｏｆ　Ｃｏｍｐｕｔｅｒｓ　Ｖｏ１．２８　Ｎｏ．１１　ＮＯＶ．２０１１　

基于Ｈａｄｏｏｐ的城市交通碳排放数据挖掘研究　

朱钥，贾思奇，张俊魁，李琦　

（北京大学遥感与地理信息系统研究所，北京１００８７１）　

摘要：针对交通数据大吞吐量及时效性等特点，为了更高效地处理该类型数据，探索了一种基于云计算服务　

模式的、利用Ｈａｄｏｏｐ技术架构可扩展的交通数据处理、发布、服务实现方法，并实现了原型系统。该方法的主要　

思想是利用Ｈａｄｏｏｐ所提供的分布式文件处理能力对海量的交通数据进行并行处理，该过程效率较高，且运行可　

靠性强，与传统方法相比具有较为突出的优势。相关实验测试结果显示，该方法大大提高了该类型数据处理时　

效，取得了较为理想的实验效果，进一步论证了此方法对于处理该类数据的可靠性和有效性。　

关键词：海量数据处理；并行计算；空间信息服务；智能交通系统　

中图分类号：ＴＰ３１５　文献标志码：Ａ　文章编号：１００１—３６９５（２０１１）１１－４２１３—０３　

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１－３６９５．２０１１．１１．０５７　

Ｒｅｓｅａｒｃｈ　ｏｆ　ｕｒｂａｎ　ｔｒａｆｆｉｃ　ｃａｒｂｏｎ　ｅｍｉｓｓｉｏｎ　ｄａｔａ　ｍｉｎｉｎｇ　ｂａｓｅｄ　ｏｎ　Ｈａｄｏｏｐ　

ＺＨＵ　Ｙｕｅ，ＪＩＡ　Ｓｉ—ｑｉ，ＺＨＡＮＧ　Ｊｕｎ—ｋｕｉ，ＬＩ　Ｑｉ　

（Ｉｎｓｔｉｔｕｔｅ　ｏｆＲｅｍｏｔｅ　Ｓｅｎｓｉｎｇ＆ＧＩＳ，Ｐｅｋｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ　１００８７１，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ　ｏｆ　ｔｒａｆｆｉｃ　ｄａｔａ　ａｒｅ　ｂｉｇ　ｔｈｒｏｕｇｈｐｕｔ　ａｎｄ　ｔｉｍｅｌｉｎｅｓｓ，ａｎｄ　ｉｎ　ｏｒｄｅｒ　ｔｏ　ｍｏｒｅ　ｅｆｆｉｃｉｅｎｔ　ｐｒｏ—　ｃｅｓｓｉｎｇ　ｔｈｉｓ　ｔｙｐｅ　ｄａｔａ，ｔｈｉｓ　ｐａｐｅｒ　ｅｘｐｌｏｒｅｄ　ａ　ｋｉｎｄ　ｏｆ　ｅｘｔｅｎｓｉｂｌｅ　ｔｒａｆｆｉｃ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ，ｒｅｌｅａｓｅ，ｓｅｒｖｉｃｅ　ｍｅｔｈｏｄ　ｗｈｉｃｈ　ｂａｓｅｄ　Ｏｎ　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ　ｓｅｒｖｉｃｅ　ｍｏｄｅ，ｕｓｅｄ　Ｈａｄｏｏｐ　ｔｅｃｈｎｉｃａｌ　ａｒｃｈｉｔｅｃｔｕｒｅ，ａｎｄ　ｔｈｅ　ｐｒｏｔｏｔｙｐｅ　ｓｙｓｔｅｍ　ｈａｄ　ｂｅｅｎ　ｉｍｐｌｅｍｅｎｔｅｄ．Ｔｈｅ　ｍａｉｎ　ｉｄｅａ　ｏｆ　ｔｈｅ　ｍｅｔｈｏｄ　ｗａｓ　ｔｏ　ｍａｋｅ　ｕｓｅ　ｏｆ　ｔｈｅ　ｄｉｓｔｒｉｂｕｔｅｄ　ｆｉｌｅ　ｈａｎｄｌｉｎｇ　ａｂｉｌｉｔｙ　ｐｒｏｖｉｄｅｄ　ｂｙ　Ｈａｄｏｏｐ，ｔｏ　ｍａｋｅ　ｐａｒａｌｌｅｌ　ｐｒｏｃｅｓｓ—　ｉｎｇ　ｆｏｒ　ｔｈｅ　ｍａｓｓｉｖｅ　ｔｒａｆｆｉｃ　ｄａｔａ，ｔｈｉｓ　ｐｒｏｃｅｓｓ　ｈａｄ　ｈｉｇｈ　ｅｆｆｉｃｉｅｎｃｙ，ａｎｄ　ｔｈｅ　ｏｐｅｒａｔｉｏｎ　ｒｅｌｉａｂｉｌｉｔｙ，ｃｏｍｐａｒｅｄ　ｗｉｔｈ　ｔｒａｄｉｔｉｏｎａｌ　ｍｅｔｈ—　ｏｄｓ，ｈａｄ　ｒｅｌａｔｉｖｅｌｙ　ｏｕｔｓｔａｎｄｉｎｇ　ａｄｖａｎｔａｇｅｓ．Ｔｈｅ　ｒｅｓｕｌｔ　ｏｆ　ｒｅｌａｔｅｄ　ｅｘｐｅｒｉｍｅｎｔｓ　ｔｅｓｔ　ｓｈｏｗｓ，ｔｈｉｓ　ｍｅｔｈｏｄ　ｈａｓ　ｇｒｅａｔｌｙ　ｉｎｃｒｅａｓｅｄ　ｔｈｅ　ｄａｔａ　ｏｆ　ｔｈｉｓ　ｔｙｐｅ　ｐｒｏｃｅｓｓｉｎｇ　ｌｉｍｉｔａｔｉｏｎ，ａｃｈｉｅｖｅｄ　ｉｄｅａｌ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ，ａｎｄ　ｉｔ　ｆｕｒｔｈｅｒ　ｄｅｍｏｎｓｔｒａｔｅｓ　ｔｈｅ　ｒｅｌｉａｂｉｌｉｔｙ　ａｎｄ　ｖａｌｉｄ—　ｉＩｙ　ｏｆ　ｔｈｉｓ　ｍｅｔｈｏｄ．　Ｋｅｙ　ｗｏｒｄｓ：ｍａｓｓ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ；ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ；ｓｐａｔｉａｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｓｅｒｖｉｃｅ；ｉｎｔｅｌｌｉｇｅｎｔ　ｔｒａｎｓｐｏｒｔ　ｓｙｓｔｅｍｓ　

０　引言　

近年来，全球气候变化问题引起了社会各界的广泛关注，　政府间气候变化专门委员会（ＩＰＣＣ）第四次评估报告指出，人　类活动排放ＣＯ　是引起气候变化的重要原因之一。城市作为　人口聚集的重要地区，由于对石化能源的巨大需求，造成了大　

量的ＣＯ　排放，而在现代化大都市的发展进程中，来自城市交　通的ＣＯ：排放占据了重要部分。本文基于Ｈａｄｏｏｐ技术的城　

市交通路网排放数据挖掘，探讨城市交通路网排放的时空分布　情况，对实施节能减排的规划具有非常重要的参考意义。　在本文研究中之所以采用Ｈａｄｏｏｐ技术…，是充分结合实　

验实际情况，考虑了交通数据本身特点，即大部分采集到的交　通数据都有一定量的冗余，而且其吞吐量较大。因此在通常情　况下，很多企业或部门会采用数据仓库这种技术手段来处理交　通数据，而本文所提出的基于Ｈａｄｏｏｐ技术的处理方式相比于　

数据仓库，有其独特的优势：数据处理时效性更强，基础设备价　格廉价，投资较小，更加适合于小规模应用的推广。　

１　系统框架　

本文在建模研究的基础上，利用Ｈａｄｏｏｐ实现了一个城市　交通碳排放数据挖掘原型系统。原型系统的体系架构如图１　所示，自下而上包括三个层次，即基础设施层、平台层和应用　

层。该体系架构的思路、设计理念与云计算的空间信息服务系　

统框架类似。　基础设施层主要用于海量交通原始数据的存储与管理；平　

台层则针对本次实验设计了几大功能模块，对数据进行简单的　清洗与进一步有效处理，以提炼所需信息及获得分析结果；应　

用层则是负责对外提供服务，用户可以登录一站式的平台门　

户，直接使用系统提供的服务。在本实验中，重点在于第二　层——平台层的建设与研究。　

１．１基础设施层　

基础设施层主要由分布式文件系统、分布式空间数据库和　ＰＣ机群构成。本系统主要由廉价ＰＣ组成集群计算环境；该机　群的建设规模小、造价低，非常适合小型工程或小范围运作推　

广。而针对本实验所要处理的数据特点，选择了分布式文件系　统和分布式数据库。其中，分布式文件系统可以通过冗余存储　

有效地处理单点故障，并可以通过多个副本挺高响应速度，真　正地实现了海量数据的高可靠性和高可用性存储。而对于数　

据库，分布式数据库通过建立全局视图、元数据和访问控制机　

制，可以实现用户透明地访问全局数据。分布式文件系统本实　

收稿日期：２０１１－０３—２９；修回日期：２０１１－０４—２５　基金项目：国家“８６３”计划资助项目（２００９ＡＡ１２２１０１）　作者简介：朱钥（１９７１．），男，在职博士，主要研究方向为数字地球、数字城市（ｙａｒｉｎ．ｚｈｕ＠ｇｍａｉｌ．ｔｏｍ）；贾思奇（１９８７－），男，内蒙古呼和浩特人，　硕士研究生，主要研究方向为数字地球、数字城市；张俊魁（１９８６－）男，湖南人，博士，主要研究方向为数字城市；李琦（１９５５－），女，云南昆明人，教　授。硕士，主要研究方向为数字地球、数字城市．

　・４２１４・　计算机应用研究　第２８卷　

验选择了ＨＤＦＳ（Ｈａｄｏｏｐ　ｄｉｓｔｒｉｂｕｔｅｄ　ｆｉｌｅ　ｓｙｓｔｅｍ），分布式数据库　则选择了ＭｙＳＱＬ。　

一一　

（ｃ）数据清洗　（ｄ）排放计算　

（ｅ）分布式数据库　（ｆ）分布式文件系统　

（ｇ）ＰＣ集群　图１原型系统架构　

１．２　平台层　

在平台层，根据模型需求构建了四个主要模块，即数据清　

洗、排放计算、聚类分析和制图渲染模块。数据清洗模块主要　

负责在模型运算前对数据进行清洗，剔除不合理的数据。由于　

道路线圈收集数据受到车辆速度和自身状况等因素的影响，采　

集的数据并不总是能够反映真实的交通状况，所以需要进行预　

处理。由于缺乏历史数据支持，目前的清洗策略主要是剔除空　

值数据和速度异常数据。　

排放计算模块根据实验所使用的计算模型，计算每一个时　

段的路段排放，对结果进行累加，得到以天为单位的ＣＯ　排放　

数据；然后根据以天为单位的排放数据，还可以合成累加生成　

以月为单位的排放数据以供参考。　

聚类分析根据ＣＯ　排放量，以某一初始值为中心，进行多　

次迭代运算过程，寻找合适的中心值，将道路分成若干排放等　

级，为后续的制图渲染模块提供数据基础。　

制图渲染模块首先将聚类后的数据进行栅格化，然后以　

ＣＯ　排放量值为依据进行着色渲染，再经过图块拼接，最后生　

成实验数据成果图。　

１．３应用层　

应用层作为系统的门户，直接面向用户，试图提供一站式　

服务。该层的设计应该遵循云服务中应用即服务（ａｐｐｌｉｃａｔｉｏｎ　

ａｓ　ａ　ｓｅｒｖｉｅｅ，ＡａａＳ）的理念，所有的资源和功能都以服务的形式　

提供给用户。云服务平台门户还提供了资源和交换体系，可以　

与其他系统进行数据交换和服务互操作。　

２关键算法实现　

２．１　数据清洗中的ＭａｐＲｅｄｕｃｅ处理流程　

数据清洗的策略较为简单，仅需一次ＭａｐＲｅｄｕｃｅ　就可以　

完成处理。　Ｍａｐ阶段，使用路段的ＩＤ作为ｋｅｙ，记录的其余属性作为　值，将原始数据集拆分成若干记录。检查记录的值是否合理，　

如果异常，则遗弃该记录。将正常的数据发送至管道，进入　

Ｒｅｄｕｃｅ阶段。　

Ｒｅｄｕｃｅ阶段，将清洗过的数据按照路段编号进行归并，具　

有相同路段编号的记录被归并为一个文件，得到新的数据集。　

２．２排放计算中的ＭａｐＲｅｄｕｃｅ处理流程　

根据计算的时间精度，可以使用多阶段的ＭａｐＲｅｄｕｃｅ完　

成路段排放量计算。　

Ｍａｐ阶段，使用记录的时间作为ｋｅｙ，根据速度等属性，按　

照模型计算该时间段内的路段气体排放。　

Ｒｅｄｕｃｅ阶段，根据时间段合并规则，对排放进行分时段累　

加，得到分时段路段排放记录。　

对于有多重时间精度需要的情况，可以根据原始记录的时　

间分辨路段。首先计算出最小时间尺度的路段排放记录；然后　

根据不同的时间精度，对计算结果在此运用类似的ＭａｐＲｅｄｕｃｅ　流程进行合并。　

２．３聚类分析中的ＭａｐＲｅｄｕｃｅ处理流程　

聚类分析过程较为繁琐，为了获得较为准确的分类结果，　

需要进行多次迭代过程。　

Ｍａｐ阶段，首先给定Ｋ个中心值，作为初始运算的基本参　

照，利用每一个ｒｅｃｏｒｄ值，计算排放值与这Ｋ个中心值的距离，　

将其中距离最小的对应类别　作为它的同类。　

Ｒｅｄｕｃｅ阶段，把所有类别相同的值进行重新计算，以获得　

其新的中心值，进一步地详细分类。　

按照上述步骤，如此迭代循环，直到所有类另０中的数值不　

再发生变化为止。　

２．４制图渲染中的ＭａｐＲｅｄｕｃｅ处理流程　

根据已经处理过的数据，利用该模块的ＭａｐＲｅｄｕｃｅ生成　

所需的图像，以供研究人员直观地分析数据结果。　

Ｍａｐ阶段，使用数据的路段ＩＤ、ＣＯ　排放量、几何信息以　

及渲染信息，进行处理生成其外包矩形（ＭＢＲ）的ｂｕｆｆｅｒ值。　

Ｒｅｄｕｃｅ阶段，利用Ｍａｐ阶段生成的ｂｕｆｆｅｒ值，将其与原数　

据进行匹配、更新，从而生成最后的结果图。　

３应用实例　

本次实验采用的是上海市交通路网数据，包括地面一般道　

路、地面主干道路、地面次干道路三个级别，时间跨度从２００９　

年６月１日到２００９年６月１５日，数据量达９．５　ＧＢ，主要字段　

是路段编号、路段面积、路段长度、车道数目、行车时间、拟合后　

的行车速度以及行车方向等。　

３．１　交通流量基本模型　

由于排放模型中需要确定机车数量Ⅳ，而机车数量Ｎ＝　

，其中Ｑ为交通流量，ｔ为行车时间；加之行车速度不具有累　

加性，无法实现时间尺度从２　ｍｉｎ一１　一ｌ　ｄ转换，而交通流量　

具有相对较好的时间累加性，因此，需要将行车速度转换为时　

段交通流量。　

在实验中，以一天为一个时间阶段，对行车速度进行适当　

抽样，通过路段行车速度周期变化图、频率直方图和累积频率　

曲线来分析速度变化规律，以便针对不同的行车速度变化阶段

e商务文档

基于Hadoop的城市交通碳排放数据挖掘研究

相关文档推荐：