大数据技术在智慧城市中的应用邹国伟中国电信股份有限公司上海研究院成建波中国电信股份有限公司上海研究院物联网专业室主任摘要现阶段,各地正积极推动智慧城市建设。
智慧城市的特征包括信息共享、系统协同以及智能响应。
为实现上述特征,城市各类信息需要汇聚集中,综合处理,实现有效利用。
然而城市中的数据具有多源、异构和海量的特征,传统的信息处理技术在面对这类数据时显得力不从心。
大数据及相关技术却能有效地解决这些问题。
本文介绍了大数据相关技术及其在智慧城市中的应用。
关键词智慧城市大数据应用1 引言智慧城市充分利用物联网、云计算、宽带网络等先进的信息通信技术,实现对城市运行的全面感知、数据融合、智能决策,并通过城市各个信息系统间的互联互通、信息共享和协同运作,整合与优化各种城市资源,提高城市运行管理和服务水平,改善市民生活和生态环境,提高经济发展的质量和产业竞争力,实现城市科学、可持续发展。
我国正处在大力发展工业化和信息化的关键时期,产业经济实力和信息化程度已经具备发展和建设“智慧城市”的基础条件。
事实上,新型工业化、新型城镇化进程也客观地要求进行“智慧城市”建设。
目前,我国的北京、上海、广州、南京、杭州、宁波等诸多城市先后提出建设“智慧城市”和智慧行业应用工程。
按维基百科定义,大数据泛指在一定时间内无法用常规软件工具对内容进行抓取、管理和处理的数据集合,普遍认为大数据具有 4V 特征,即 Volume、Velocity、Variety、Value。
Volume 指容量大,从 TB 级到PB 级;Velocity 指数据增长速度快和处理速度要求快;Variety 指数据类型丰富,包括结构化数据和非结构化数据;Value 指价值密度低,即海量数据中有价值的数据占比小。
大数据的简单算法比小数据的复杂算法更有效。
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
用于整合、处理、管理和分析大数据的关键技术主要包括 BigTable、商业智能、云计算、Cassandra、数据仓库、数据集市、分布式系统、Dynamo、GFS、Hadoop、HBase、MapReduce、Mashup、元数据、非关系型数据库、关系型数据库、R 语言、结构化数据、非结构化数据、半结构化数据、SQL、流处理、可视化技术等。
而用于大数据分析的关键技术主要包括 A/B 测试、关联规则挖掘、分类、数据聚类、众包、数据融合和集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、监督式学习、无监督式学习、模拟、时间序列分析、时间序列预测模型、可视化技术等。
2 大数据与智慧城市关系剖析2.1 数据特点智慧城市的数据具有如下特点:(1) 数据来源多样化为实现城市系统间的信息共享和智能响应,需要智慧城市公共支撑平台汇集各类数据。
智慧城市的数据来自各行业系统和城市基础库。
交通、市政、环保等行业系统提供城市的运行状态数据。
城市基础库提供人口、法人、地理、经济等数据。
智慧城市公共支撑平台要实现与上述各种异构系统的对接接口(见图 1)。
(2) 数据类型多样化智慧城市中的数据类型包括结构化数据、半结构化数据和非结构化数据。
结构化数据能以二维表结构表示。
XML、HTML 等标记语言具有自我描述的结构和标签属于半结构化数据。
非结构化数据是没有预先定义数据模型或者不适合用关系型数据库保存的信息,通常以文件的形式保存。
例如,采集温湿度、气体浓度传感器产生的是结构化数据,可直接保存在关系型数据库中;监控摄像头等产生的是非结构化数据;摄像头采集的视频经过智能算法处理、打上标签进行结构化语义处理后属于半结构化数据。
图 1 智慧城市数据来源(3) 数据规模海量化城市规模的增长导致数据量的剧增。
2007 年,全球 33 亿居民生活在城市里。
到 2050 年,预测这一数字将会突破地球人口的 70%,即 64 亿城市居民。
信息化的深入导致大量从前没有数字化的信息逐渐完成了数字化,并导致数据规模的日益增长。
同时,随着城市功能性基础设施逐步实现“物联”化,大量的感知数据由此产生。
一个中等规模城市需要部署 30~40 万个摄像头,保存一个月的数据量可以达到 500TB。
传统的信息处理技术在处理多源、异构、海量的数据时显得无能为力,而大数据技术在处理这类数据时则具有先天的优势。
2.2 大数据助力智慧城市(1) 大数据为政府管理提供强大的决策支持●在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供强大的决策支持,强化城市管理服务的科学性和前瞻性。
●在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。
●在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。
●在安防领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。
(2) 大数据将提高城市居民的生活品质与民生密切相关的智慧应用包括智慧交通、智慧医疗、智慧家居、智慧安防等,这些智慧化的应用将极大地拓展民众生活空间,引领智慧城市大数据时代智慧人生的到来。
大数据是未来人们享受智慧生活的基础,将改变传统“简单平面”的生活常态,通过大数据的应用服务将使信息变得更加泛在、使生活变得多维和立体。
(3) 大数据处理将决定企业的核心竞争力掌控数据就可以支配市场,意味着巨大的投资回报。
过去很多企业对自身经营发展的分析只停留在简单业务信息层面,缺乏对客户需求、业务流程、平拍营销、市场竞争等方面的深入分析。
如果决策者只依靠业务现状与主观经验对市场的估测进行决策,将导致战略与决策定位不准,存在很大风险。
在大数据时代,企业通过收集和分析大量内部和外部的数据,获取有价值的信息。
通过挖掘这些信息,企业可以预测市场需求,进行智能化决策分析。
有研究显示,在美国公司,数据智能化提高 10%,产品和服务质量则相应提高 14.6%。
3 大数据技术在智慧城市中的应用目前,大数据技术的运用仍存在一些困难与挑战,主要体现在以下 4 个环节(见图 2):图 2 智慧城市数据流●数据收集要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
●数据存储要达到低成本、低能耗、高可靠性目标,通常要用到冗余配臵、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
●数据处理有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
●结果的可视化呈现使结果更直观,以便于洞察。
目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。
3.1 数据收集技术智慧城市公共支撑平台可通过数据库访问和数据库导入、中间件技术、接口调用、网络爬虫、内容采编等方式从行业系统和城市基础库中采集数据。
城市基础库的数据访问可采用数据库访问和数据库导入的方式。
通过在原行业系统的业务处理模块实现特定的接口,将数据通过开放 API 的方式提供智慧城市公共支撑平台,其中主流的开放接口包括 RestAPI 和 Web Service。
智慧城市公共支撑平台与行业系统之间也可以通过消息中间件(包括企业服务总线)传递数据。
消息中间件支持在分布式环境下的可靠传输,屏蔽掉各种平台及协议之间的特性,提供点对点和订阅 / 发布等机制的数据传输。
对于无法提供数据库开放和接口调用的行业系统,可采用内容采编或网络爬虫的方式采集数据。
3.2 大数据存储技术“在大数据时代,可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
”智慧城市公共支撑平台首先预处理采集的数据,包括数据清洗、数据集成、数据变换和数据规约 4 个处理过程。
多个委办局都有自建的信息系统,关于企业、个人信息存在数据冗余、数据不一致等问题,同时存在数据重新封装集成的需要。
当数据汇聚到智慧城市公共支撑平台时,需要对这类数据进行预处理,消除上述问题。
数据经过预处理以后,智慧城市公共支撑平台根据数据的类型选择不同的存储方案。
对于离线处理的数据,结构化数据可保存在分布式关系型数据库,如Hbase;视频、图片等非结构化数据和 XML、HTML 等半结构化数据可保存在分布式文件系统中。
对于需要实时处理的数据,可用内存数据库保存。
3.3 大数据处理技术“研究数据如此之多,以至于我们不再热衷于追求精确性,即不再热衷于寻找因果关系,而是寻找关联关系。
”数据处理服务通过智慧城市公共支撑平台对数据进行分析,从中挖掘价值,寻找关系。
概述部分提到数据处理技术包括机器学习、数据挖掘和复杂事件处理等。
传统的机器学习、数据挖掘在处理面对海量、异构的智慧城市数据时效率低下,通过分布式计算框架改进,提升处理速度。
根据数据处理要求的实时性与否,可分离线处理和在线处理。
应急防灾类智慧城市应用具有实时、在线处理的要求,数据处理服务要及时预测结果,为城市管理者提供决策支持。
对于离线处理的数据,通常保存在分布式数据库和分布式文件系统,可基于 Hadoop 等分布式计算框架分析该类数据,如 ApacheMahout。
对于需要在线实时处理的数据,如流式数据,其数据处理的方法与离线数据区别很大。
多个传感器按照小周期采集的数据、多个摄像头采集的视频数据等属于流式数据。
流式数据与离线处理的数据最大区别是数据处理要快,数据处理要及时。
影响数据处理速度的因素有数据的 I/O 慢和数据处理引擎的效率。
采用分布式数据库和分布式文件系统可以保存更多的数据,但 I/O 速度慢;内存数据库具有存取速度快的优势,可与数据处理引擎结合,提升处理速度。
复杂事件处理(ComplexEventProcessing,CEP)技术是一种数据处理引擎,来捕捉不同来源的各种简单事件或事件流,根据预先定义的事件模型,实时、高效地发现海量事件之间的关系或推断出更有意义的事件,提供决策依据。
3.4 可视化数据处理的结果以更直观、更形象呈现,为管理者、企业、市民做决策支持。