2014年第3期广东公安科技总第117期公安大数据处理平台的探索*吕益民1宫夏屹2聂春华1(1.广州市公安局科技通信处,广东广州510030;2.中国航天科工集团二院北京仿真中心,北京100854)摘要本文通过对大数据应用的发展现状和广州公安视频数据进行分析,从广州市公安局对大数据应用的需求出发,构建了公安大数据支撑平台的体系架构,并提出建设一个用于解决视频及图像等大数据存储、分析处理等问题的公安大数据处理平台的构想。
关键词公安大数据平台引言大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。
[1]业界将其归纳为4个“V”———Volum、Variety、Value、Velocity,即具有4个典型特征:第一,数据大体量巨大,从TB级别跃升到PB级别;第二,数据类型繁多,网络日志、视频、图片、位置信息等等;第三,价值密度低,以视频为例,连续不间断监控过程中,可能有用数据只有几秒;第四,速度快,俗称“秒级定律”,即速度要求很高,一般要在秒级时间给出分析结果,时间太长就失去价值[2]。
目前大数据的研究和应用已成为各行业数据研究的重点。
当前,各行业数据爆发性增长,亟需转变数据处理模式。
在公共安全领域,治安系统、智能交通视频数据呈井喷式增长,已显现出行业大数据的典型特征。
如广州的社会治安视频监控系统,目前进入第二期建设阶段,如果我们将社会上所有的视频监控数据都接入公安系统,每天将产生PB规模的视频、图像及相关数据。
如何对如此大规模的数据进行智能、高效的组织管理和分析处理,在此海量信息中提取有用信息,以辅助公安机关开展治安防控、警情研判及指挥决策已成为当前公安业务中亟需解决的难题。
针对这些难题,我们就需要建立面向公安大数据的处理平台。
有鉴于此,我们从广州市公安局对大数据的应用出发,研究分析出一种用于解决视频及图像等大数据存储、分析处理等问题的公安大数据处理平台。
该平台通过综合运用云计算、云存储、并行数据挖掘等技术,针对图像、视频等非结构化数据开展存储、挖掘和联动分析等应用研究。
1大数据应用技术及公安业务现状分析从2009年开始,“大数据”逐渐成为互联网信息技术行业的热门词汇。
美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。
“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。
不过,在工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
而另外3项关键技术创新工程,包括信息感知技术、信息传*首届公安信息化建设优秀论文评选活动优秀论文2014(3)吕益民等:公安大数据处理平台的探索输技术、信息安全技术,也都与“大数据”密切相关。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
国内学者针对大数据分析平台应具备的重要特性进行研究,并对当前的主流实现平台———并行数据库、MapReduce及基于两者的混合架构进行了分析归纳;基于虚拟化管理技术和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台,并应用于电网海量数据的处理、信息情报机构内部数据挖掘、电信运行数据分析处理等[3]。
在数据挖掘方法上,针对云计算环境下的大数据存储,提出基于协同计算模型的分布式数据的协同管理和任务的协同调度方法[4];基于网格划分的大数据离群点监测方法[5];以及基于粗糙集、聚类分析等方法的大数据挖掘方法[6];部分学者针对大数据的压缩技术进行了研究。
通过对国内在大数据方面的研究工作进行分析,可以发现目前大数据的研究还比较零散,在大数据处理平台架构上大多基于Ha-doop技术,大量的研究集中在大数据的挖掘分析方法上,还没有形成支撑大数据处理平台开发的相关技术体系。
而数据挖掘技术在公安工作中的研究与应用尚处于起步阶段,许多公安业务信息系统还停留在初级处理水平,缺乏综合性的开发应用,智能化的分析研判,科学性的决策预警。
公安业务领域中治安系统、智能交通视频数据呈爆发性增长,具有非结构化等大数据典型特征,也是政府部门重要的信息资源。
各类视频监控系统仍在进行补充建设及高清化处理能力,预计未来广州市公安业务领域每天将产生PB规模的视频及图像数据。
面对海量的公安业务数据,我们面临以下难题:1)如何从海量数据中获取支持公安业务的关联特征?2)如何对公安视频类大数据进行高效组织、智能分析处理?3)如何应用大数据辅助公安人员快速开展治安防控、警情研判及指挥决策?同时,如何发掘公安信息资源价值,提高公安大数据的利用率也是当前公安大数据应用关注的重点问题。
结合以上需求分析,针对公安领域视频、图像数据规模大、数据关联性强等特点,亟需公安大数据处理平台的系统性研究。
2公安大数据支撑平台体系架构针对公安领域视频、图像等非结构化数据所具有的容量大、多样性、非结构化、冗余度大等特点,以及实际业务中快速开展大数据分析处理的应用需求,研究提出支持横向扩展,具有分布、并行、高效特点的基于云计算的大数据处理平台的体系架构。
公安大数据处理支撑平台在逻辑上表现为一种层次架构,自上而下包括应用层、数据处理层、数据存储层、中间件层和资源层。
而相关的标准、规范和安全机制贯穿所有层次。
应用层:面向视频、图像等大规模数据的公安业务应用,提供智能监控、事态预测、统计分析、分析模拟、指挥决策等核心应用服务。
数据处理层:面向应用,在大数据分布式存储和管理的基础上,基于MapReduce技术框架,提供视频、图像大数据的索引描述、特征提取、并行数据挖掘、智能关联分析等支撑服务。
数据存储层:实现大数据的高效存储和高并发访问控制,基于Hadoop技术体系,综合应用HDFS、Hbase、Hive,提供数据检索、存储监控、负载均衡、容灾备份等支撑服务,实现结构化、非结构化数据的集中管理。
中间件层:为支撑平台提供运行所需的基础中间件,主要包括虚拟化服务化中间件、资源管理与集成中间件、分布式存储中间件。
资源层:为大数据平台的运行提供基础支撑,包括存储服务器、计算服务器等高性能硬件资源,结构化和非结构化的数据资源,以及各类感知资源。
3构建公安大数据平台要解决的关键问题构建一个能够有效支撑广州市公安局大吕益民等:公安大数据处理平台的探索2014(3)数据应用的平台,需要着重考虑应用模式、标准规范、海量存储、海量数据并行挖掘等几个关键问题:3.1公安大数据处理平台应用模式的问题如何全时空地对治安系统、智能交通系统产生的视频图像等大数据进行分析处理,就需要解决公安大数据处理平台应用模式的问题。
我们初步考虑将治安监控视频、图像和卡口的视频、图像等异构的数据资源接入大数据处理平台,通过分布式存储和并行数据挖掘,提供在线实时监控模式和离线统计分析模式两种应用模式,对各类公安大数据全方位地进行实时和离线分析处理。
如图1所示。
3.2大数据处理应用标准规范的问题“标准先行”已成为当前各行业数据应用的共识,有了标准数据才能共享,才能支撑公安大数据处理平台应用的开展。
本文从技术标准体系及应用标准体系两个方面研究大数据的相关标准规范,包含各类大数据资源的接入标准,大数据处理平台的各类接口标准,各类大数据处理服务的标准等,此外还包括大数据的应用标准,如对接相关公安行业标准,各类平台应用的安全标准等。
大数据处理应用标准体系如图2所示。
图1大数据分析处理的应用模式图2大数据处理的标准体系3.3大数据海量存储问题“大数据”来袭时,传统的数据存储方式已不能满足要求,需要开展分布式存储的研究,大数据分布式存储主要考虑以下几个问题:3.3.1存储资源管理方法为了解决集群存储环境下的存储资源管理问题,采用存储资源映射方法通过在物理存储资源和虚拟存储资源请求之间建立合理的映射关系,来进行有效的存储资源管理。
本文提出合理的集群存储资源映射方法,将虚拟存储资源请求均匀地分配到节点上,然后进行节点内部设备级别的资源映射。
3.3.2支持多用户的资源使用和存储环境隔离机制当用户数量增多,有限的存储资源已经不能满足用户对该类资源的需求时,用户与资源的矛盾就会突显出来。
解决这种矛盾的最有效办法就是采取有效资源共享机制,将有限数量的资源按需动态共享给多个用户使2014(3)吕益民等:公安大数据处理平台的探索用。
此外,在存储资源共享的同时,从用户角度看每个应用系统是独立的,不依赖于其他应用系统运行而运行,也不受其他应用系统和资源的运行结果影响,因此需要存储环境隔离技术来屏蔽各个应用系统对存储资源运行的互相影响。
我们利用存储虚拟化技术来整合不同厂商的存储系统。
通过隔离主机层与物理存储资源,存储虚拟化技术可以将来自于不同存储设备(即使是不同厂商的设备)的存储容量汇集到一个共享的逻辑资源池中,这样存储的管理就更容易了。
任何单体存储阵列所创建的物理卷的容量都是有限制的,而多个异构的存储系统联合在一起就可以创建出一个更大的逻辑卷。
3.3.3基于Hadoop的大数据存储机制大数据的各类描述方式的多样性,存在着结构化数据、半结构化数据和非结构化数据需要进行处理。
对于结构化数据,虽然现在出现了各种各样的数据库类型,但通常的处理方式仍是采用关系型数据知识库进行处理;对于半结构化和非结构化的数据,Ha-doop框架提供了很好的解决方案。
Hadoop分布式文件系统HDFS是建立在大型集群上可靠存储大数据的文件系统[7],是分布式计算的存储基石。
基于HFDS的Hive和HBase能够很好地支持大数据的存储。
具体来说,使用Hive可以通过类SQL语句快速实现MapReduce统计,十分适合数据仓库的统计分析。
HBase是分布式的基于列存储的非关系型数据库,它的查询效率很高,主要用于查询和展示结果;Hive是分布式的关系型数据仓库,主要用来并行处理大量数据。
将Hive与HBase进行整合,共同用于大数据的处理,可以减少开发过程,提高开发效率。
使用HBase存储大数据,使用Hive提供的SQL查询语言,可以十分方便地实现大数据的存储和分析。
其原理如图3所示。
3.4海量数据并行挖掘技术数据挖掘技术已经在各行业数据分析处理方面得到成功应用,针对大数据的特征,需要对现有数据挖掘技术进一步改进和完善,下面主要考虑三个方面的技术问题。
3.4.1面向多源整合的大数据索引和描述技术要实现大数据的并行挖掘,首先就需要建立多源数据的索引和描述,常规索引建立主要分为三个方面:公共安全数据分类索引构建,空间数据R树索引构建,层次索引树建立。
大数据具有多类别的特点,针对这一特征,建立以类别为内容的分类索引,通过分类索引的综合查询到所需的专题数据。