当前位置:文档之家› 一种多源异构数据融合技术在PGIS系统中的研究与应用

一种多源异构数据融合技术在PGIS系统中的研究与应用

一种多源异构数据融合技术在PGIS系统中的研究与应用周凯1,2(1.四川省公安科研中心,四川成都610015;2.四川大学,四川成都610064)[摘要]警用地理信息系统是公安机关维稳处突、打击违法犯罪行为的重要技术支撑平台。

多源异构数据是维护该平台安全稳定、高效运行的底层核心数据。

文章以某PGIS平台为例,针对多源异构数据使用中遇到的数据不兼容、格式不统一、属性数据非空间化、空间数据格式转化等问题,提出了一种多源异构数据的融合模型。

通过属性清洗、属性追加、空间匹配、格式转化等流程化操作,实现了空间与非空间、结构与非结构等数据的融合使用。

并可以基于PGIS平台,统一加载、统一展示、统一应用。

通过利用该技术,挖掘了数据的利用价值,为类似平台数据处理提供了技术参考与经验。

[关键词]多源异构;PGIS;数据融合[中图分类号]P208[文献标识码]A[文章编号]1674-5019(2019)02-0051-05A Multi-Source Heterogeneous Data Fusion Technology in PGISSystem Research and ApplicationZHOU Kai1引言数据融合的本质是多方数据协同处理,以达到减少冗余、综合互补和捕捉协同信息的目的。

该技术已成为数据处理、目标识别、态势评估以及智能决策等领域的研究热点[1]。

通过数据融合,能够将研究对象获取的所有信息全部统一在一个时空体系内,得到比单独输入数据更多的信息。

警用地理信息系统(Police Geographic Information System,简称“PGIS”)是多源异构数据技术、地理信息技术和公安系统业务工作高度结合的产物[2]。

利用多源异构数据融合技术的PGIS平台,可以实现跨省、市、县等行政区域的一张图展示,可达到资源的高度统一利用。

但在实际工作过程中,支撑PGIS平台的基础地理信息数据种类繁多,从平面线划图到精细化三维成果,从空间数据到非空间数据,从海量兴趣点数据(poi)到各种图像数据应有尽有。

面对大数据时代海量的数据资源,如何保障PGIS平台业务数据、测绘地理信息数据、“一标三实”等数据高效利用,互补短板,统一承载于警用地理信息平台,协同发挥数据最大价值,提高数据在分析决策中的应用价值,是当下PGIS平台发展研究的热点问题[2-3]。

2研究方法2.1多源异构数据融合技术数据集成是数据融合的基础,融合是集成基础上的深化应用,通过数据集成与融合,可派生出更高更有价值的新数据,从而得到数据的更多利用价值[4]。

马茜等人[5]基于物联网背景下多源数据获取、存储等存在的不足,提出了一种约束数据质量的异构多源多模态感知数据获取方法,提高了数据精度,降低了网络资源消耗。

韩双旺[6]基于XML语言实现异构多源空间数据的映射和模式转换,利用WebGIS技术实现了空间数据的集成和互操作。

惠国保[7]结合深度学习技术,构思了一种泛化性强的多源异构影像数据融合深度学习模型,实现了深度学习技术在多源异构数据方面的信息提取与挖掘。

李文闯等人[8]提出了一种基于可交换图像文件(EXIF)原理以数字图像为载体融合空间位置信息和一般形式属性的数据模型,实现了空间位置和一般属性嵌入到数字图像物理结构,达到了数据融合的效果。

本文不仅需要解决各种数据的属性嵌套、数据集成,而且要解决空间数据和非空间数据、空间数据与空间数据、结构数据与非结构数据之间的转化问题。

因此鉴于实际需求,本文提出了基于FME平台下自主构建多源异构数据引擎,开展数据融合,实现多源异构数据的集成统一、高效利用。

2.2PGIS多源异构数据目前PGIS平台从空间属性划分,主流的矢量数据格式有shp格式、dwg等格式。

栅格数据有tif格式、img格式、grid等格式。

三维数据有osgb格式、3dml格式、s3c等格式。

非空间数据有jpg格式、doc等格式。

从结构划分,有mdb格式、gdb等结构化的数据库格式,还有非结构化属性数据,例如txt格式、doc格式、xsl格式、xml格式、swf格式等。

为保证上述数据的统一加载、高效实用,必须寻找标准的数据转换方法,统一数据标准,加载入库,便于PGIS平台使用。

同时在加载和应用中还存在数据清洗、属性追加、格式转化、坐标定义、空间投影等问题。

因此,鉴于PGIS平台目前的数据情况,只有充分了解多源异构数据特点,找到数据之间的共性,才能找到解决办法。

2.3多源异构数据模型多源异构是指数据获取方式丰富多样,也包括数据格式多种多样。

从数据结构上分,包括结构数据和非结构数据。

从空间地理属性上分有空间数据和非空间数据。

其中空间数据又包括矢量数据和栅格数据,二维数据和三维数据等。

同时,在矢量数据中又可以细分为不同矢量化格式、不同版本、不同平台支持的格式,同理其他空间数据也可据此细分。

为了实现上述数据的融合,首先必须要建立不同类别数据的转换模型,基于转换模型,方可实现数据间的高效流转。

如图1所示,WANG等人[9-10]提出了一种数据转换模型,该模型综合数据特征因子和信息源质量,基于语义知识和专业领域技术知识,利用投票法解决数据融合的兼容问题。

图1典型多源异构数据融合模型针对上述模型和PGIS平台数据特点,本文提出一种基于FME支撑下的自主构建多源异构数据融合模型,旨在通过分析PGIS系统业务模态,对各种数据按照统一数据引擎进行融合,最终提交到PGIS平台使用。

该技术方案基于OpenGIS组织提出的新的数据转换理念“语义转换”,通过提供在转换过程中重构数据的功能,实现了超过250种不同空间数据格式(模型)之间的转换,为进行快速、高质量、多需求的数据转换应用提供了高效、可靠的手段。

鉴于PGIS平台存在大量的空间数据、非空间数据以及二、三维格式的海量数据,本文的研究技术路线如图2所示。

基于FME软件平台,实现上述结构数据和非结构数据的数据属性清洗、修改、追加、格式兼容性转化、数据坐标定义、数据语义定义等流程化操作,分门别类按照PGIS平台标准,存入该PGIS平台三大数据库[11-13]。

3实验与分析3.1实验数据及方案实验采用PGIS平台建设以来某市提交的多源异构数据,数据不仅包括空间地理信息数据,还包括非空间数据。

即有表格数据等数据。

空间数据又有不同格式的矢量数据、栅格数据,同时还有不同坐标系的矢量栅格数据。

同时还有照片数据和全景影像数据、视频数据等,具体实验数据情况见表1所示。

图2PGIS平台多源数据融合技术整体流程表1实验采用的多源异构数据类型按照空间关系分类按数据结构分类空间数据非空间数据结构数据非结构数据shp、dwg、e00、wgs84数据、cgcs2000数据、GeoTiff、img等jpg、tiff、png、swf、doc、txt、xls等mdb、gdb、Oracle数据库数据等文档、文本、图片、xml、html、图像、音频、视频等基于PGIS平台功能和业务应用特点,首先按照空间数据和非空间数据对汇交的上述数据开展分析,并按照图2所示“三大库”进行归类,归类完毕后再利用多源数据融合引擎进行相关转化融合,但是在具体转化中需要依据数据的应用方式和特点进行不同操作,具体融合过程可参照“三大库”分类进行。

3.1.1警用业务数据库警用业务数据库存储和使用的数据,大多为非结构、非空间化数据,里面有文本文档、音频、视频、各种统计表格等数据。

以普通xml格式数据为例,具体技术流程如图3所示。

当收集到大量的元数据,利用属性检查工具(AttributeClassifier)测试源属性的内容是否完全符合某个特定的字符类别,并且测试是否符合数据汇交要求,如果满足则利用xml格式转化(XMLFormatter)工具对xml 数据整理,通过设置一定的规则删除不符合规则的数据,再利用数据解码工具(TextEncoder)转为标准的编码格式便于数据存储。

当转化完毕再利用属性转移工具(FeatureMerger)提取需要的属性/图形的要素,最后利用空间数据引擎接口(ArcSDEQuerier)实现增、删、查、改等操作并存入空间数据库中。

其他格式的非空间数据也是通过模型,利用FME软件的具体功能接口,可实现非空间数据的融合应用。

3.1.2基础地理信息数据库警用基础地理信息数据库存储和使用的数据,大多为空间数据,因此多源异构引擎需要侧重考虑数据格式的归一化、坐标的统一以及空间匹配等技术要点。

该数据库的多源异构空间地理信息数据融合以某市公安机关汇交的84坐标的dwg矢量格式数据和Excel格式的poi数据为例,具体技术流程如图4所示。

图3非结构、非空间数据的融合应用范例图4空间矢量数据融合应用范例首先通过FME软件标准读接口(Reader)读入dwg格式需要转换的某一图层,利用计数(Counter)接口为每一条需要转化的数据标注一条属性并为其赋值。

依次通过该转换器的每个要素的属性值都增加一次。

通过邻域查找功能(NeighborFinder)查找给定范围内的要素值,并利用列表(ListExploder)的方式将输入的每一条数据的属性值作为备用属性,并利用排序接口(Sorter)将选中的属性字段值进行要素排序,同时利用属性重复性检测接口(DuplicateRemover)实现属性数据的唯一性排序。

据此将转化的数据和邻域内查询的数据利用要素连接接口(FeatureMerger)实现数据拼接,并基于最终警用基础地理信息数据库的要求为转入的图形要素追加标准的属性,通过属性创建接口(AttributeCreator)为所有输入该接口的要素创建一组新属性,这些属性是在转换器的参数设置框中定义,属性可用于分配一组要素的唯一标识、数值型ID值。

通过上述操作,就可以得到从dwg格式数据到shp格式数据的转换,同时做到了属性数据的清洗、重新分配,最终实现图元统一、图形与属性融合目的。

3.1.3标准地址数据库警用标准地址数据库则是标准的街路名地址与空间位置的结合,需要考虑采用“语义转化”引擎,将对应的语义转换为标准的空间位置,最终存储在警用标准地址数据库中。

例如汇交的数据为“四川省成都市人民北路二段198号3栋”,该数据是标准的地址,但是无法和空间坐标相关联。

通过“语义转换”引擎读入标准地址的excel格式数据,利用属性过滤(AttributerFilter)功能将标准地址拆分为“四川省”“成都市”“人民北路二段”“198号”,再利用属性数据查询功能,将定义的“语义关系”进行映射。

例如四川的空间位置大致在东经97°21′~108°31′,北纬26°03′~34°19′之间,通过语义过滤接口可实现过滤和定位,同理成都市坐标在102°54′~104°53′和北纬30°05′~31°26′之间,当拆分的第二字段检索到“成都市”后可实现进一步定位,以此类推最终实现小区级别的定位。

相关主题