北京地理编码数据库系统及标准地址匹配引擎成功案例加入时间:2003-11-19 11:08:30 admin 点击:2152
地址编码概念
随着“数字城市”及“数字社区”概念的推广,这些“数字XX”的含义中很重要的一方面就是建立一个以空间位置为主线,将各种信息组织起来的复杂系统,为各种应用提供
快速、准确、充分和完整的信息。
地址编码(Geocoding)是将地址映射成地理坐标的过程。
首先可根据企事业单位的通讯地址自动生成“路名+门牌或小区+楼号”形式的标准地址;然后根据标准地址,自动生成地图
坐标,从而建立地址编码库。
系统目标
系统的目标是利用空间定位技术及地址匹配技术,建立城市地址编码库,实现统一空间坐标,整合各种信息资源,在市政府各部门分散的信息资源库之间建立有机联系,为各政府部门实现信息共享、交换和整合提供基础信息支撑。
地址编码工作流程
系统功能及结构
全部系统由多个运行于信息中心Intranet上的模块组成,基于组件开发,可运行在
浏览器中。
(一)信息中心Intranet上的网络工作系统
系统管理工具:由系统管理员使用,主要是用户账号管理。
标准地址录入系统:由数据录入人员使用。
负责对局部区域内的地址进行校验、标准化和编辑录入。
使用局部影像图数据和矢量数据作为录入背景。
地址数据处理系统:由数据处理人员使用。
主要用于对数据提供的原始录入数据进行校对和处理。
包括利用中心库的数据进行地址数据校对;空间数据编辑修改、空间数据变换、空间数据拼接等。
系统处理后的结果地址进入等待入库状态。
地址库管理维护系统:由中心数据管理人员使用。
主要提供地址一致性、合法性更全面的自动检验,地址编码分配,地址入库;地址匹配索引建立和更新;地址检索效率调节,
制作下发数据等功能。
兴趣点生成系统:将黄页的数据利用地址正向匹配,批量自动转换入库。
(二)展示系统
展示系统:基于B/S结构的应用界面,利用地址匹配引擎的二次接口开发,结合背景图形数据,提供地址的双向查询功能(由标准地址匹配到地图上,由图上位置匹配到标准地
址)。
一、地址匹配技术
地理信息系统技术的应用已经从专业领域走到社会生活和工作的方方面面,从城市的规划管理,到投递员最经济的投递线路,凡是与地理位置相关的信息,都可以利用地理信息系统技术来管理。
没有地图,就无从谈及地理信息系统。
由此,引申了这样一个问题——这些地图从哪里来?
我们通常说的地图,是由国家专业的职能部门来完成各种比例尺地图的生产和制作,这些地图表现了基本的地理面貌——山川河流的分布,城市道路、街区分布等等。
但是,仅仅是这样地图信息是远远不能适应我们的需求,很多人文、经济信息都与地理位置相关,而这些信息是无法在基础地图中得到的。
这些信息的原始载体都是地址——学校、医院、各类工商企业、居住地址等等,这些地址信息都在相关的专业部门管理,但这些载有地理位置的地址仅仅是文字描述,并没有转化成地理空间位置,这些信息的空间地理位置图该怎样得到?
传统的方法,我们称之为“扫街”,就是通过人工的方法,到实地去采集地址的坐标(如利用手持GPS定位仪等等),然后再将这些采集的坐标点制作成图。
“扫街”的方法有很多弊端,最明显的就是生产周期长,人力资源成本高。
而且,对于每个单位来说,扫街采集地址位置还存在实施的难度,对于大数据量的点位分布图,几乎无法满足实际应用的需要
地址匹配技术就是用来解决这个问题的。
地址匹配是将文字性的描述地址与其空间的地理位置坐标建立起对应关系的过程。
地址匹配服务按照特定的步骤为地址查找匹配对象。
首先要将地址标准化;然后服务器搜索地址匹配参考数据,查找潜在的位置;根据与地址的接近程度为每个候选位置指定分值,最后用分值最高的来匹配这个地址。
很显然,地址匹配最重要的是将地址标准化,建立地址编码数据库。
虽然国外有不少商业化的地址匹配引擎服务,但这些技术都是建立在国外地址模型基础上,完全不适合使用象形文字中国。
因为地址匹配服务必须本地化,必须建立不同地区的地址编码数据库。
二、地址匹配引擎
北京市信息资源管理中心会同多家科研机构经过多年的研究论证和实践,在国内外已有的相关研究基础上,研究适合于北京市市情的地址编码模型与地址匹配方法,将北京市现有地址实体包括地名、路名、楼名、门址等进行空间化、数字化和规范化,建设了较为完备的地址编码数据库。
开发出适合北京地区地址搜索匹配算法和地地址匹配软件。
为各界提供地址查询、地址匹配服务,为整合空间和社会经济资源提供有力的工具。
现阶段正在开发的第二代地址匹配引擎,在第一代引擎的基础上进行算法和功能的优化,除了通常的批量匹配、正向反相匹配、单条匹配之外,为了使用适应北京地址的复杂性,系统还增加了丰富的地址预处理功能,如繁体简体转换、半角全角转换、汉字和数字转化等等,对匹配条件也可设置选择,特别是别名处理功能,抗干扰处理功能,多次匹配功能,以这些丰富的手段和方法来提高地址匹配得准确率。
目前,北京市地址编码数据库涵盖了的北京市区及远郊区县60余万条地址,能满足绝大多数行业对地址匹配技术的需要。
同时,地址匹配具有很高的效率,匹配速度达到了500条地址/分钟。
由于采用了抗干扰处理、别名处理、多次匹配等技术,地址匹配的准确度能达到91%以上。
至今,按“共建共享”模式,通过地址匹配等技术手段,已完成了500个POI图层数据的生产制作。
500个图层数据涉及市发改委、市教委、市科委、市民政局、市财政局、市市政管委、市交通委、市商务局、市文化局、市卫生局、市工商局、市质监局、市环保局、市水务局、市农业局、市广电局、市新闻出版局、市体育局、市统计局、市园林绿化局、市安全监局、市旅游局、市信息办、市应急办、宣武区信息办和中关村管委会共26个部门的业务图层数据,有力地促进了相关部门信息资源梳理及其“职责清”、“数据准”工作的开展。
这些图层涉及了机关团体、文教卫生、食宿娱乐、金融保险、工商质监、环保水务和应急危险源等诸多丰富的政务信息,为下一步信息资源的综合开发、利用奠定了坚实的基础。