当前位置:文档之家› 大数据时代的空间数据挖掘综述

大数据时代的空间数据挖掘综述

1) 多数空间数据挖掘算法是由一般的数据挖掘算法 移植而来,并没有考虑空间数据存储、处理及空间数据本 身的特点。空 间 数 据 不 同 于 关 系 数 据 库 中 的 数 据,它 有 其特有的空间 数 据 访 问 方 法,因 而 传 统 的 数 据 挖 掘 技 术 往往不能很好地分析复杂的空间现象和空间对象。
摘 要: 随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,
介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并
指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。
关键词: 大数据; 空间数据挖掘; 云计算
图 2 空间数据挖掘的基本过程 Fig. 2 The basic process of spatial data mining
1. 1 空间挖掘理论和算法研究
经过近年来 的 研 究,空 间 数 据 挖 掘 继 承 和 发 展 相 关 的基础学科( 如机器学习、统计学等) 已有成果,并探索出 独具特色的理论体系,但也存在一些问题,主要表现为以 下几点:
1 传统空间数据挖掘存在的问题
1989 年 8 月于美国底特律市召开的第一届国际联合 人工智能学术 会 议 上,首 次 出 现 了 从 数 据 库 中 发 现 知 识 ( Knowledge Discovery in Database,简称 KDD) 。空间数据 挖掘研究比一般的关系数据库或事务数据库的数据挖掘 研究晚。1994 年在渥太华举行的 GIS 国际会议上,李德 仁院士第一次提出了从 GIS 数据库中发现知识 ( Knowledge Discovery from GIS,简称 KDG) 的概念,并系统分析了 空间知识发现的特点和方法,认为它能够把 GIS 有限的数 据变成无限的知识,精炼和更新 GIS 数据,促使 GIS 成为 智能化的信 息 系 统。 从 此,空 间 数 据 挖 掘 就 成 为 数 据 库 和信息决策领 域 的 一 个 重 要 研 究 方 向,虽 然 取 得 了 一 定 的进展,但还 有 很 多 问 题 需 要 研 究。 空 间 数 据 挖 掘 的 基 本过程如图 2 所示。
2) 空间数据含有随机不确定性和模糊性,但目前的 空间数据挖掘方法对空间数据的不确定性处理还存在一
些问题。有的 方 法 根 本 没 有 考 虑 空 间 数 据 的 不 确 定 性; 有的方法考虑了随机不确定性; 有的方法考虑空间数据 的模糊性。还没有一种方法既能较好地考虑空间数据随 机不确定性又考虑空间数据模糊性。
3) 空间数据挖掘的智能化。目前空间数据挖掘已经 应用了人工神 经 网 络 等 智 能 算 法,但 现 有 的 空 间 数 据 挖 掘系统的智 能 化 程 度 比 较 低,还 需 要 进 一 步 提 高。 例 如 依据数据的特 点 自 动 选 择 合 适 的 挖 掘 算 法,在 此 过 程 中 不需要或者需要少量的人工干预。
2) 空间数据挖掘系统适用范围有限。国际上最著名 且有代 表 性 的 通 用 SDM 系 统 有: GeoMiner,Descartes 和 ArcViewGIS 的 S_PLUS 接口。以上 SDM 系统的共同优点 是可以把传统 DM 与地图可视化结合起来,提供聚类、分 类等多种挖掘 模 式,但 它 们 在 空 间 数 据 的 操 作 上 实 现 方 式不尽相同。Descartes 是专门的空间数据可视化工具, 它和 DM 工具 Kepler 两者联合在一起才能完成 SDM 任 务。GeoMiner 是在 MapInfo 平台上进行二次开发而成,系 统庞大,造成较大的资源浪费。S_PLUS 的局限在于,它 是一种解释性语言( Script) ,功能的实现比用 C 和 C + + 直接实现要慢得多,所以只能在非常小的数据库中使用。
在这些数据 中,与 空 间 位 置 相 关 的 数 据 占 了 绝 大 多 数。传统的空间知识发现的科研模式在大数据情境下已 经不再适用,原 因 是 传 统 的 科 研 模 型 不 具 有 普 适 性 且 支 持的数据量受限,受到数据传输、存储及时效性需求的制 约等。为了从 存 储 在 分 布 方 式、虚 拟 化 的 数 据 中 心 获 取 信息或知识,这 就 需 要 利 用 强 有 力 的 数 据 分 析 工 具 来 将
以上各种获 取 手 段 和 途 径 的 汇 集,就 使 每 天 获 取 的
数据增长量达到 GB 级、TB 级乃至 PB 级。如中国遥感卫 星地面站现在保存的对地观测卫星数据资料达 260 TB, 并以 每 年 15 TB 的 数 据 量 增 长。比 如 2011 年 退 役 的 Landsat5 卫星在其 29 年的在轨工作期间,平均每年获取 8. 6 万景影像,每天获取 67 GB 的观测数据。而 2012 年 发射的资源三号( ZY3) 卫星,每天的观测数据获取量可以 达到 10TB 以上。类似的传感器现在已经大量部署在卫 星、飞机等飞行平台上,未来 10 年,全球天空、地空间部署 的百万计传感器每天获取的观测数据将超过 10 PB。这 预示着一个 时 代 的 到 来,那 就 是 大 数 据 时 代。 大 数 据 具 有“4V”特性,即数据体量大( Volume) 、数据来源和类型 繁多( Variety) 、数据的真实性难以保证( Veracity) 、数据增 加和变化的速度快 ( Velocity) 。对 地 观 测 的 系 统 如 图 1 所示。
1. 2 空间数据挖掘技术研究
目前,在 空 间 数 据 挖 掘 系 统 研 究 过 程 中 存 在 以 下 问题:
1) 空间数据集成问题。许多空间数据集中包含着复 杂的数据类型,如 关 系 型 数 据、半 结 构 化 数 据、非 结 构 化 数据、复杂的 空 间 数 据 对 象、超 文 本 数 据 和 多 媒 体 数 据、 时空数据、视频数据、声音数据等,局域网和广域网、国际 互联网上更是连接了更多的空间数据源并形成了巨大、 变化、分布式、分 层、异 构 的 空 间 数 据 仓 库。 具 有 不 同 数 据语义,来自不同的数据源,随时都有可能改变的空间数 据集,对空间数据挖掘提出了新的挑战,目前并不存在一 个强有力的空间能使数据挖掘系统有效地处理这些复杂 的数据类型。
5) 私有性、安全性与空间数据挖掘问题。知识发现 可能导致对于 私 有 权 的 入 侵,研 究 采 取 哪 些 措 施 防 止 暴 露敏感信息是十分重要的。当从不同角度和不同抽象级 上观察空间 数 据 时,数 据 安 全 性 将 受 到 严 重 威 胁。 这 时 空间数据 保 护 和 空 间 数 据 挖 掘 可 能 会 造 成 一 些 矛 盾 的 结果。
第 37 卷 第 7 期 2014 年 7 月
测绘与空间地理信息
GEOMATICS & SPATIAL INFORMATION TECHNOLOGY
Vol. 37,No. 7 Jul. ,2014
大数据时代的空间数据挖掘综述
马宏斌1 ,王 柯1 ,马团学2
( 1. 信息工程大学 地理空间信息学院,河南 郑州 450000; 2. 空降兵研究所,湖北 孝感 432000)
第7 期
马宏斌等: 大数据时代的空间数据挖掘综述
21
系统不够成熟,属于实验阶段,并未投入实际应用和后续 开发。
4) 空间挖掘方法和用户交互问题。由于不同的用户 可能对不同类 型 的 知 识 感 兴 趣,空 间 数 据 系 统 应 该 覆 盖 范围很广的数 据 分 析 和 知 识 发 现 任 务,在 相 同 的 空 间 数 据上发现不同的知识,有必要提供交互式手段,开发不同 的空间数据 挖 掘 技 术。 而 目 前,空 间 数 据 挖 掘 知 识 发 现 系统普遍交互 性 不 强,在 知 识 发 现 过 程 中 很 难 充 分 有 效 地利用领域专 家 知 识,用 户 不 能 很 好 地 掌 控 空 间 数 据 挖 掘过程。
收稿日期: 2014 - 01 - 22 作者简介: 马宏斌( 1982 - ) ,男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。20ຫໍສະໝຸດ 测绘与空间地理信息2014 年
图 1 对地观测系统 Fig. 1 Earth observation system
数据“坟墓”变成“知识金块”。这一需求使得数据挖掘在 大数据时代 再 度 受 到 人 们 的 重 视。 同 时,大 数 据 时 代 的 研究方法和数据处理技术也给空间数据挖掘研究的发展 带来了新的机遇。
4) 空间数据挖掘质量评价。空间数据挖掘的知识很 多,但挖掘的程度如何、挖掘的效益如何等这些问题目前 还没有进行研究。空间数据挖掘结果可能会发现数以千 计的模式,其中 有 些 模 式 是 错 误 的,对 于 给 定 的 用 户,许 多模式未必是 感 兴 趣 的,因 此,如 何 提 供 给 用 户 有 用 的、 确定的和可表示性的知识是一个需要研究的课题。
0引言
随着地理空 间 信 息 技 术 的 飞 速 发 展,获 取 数 据 的 手 段和途径都得 到 极 大 丰 富,传 感 器 的 精 度 得 到 提 高 和 时 空覆盖范围 得 以 扩 大,数 据 量 也 随 之 激 增。 用 于 采 集 空 间数据的可能 是 雷 达、红 外、光 电、卫 星、多 光 谱 仪、数 码 相机、成像光谱 仪、全 站 仪、天 文 望 远 镜、电 视 摄 像、电 子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能 是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来 自计算机、网络、GPS,RS 和 GIS 等技术应用和分析空间 数据。特别是近些年来,个人使用的、携带的各种传感器 ( 重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、 温度传感器、红外线传感器等) ,具备定位功能电子设备 的普及,如 智 能 手 机、平 板 电 脑、可 穿 戴 设 备 ( GOOGLE GLASS 和智能手表等) ,使人们在日常生活中产生了大量 具有位置信息的数据。随着志愿者地理信息 ( Volunteer Geographic Information) 的出现,使这些普通民众也加入到 了提供数据者的行列。
相关主题