第 27 卷 第 6 期 海 洋 通 报 Vol. 27,No.6 2008 年 12 月 MARINE SCIENCE BULLETIN Dec. 2008
收稿日期:2008-05-28 基金项目:国家海洋局 908 专项 ( 908-03-01-13 )
海洋数据挖掘技术应用研究 魏红宇1, 2,张峰2,李四海2 ( 1.中国海洋大学,山东 青岛 266003;2.国家海洋信息中心,天津 300171 )
摘 要:在研究中外数据挖掘技术在海洋应用的现状和进展的基础上,结合海洋数据特点及应用需求,提出了海洋数据挖掘技术应用模式,并介绍了基于计算机技术、数据库技术、GIS 技术的海洋数据挖掘应用系统的主要功能和系统架构。最后通过对赤潮预测的数据挖掘应用分析,验证了系统应用的科学合理性。 关键词:海洋;数据挖掘;系统应用;赤潮 中图分类号:P717;TP311 文献标识码:A 文章编号:1001-6932(2008)06-0082-0006
数据挖掘 ( Data Mining ) 技术的概念,产生于 20 世纪 90 年代初,它是指从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[1]。通俗地讲,数据挖掘就是利用各种分析工具在海量数据中寻找和发现模型和数据间关系的过程,可以利用这些模型和关系对数据的潜在规律做出预测。在实际应用中,数据挖掘概念有两个方面的意思。一方面它有数据提取的含义,即从各种类型的原始数据中精确定位符合各种查询条件的数据集;另一方面,它有数据处理的含义,即利用各种相关的模型和算法,对提取到的数据集进行各种分析处理,从而得到想要的信息和规律。目前,常用的数据挖掘算法主要有聚类分析、回归分析、主成分分析、插值分析、关联分析、神经网络等。 经过多年的海洋调查和资料收集,我国已拥用了大量珍贵的海洋科学数据和相关信息,这些数据包括海洋水文、海洋表面气象、海洋生物、海洋化学、海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、海洋经济、海洋资源等各个海洋学科领域,数据总量多达千亿字节 [2]。如何有
效地利用专家知识及各类统计分析算法、模型,对各学科类型的海洋数据资源进行数据挖掘,从中发现有用信息,分析海洋现象并预测海洋规律,为海洋科学研究和综合管理提供信息决策支持一直是广大海洋科技工作者的重要研究方向。经过多年的不断努力,国内外关于数据挖掘技术在海洋领域的应用研究已经取得了许多实质性进展。如 Wooley B 等人将海洋数据作为数据源开展了分类规则挖掘的研究[3];Ding Q 针对遥感图像的关联规则挖掘进行了深入研究[4];冯剑丰研究了国内外的主要赤潮预测方法:单因子指数法、综合指数法、建立赤潮生态仿真模型、运用人工智能技术进行预测等[5];杨建强探讨了应用人工神经网络原理进行赤潮预报的方法,指出人工神经网络方法在模拟和预测方面优于传统的统计回归模型,具有较强的模拟预测能力及实用性[6]等。由此可见,对于海洋领域的数据挖掘技术研究已经由单纯理论研究进入到应用研究的阶段,并已取得了一些实质性的研究成果。但是,由于海洋数据特征的复杂性及海洋专题应用研究的复杂情况,海洋数据挖掘技术离大规模地业务化应用推广还有一定距离。
1 海洋数据挖掘技术应用需求
对于海洋领域的数据挖掘技术的应用研究较其它领域更为复杂,数据挖掘的成熟应用与业务化推广还存在许多困难,这与海洋数据自身特点的复杂性有关,概括来看,海洋数据大致有以下一些特点: a ) 数据类型复杂多样。海洋数据包括海洋基础环境数据、海洋遥感数据、海洋经济统计数据等几个大类数据。而每个大类数据下又有很多子类。比如:海洋环境数据又分为海洋水文、海洋气象、海洋物理、海洋化学、海洋生物、海洋地质、海洋地形与海洋地球物理等子类,每个子类又可进一步划分。可见,海6 期 魏红宇 等:海洋数据挖掘技术应用研究 83 洋数据的分类体系相当庞杂。 b ) 数据获取手段多样。海洋数据根据学科及调查仪器的不同,获取的方法也存在较大的差异,有走航测得的,有站位测得的,也有航空、航天遥感测得的。包括浮标 ( 锚系浮标、漂流浮标等 )、南森站、台站、CODAS、CTD、ADCP、观测船 ( 走船、断面、剖面等 ) 等观测手段,数据获取手段的不同引起了数据精度的不同和数据格式的不同,从而带来了数据结构的复杂性和灵活性。 c ) 数据存储介质多样。海洋数据随着调查方法,调查技术的改进,存储介质,存储手段也在不断的更新,以至于目前的海洋数据存储介质多种多样,有纸质存储的,也有电子存储的。而电子存储的数据又分为文件存储和数据库存储等存储方法。 d ) 数据空间特征强。对于大多数海洋基础数据而言,其数据都是描述一定的空间位置或空间范围内的海洋属性信息,这些数据均与一定的空间位置有关,具有较强的空间特征。 e ) 数据形态多样。数据形态的多样是指海洋信息以不同的数据形式表现,例如图形、图像、声音、文本、数据库表等,图像文件又包括栅格文件和矢量文件,不同的数据形态导致了数据处理手段的复杂化,甚至涉及其他专业领域的知识。 f ) 数据多尺度、数据量大。海洋调查数据具有空间范围广的特点,既有全球范围的海洋观测数据,也有小范围的定点观测数据;同时具有时间跨度大的特点,有即时海洋观测数据,也有几十年长序列的海洋气象数据。因此,海洋数据通常具有较大的数据量,如一个小区域的海底多波束地形数据,其数据量高达 GB 级,一景原始遥感影像数据的数据量也达 GB 级。多尺度、大数据量的特点带来了存储及管理的效率问题。 g ) 数据动态更新频繁。随着遥感、浮标、台站等各类观测手段的应用,海洋数据的动态更新变得日益简单和频繁。 从以上特点可以看出,海洋数据和信息的存储管理及专业应用具有相当的复杂性。在海洋数据的应用方面,针对不同用户,主要有以下几类。第一类是为海洋科研人员提供基础数据的统计、检索查询,如查询某时间段或区域的海面温度信息等。第二类是为海洋业务部门提供专题信息产品的制作与服务,如利用海洋温度调查数据制作某海域海洋温度等值线图,利用基础地理数据及海洋功能区划数据制作海洋功能区划图件等应用。第三类应用是为海洋行政管理部门提供信息支持,如海域使用信息的产生及数据库管理,并在应用系统中提供查询、可视化展示等应用。第四类是为社会公众提供海洋公共信息的发布与服务,如向公众发布海浪、海温预报及海水质量状况信息等。不同层面用户的信息应用形式虽然有所不同,但其根本的信息需求是相同的,即都需要从大量、多类型的海洋数据中提取关注信息,并经过数据格式转换、精度提取、信息关联等处理与操作,制作用户所关注的不同形式的数据集和信息产品。显然,纷繁、零乱及不规则存储的数据难以满足实际应用需求。数据挖掘技术在海洋数据应用服务过程中起到了关键作用,通过数据提取和数据处理转换,实现了基于主题的海量数据和信息的应用处理。同时,数据挖掘应用也对海量海洋数据的存储管理提出了较高的要求,不仅要求数据类别齐全,而且应当具备良好的数据库存储结构,将经过质控和标准化处理后的数据汇集和整理成数据库群,在利用计算机程序进行海量数据的分析、挖掘时才能体现出效率优势。
2 海洋数据挖掘技术应用模式
目前的海洋学应用大多是基于空间位置的,其研究课题的提出和解决常常要求多学科多部门之间的协作。因此,空间信息的共享与互操作、多学科分析与综合在对于海洋学问题的综合研究中显得日益重要。根据以上对数据挖掘技术在海洋领域应用情况和海洋数据特点的分析,作者认为,数据挖掘技术在海洋领域应用的模式应该是在基于空间参考分析的基础上针对海洋数据的特点,提供数据挖掘常用的处理方法,并对挖掘系统的处理流程进行适应性地改进,使之能够与现有的海洋业务应用需求相结合,从而提供完整合理的海洋数据处理解决方案。 84 海 洋 通 报 27 卷 这种应用模式支持下,我们开发了海洋数据挖掘应用系统,该系统以赤潮预测预报、海洋污染预测预报、海平面变化及其影响评价、海洋工程安全评价为主题应用目标,提供数据处理支持服务,系统以统计学、数学、计算机等多学科为基础、使用传统数据挖掘算法、空间数据挖掘算法及空间数据可视化技术,根据各主题应用不同的海洋数据处理流程,对海洋数据进行分析并对结果实现可视化表达。系统包含数据资源管理、数据预处理、数据挖掘分析、挖掘结果显示等主要功能模块,每个功能模块包含相应的具体功能,系统功能结构如图 1 所示。
用户管理系统通用功能数据资源管理数据预处理数据挖掘分析挖掘结果显示用户注册用户删除密码修改权限管理日志管理数据加载数据查询数据提取标准化处理数据平整丢失数据处理多源数据整合模糊综合评价层次分析主成分分析人工神经网络图形生成地图生成
…
图 1 系统功能结构图 Fig.1 Structure of the system function
系统总体架构分为底层数据管理层,中间的平台服务层和上层的业务应用层。其中数据管理层负责提供与各类种数据存储源的接口,实现系统的数据输入与统一管理。平台服务层包括数据挖掘系统的成果库、中间成果库以及数据挖掘系统的各个基本功能模块。最上层的业务应用层提供海洋专业领域的应用服务,通过平台服务层提供的各种功能模块,为具体的海洋业务应用提供数据处理支持服务。系统的总体架构如图 2 所示。海洋数据挖掘系统采用模块化方式进行开发,将每一个功能独立封装成模块,开发人员可以根据业务应用的需要对各个功能模块进行灵活组合调用,实现系统模块的复用。
908数据仓库数据接口908各专业数据库数据接口基础地理数据库数据接口文档资料数据接口
Intranet成果库中间成果库
Internet/Intranet用户管理服务数据管理服务数据挖掘分析服务数据挖掘结果表达服务……平台服务层
数据管理层
数据应用层赤潮预测预报
海洋污染预测预报海平面变化及其影响评价海洋工程安全
评价
抽取更新数据存取集成服务
图 2 系统总体架构图 Fig.2 Structure of the system