当前位置:文档之家› 基于WEB的分布式数据挖掘系统研究

基于WEB的分布式数据挖掘系统研究

基于WEB的分布式数据挖掘系统研究
1Web服务概述
1.1 Web服务及其特性
对于 Web 服务,微软给出的定义是:一个 Web 服务是为其他应用提供数据和服务的逻辑应用单元。

应用程序通过统一的 Web 协议和数据格式(例如:HTTP、XML、SOAP )访问Web 服务,不需要担心任何实现细节。

从表面上看,Web 服务就是一个应用程序,它向外界暴露出一个能够通过 Web进行调用的 API。

也就是说 Web 服务是可通过 URL 定位的自动将信息返回到需要它的客户端那里的一种资源。

Web 服务应该能够被客户方便地集成到本地应用程序中,甚至是另外的 Web服务中。

因此,它要有这样一些特性:
1)Web 服务应该是一个“黑匣子”,即客户无需关心它的具体实现,它的实现和维护工作由服务提供者负责,客户只需要通过它提供的接口来使用。

2)Web 服务应该实现自我功能描述,以便向客户介绍自己。

3)Web 服务需要提供一种发现机制,使得客户能够在 Web 上找到该服务。

4)Web 服务应该跨语言、跨平台。

5)面向消息,松散耦合。

1.2 Web服务的体系架构
在Web 服务的体系架构里有三个角色:服提务供者,服务注册中心和服务请求者。

服务提供者是提供最终Web 服务的供应商,它实现了一个为特定的需求而编写的应用程序——Web 服务,并放置在在线服务器上供别人使用。

从商业角度看,服务提供者是Web 服务的拥有者,负责其所拥有服务的发布、更新和回收。

从Web服务体系架构的角度看,服务提供者是实现Web 服务的平台。

服务请求者是服务的用户。

从商业角度看,服务请求者是是特定服务的消费者。

从Web 服务体系架构的角度看,服务请求者是查找并调用一个特定服务的应用。

服务请求者可以是一个通过浏览器访问服务的人,或者是一个应用程序,甚至是另外一个Web 服务。

服务注册中心是一个Web 服务的注册地,汇集了很多在线的Web 服务,一般来说服务提供者将Web 服务安装到在线服务器后,会将Web 服务发布到服务注册中心。

对于想要使用Web 服务的服务请求者来说,他首先去查去查询服务注册中心,当他发现了合适的Web 服务之后,将从服务注册中心获取这些Web 服务的技术信息引用,通过这些引用找到Web 服务及其相关的技术信息,从而完成服务请求者和服务提供者之间的技术绑定。

具体结构如下图所示:
1.3 Web服务的服务协议栈
实现一个完整的Web 服务体系需要有一系列的协议规范来支持。

议(底部绿色部分)。

如广泛使用的传输层和网络层的标准:IP,HTTP,SMTP,POP,FTP等;右上白色的部分是XML 的消息层和服务描述层,是目前开发的Web 服务的相关标准协议,包括服务调用协议SOAP,服务描述协议WSDL 和服务发现/集成协议UDDI 以及服务工作流描述语言WSFL;右边红色部分是整个协议层配套基础设施,包括安全、关联、服务质量等。

1.4 Web服务带来的优势
跨越防火墙的通信
1,不仅可以缩短开发周期,还可以减少代码的复杂度,并增强整个应用程序的可维护性。

2,可以节省界面和中间层的交互时间,得到的web服务组成的中间层,再应用程序集成或其他场合下可被重用。

应用程序集成
通过Web 服务,应用程序可以用标准的方法把功能和数据暴露出来,供其它的应用程序
使用。

软件重用
1,Web 服务允许在重用代码的同时,重用代码后面的数据。

2,使用Web 服务,只需要直接调用远端的Web 服务就可以了。

3,另一种软件重用的情况是把好几个应用程序的功能集成起来。

现在Web 上有很多应用程序供应商,都在其应用中实现了这些功能。

一旦他们把这些功能都通过Web 服务暴露出来,就可以非常轻易地把所有这些功能都放在用户的应用程序中去。

2分布式数据挖掘概述
近年来,数据挖掘得到了极大的关注,其主要原因是企业保存的大量的实时数据和历史数据,可以被广泛地使用,并迫切需要将这些数据转换成有用的信息和知识。

获取的知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等等。

最近,分布式数据挖掘(DDM)又吸引了不少研究者的目光,并取得了一些进展。

2.1 什么是分布式数据挖掘
所谓分布式数据挖掘有两层含义:第一,就是使用分布式算法,从逻辑上或物理上分布的数据源中发现知识的过程。

这里主要强调数据源的分布性。

第二,是指与某个数据挖掘任务相关的用户,数据,挖掘软件以及其他软组件是地理上分散的。

这里主要强调的是软组件的分散性。

2.2 分布式数据挖掘需要解决的问题
在分布式数据挖掘中,有几个技术细节需要注意:
1)全局集中控制。

为了方便地实现分布式数据挖掘,一个用于集中控制的站点是必须的。

用于解决整个系统通讯开销大及如何在全局范围内进行全局性决策等问题。

2)并行和分布式数据挖掘算法:这实际上是针对性能问题提出来的。

通过并行算法将数据划分成多个子集,降低整个数据挖掘的时间复杂度。

从而提高性能。

3) 知识共享:在各个站点间进行分布式挖掘时必须采用可以被理解的知识形式。

4)分布式软件设计:其最大的优点是支持软件复用,系统设计人员可以使用现存的软组件。

这样可以优化分工,大大减少编码工作量,提高工作效率,降低成本。

3基于Web服务的分布式数据挖掘体系结构及算法
3.1 Web 服务技术与分布式数据挖掘的结合点
1)数据的一致存储和表示机制是分布式数据挖掘系统要解决好的基本问题之一。

Web 服务技术所基于的 XML 技术提供了一种供应商独立的数据表示机制使得数据的私有和不兼容问题不再成为不同应用数据交换的障碍。

2)Web 服务技术是基于 Internet 的,一旦服务被部署在网络上,它们就可以通过 SOAP 和WSDL在任何地方被使用,许多数据挖掘系统如 IBM 的 Intelligent Miner、XELOPES 和PolyAnalyst 提供平台独立的接口,可以方便的集成到自己的数据挖掘系统中去。

3)引入 Web服务技术后,不同的供应商提供的以 Web 服务发布的不同软组件就可以被动态地进行运行时调用,数据挖掘系统就可以跟随新技术的发展和用户需求的变化而不断改进。

可以看出,Web 服务技术与分布式数据挖掘相结合,会给分布式数据挖掘带来深远的影响。

3.2 基于Web 服务的分布式数据挖掘系统体系架构
结构如图所示:
该体系结构建立在Web 服务分布式计算体系之上,各个局部数据挖掘模块都是独立作为Web服务注册和发布的。

它具有良好的移植性,能够跨越平台和数据结构的异构性,并能跨越防火墙和代理服务器进行通讯,使用灵活,具有良好的用户透明性。

本系统的基本工作原理如下:
a. 用户发出挖掘请求。

b. 用户接口接受挖掘请求,并把挖掘请求按预定的格式转发给全局数据挖掘应用。

c. 全局数据挖掘应用对挖掘请求进行分析,确定需要涉及到的局部挖掘应用。

然后查找注册中心,与其中相应的Web 服务实现绑定。

d. 全局挖掘应用把挖掘请求传递给局部挖掘应用,局部挖掘应用根据挖掘请求进行本地数据挖掘,并把结果传递给全局挖掘应用。

e. 全局挖掘应用把各个局部应用提交的结果进行综合分析,得出最终的结果。

f . 把最终结果提交给用户接口,用户接口将其以直观的形式展现给用户。

4结束语
随着分布式数据库系统和Internet 的发展和应用,以前的集中式数据挖掘根本无法满足分布式事务的需要,因而研究分布式挖掘系统是很有必要的。

基于Web 服务的数据挖掘是解决分布式数据挖掘的有效途径。

它支持网络应用,具有很强的平台适应能力,可移植能力强,可以实现对多个异构的并行分布式数据源协同挖掘,极大地提高了分布式数据挖掘的效率。

但是由于分布式技术本身具有的复杂性,在实际应用中还需要进一步的提高和完善。

相关主题