当前位置:文档之家› 异构数据集成技术的发展和现状

异构数据集成技术的发展和现状


>#!
*)+),-./%-
I767’+J:/+ 作为 ?%&’- 标准的 %&’L%8M/H, &/N;/6, ’+J:/+O 产品, 完全遵循对象管理组( 它提供了一个 %2@) ?%&’- 规范。 用于建立、 调 完整的 ?%&’- %&’ 运 行 环 境 和 支 持 开 发 环 境 ,
配和管理分布式 P*Q* 应用程序。基于 =/8 的应用程序可轻易 访 问 由 I767’+J:/+ 建 立 的 对 象 , 通 信 时 采 用 %2@ 的 因 特 网
化数据的。 在这种模型中, 数据被表示成带标签的有向图。 在这
>
开发工具
目前可视化的开发工具不少, 但不是所有的工具都适合于
个有向图中, 每个节点都是一个对象, 每个对象有一个唯一的 它们的值只能取自 基 本 的 数 7B 。原子对象只有入边没有出边, 其他的对象称为复合对象, 可 据类型, 如 70,/./+, +/*9, 6,+70. 等。 以同时拥有入边和出边。 没有固定的数据模式。 与数据模式相关的 在 %42 模型中, 信息都存在标签中, 因此可以动态地变化。 对于一个 %42 对象 1 和 一 个 标 签 9 来 说 , 表 达 式 1#9 表 示 对 象 1 中 所 有 带 标 签 9 的子对象的集合 S]U。
I/+6*,79/ : I/+6*,79/ 是 由 东 南 大 学 开 发 的 一 个 基 于 ?%&’的可扩展的异构数据源集成系统原型。该模型在 C%D- 公司的 对 ([3 (/+Q/+、 文件系统、 超文本数据进 %+875 产品上, I/+6*0,、 行包装和集成。该系统不仅能集成上述数据源, 而且能集成随 时插入的新数据源中的数据 S\U。 在上述的三种模型中, 3J+/ 系 统 是 存 储 123 数 据 的 一 个 专门数据库系统, 它是异构数据集成系统代表性的例子。该系 统的体系结构设计、 查询处理和优化方式为后来的异构数据集 成系统提供了很好的借鉴。通过对 3J+/ 系统的 分 析 可 深 入 了 解异构数据集成系统,因此有必要介绍一下 3J+/ 系 统 的 数 学 模型、 查询语言和体系结构。
络得到越来越广泛的应用,并将逐步成为数据组织和交换的 标准。 由于基于 123 的数据是自我描述的,数据不需要有内部 描述就能被交换和处理。利用 123, 用户可以方便地进行本地 计算和处理。123 可以被利用来分离使用者观看数据的界面, 使用简单灵活开放的格式,可以给 =/8 创建功能强大的应用 软件。
通信。 (2EH3 ,0</3= -L2C=A1( (,-) 9,:(- 应用程序结构如图 $ 所示。
*56 */17/1 数据库数据和半结构化的 8)6 数据。
数据集成 数据集成是对各种异构数据提供统一的表示、 存储和管理, 这些功能在异构数据集成系统中实现。数据集成 屏蔽了各种异构数据间的差异, 通过异构数据集成系统进行统 一操作。因此集成后的异构数据对用户来说是统一的和无差 异的。 客户访问 *=B0 的方式类似于访问一个实现 某 种 接 口 的 对 象。 与一般对象不同的是, *=B0 要通过安装在客户端的 ,:( 软
%YJ0/ : %YJ0/ 是 美 国 (,*0WJ+B 大 学 设 计 的 一 个 集 成 模 型 ,
该模型对面向对象数据库的 %F2@ 模型进行 了 扩 展 , 可 以 对 结构化和半结构化数据进行集成。%YJ0/ 系统特别适合处理杂 合性数据, 尤其是广泛应用于 =/8 上的数据 SZU。
CDE4&D4E 的接入速度 和 查 询 检 索 =/8 数 据 的 速 度 , 因 此 网
是 美 国 (,*0WJ+B 3J+/ : 3J+/ ( 37.G,V/7.G, %8M/H, &/<J67,J+K ) 大学设计的一个专门用于管理半结构化信息的数据库管理信 息系统, 可以对半结构化数据( 和 123 数 据 进 行 存 储 和 %42) 管理。 3J+/ 包含标准数据库的一些特性, 如: 多用户支持、 日志 和恢复功能以及查询和更新语言。同时 3J+/ 也 提 供 了 其 他 一 些操作数据库的工具 SXU。下面将详细介绍 3J+/ 系统。
异构数据集成技术的发展和现状
靳强勇 李冠宇 张 俊 ( 大连海事大学, 大连 $$N"!N )
摘 要 该文对异构数据集成技术的产生、 发展及目前的最新情况进行了介绍。 文章首先介绍了这一技术产生的背景和
研究目的。 然后介绍了相关的概念、 技术及开发工具。 随后对现有的异构数据集成系统进行了简单的介绍, 并对其中很有 介绍了笔者所做的研究工作和下一步的工作目标。 代表性的 6A1/ 系统进行了着重介绍。在文章的最后, 关键词 异构数据 数据集成
!#!
!"#
是由 123 ( 45,/06789/ 2*+:;< 3*0.;*./ 可扩展标志语言)
设计, 特别为 =/8 应用服 务 的 (@23 ( 万维网协会( =>? ) (,*0A 的一个重 B*+B @/0/+*9 2*+:;< 3*0.;*./ 通 用 标 识 语 言 标 准 ) , 要分支。 123 是一种中介标示语言( 2/,*A)*+:;< 3*0.;*./ ) 它作为一种可用来制定具体应用语言的元语言, 具有强大的描 述能力, 可提供描述结构化资料的格式。 由于 123 大大提高了
?@.)-*7): QGHE C2C/1 LHE3BEE/E =G/ A1H?H>2=HA> AI =/3G>A4A?T AI G/=/1A?/>/ABE L2=2 H>=/?12=HA> 2E ./44 2E H=E L/7/4AC@/>= 2>L 42=/E= EH=B2=HA>#-= =G/ IH1E= C21= =G/ 023F?1AB>L 2>L =G/ A0</3= 21/ H>=1ALB3/L =G/> IA44A./L =G/ 1/42=/L 3A>3/C=E, =/3G>A4A?H/E ( EB3G 2E 9,:(- 2>L 8)6) 2>L L/7/4ACH>? =AA4E ( EB3G 2E ’/4CGH 2>L K272 ) #-= =G/ E/3A>L C21= EA@/ /UHE=H>? G/=/1A?/>/ABE L2=2 H>=/?12=HA> ETE=/@E 21/ C1/E/>=/L 2>L /@CG2EHE HE CB= A> =G/ 6A1/ ETE=/@#-= 42E= =G/ C2C/1 01H/I4T H>=1ALB3/E .G2= =G/ 2B=GA1E G27/ LA>/ 2>L =G/H1 IB=B1/ .A1F# A"9B%-+.: G/=/1A?/>/ABE L2=2 , L2=2 H>=/?12=HA>, 9,:(-, ETE=/@ 213GH=/3=B1/
$
前言
随着计算机网络的普及, 数据资源的共享已经成为一个热
%$&
!
涉及的技术
异构数据集成系统的研究涉及多种计算机技术, 如分布式
门话题 。 很多企业需要将 ’()* , 构成 )+* , ,- 数据集成起来, 企业的管理决策的网络信息平台 %!&。传统的数据库集成方法现 在已经远远不能适应人们获取数据的需求, 因此迫切需要一种 新的数据集成系统。 这种系统不仅能集成传统的数据库中的结 构化数据, 而且还可以集成在 ./0 上应用日益广泛的半结构化 数据和非结构化数据。在这种背景下, 异构数据集成系统受到 越来越多人的重视, 这方面的研究也成为当前数据集成研究的 一个热点。 异构数据集成系统为企业解决多平台、 多结构数据的集成 问题提供了一条解决途径。通过这样一个集成系统, 可以把企 业内部和外部的各种相关数据资源进行整合, 为企业的信息资 源规划提供了可能, 从而搭建起整个企业的信息平台。 在深入探讨异构数据集成系统之前, 先介绍其中两个基本 概念, 这两个重要概念是整个异构数据集成系统的基础。 异构数据 异构数据是一个含义丰富的概念, 不仅指不同的 数据库系统之间的数据是异构的, 如 ,1234/ 和 *56 */17/1 数 据库;而且还包括不同结构的数据之间的异构,如结构化的
图$
9,:(- 应用程序结构图
基金项目: 国家自然科学基金( 编号: ; 辽宁省自然科学基金( 编号: N"$V!"WM ) ""!"XX )
$$! !""!#$$
计算机工程与应用
件来处理接口调用, 而 %&’ 又 通 过 ()*+, -./0, ( 可能运行在 局域网中的其他机器上) 所提供的目录服务来动态地定位一个 可用的服务器, 该服务器才真正地实现了接口。
!#>
其它
此外异构数据集成系统还涉及到面向对象技术、 数据库技
术等。 借助面向对象技术可以把异构环境中数据和对数据的操 作融为一体, 并对不同的数据类型进行包装。数据库技术包括 数据模型技术、 数据查询分解和优化策略、 数据表示和描述等。
T#$
%42 模型
是专用于描述半结构 %42 模 型 ( %8M/H, 45HG*0./ 2JB/9)
9,:(- 应 用 程 序 非 常 类 似 于 其 他 面 向 对 象 的 应 用 程 序 。
所不同的是, 当对象在另一台机器上的时候, 客户端和服务器 端必须分别通过一个特殊的层来管理网络通信, 在客户端称为
相关主题