当前位置:
文档之家› 基于web的信息抽取方法研究
基于web的信息抽取方法研究
用 户 。三层 结 构 图 如下 图 1 示 。 所
用 户 浏 览 、客 户端 程 序
1 【
l部 口 解 D 树据存 I 外接层l 析o 数并储 l M
解
。
l 据M描 文 抽结 I依 L述档 取 果l
3 信 息抽 取性 能评 价
图2信息抽取模型
3 1检索数据 的有效性 . 基于w b 面的变动 ,容 易造成不能够准确地从 已改变的页面提取 e页 出数据。构建校验系统不间断的监视数据抽取 的质量 ,通过X L I 滤器 S1 过 对x 输 出进行检测 ,从 “ MI 好”的数据中分离 出来的 “ 坏”数据 32 检索质量评价体 系 . We信息抽取技术的评测依据经典的信息检索 (R)评价指标 ,即 b I 回召率 ( ea )和查准率 ( rcs n R cl 1 Peio )来衡量。其计算公式为: i P 抽出的正确信息点数所 有抽出的信息点数 - R 抽出的正确信息点数所 有正确 的信息点数 = 以此为标准衡量信息抽取系统 的精确程度 。
图1信息集成层次模型 DOM ( o u n0 icM0 e,文档对 象模型 )是一种供 H ML D c me t be t d 1 T 和 XML 文档使用 的应用程序编程接 口 ( I AP ),定义了文档 的逻辑结构 以 及访 问和操作文档 中各个 部分的标准方法 。构建DO M结构 树为 了抽取 X L M 文档信息 ,对收集 的We 页面进行 结构分析 ,建立相应 的根元素 b ( ou nEe e t D eme tlm n )和节点 ( o e N d )。N e d o  ̄象通过继承关系形成一裸 O 树 ,它继f OM f  ̄ N d对象 的属性和操作 ,同时又有各 自特殊的属性 oe 和操作 ,通过标记识别 和定位信息 。使用此模型 ,有效地将We文档 中 b 的数据抽取出来表示为X MD陷式的文档 ,简化信息抽取工作 ,方便地形 成x 【 据源 ,为D M M数 O 等数据提供访 问接 口, 于用户访问与检索。 利
1 × 信 息集 成系 统模 型设 计 ML
将信 息集成分为标记抽取层、传输解释层 、外部接 口层三个层次。 作 为最底层 的标记 抽取层 ,为系统提取 和集 成数据信 息。传输解 释层 作 为中间层 ,主要负责将D M O 客户端A I P 向系统发 出的查询 指令转 换为 xML 查询 ,并 分发给各个包装器。最高层的外部接 口层解释并翻译用户 查询命令 ,传递给传输解释层 ,获得并解释查 询结果树 ,将结果显示给
r0:4 5 . 2) — 5 5
— 羹
20第3 0年 1 1 期
科 技 与 生 活
信 息 科 学
l 1
基 于 we 的信 息 抽 取 方法 研 究 b
王 毅
( 山东省泰安 市中心医 院信 息中心 ,山东泰 安 2 1 0 7 0 0)
摘 要 结合 D M方法构 造模型 ,运用x 建立精确 文档信 息 ,解决半 结构化 网页动态信 息抽取 的困难 ,提 出一种新 型的基于样 本的信息检 O ML 索方法 ,将信息整 合为新数 据模型 ,提高 网络信息抽 取的效率 和准确度 。 关键 词 信息抽 取 ;X L;D M方法 M O 中 图分 类号 T 33 文献 标识 码 A P9 文章 编 号 17 —6 1( 1)7— 1— 1 6 39 7一2 0 10 10 0 0
随着I e t n me t 的发展和普及 ,基于we信息查询 的需求愈加旺盛 。信 b 息抽取是指从文本中 自动抽取相关的或特定类 型的信 息,并将其形成结 构化的数 据以供 用户查询。 由于5 成以上的 的网页 由后 台数据库 生成的 半结构化 网页 ,搜索引擎无法从此类网页中直接获取有效数据 ,精确定 义We 资源中的词 汇信息 ,结合D M b O 方法建立精简有效的本体模型和抽
与应 用,0 7 31 4 1 8 2 0 , :1 — . 4 1 [] 4梅雪 , 旗, 岩. 种全 自动 生成 网页信 息Wrp e的方法[】 程学 郭 一 apr J 中文 信息 学 .
报 , 0 () 2 81 0 .
[】 琼, 文建 . 于网页结 构 树1We信 息抽 签方 法[. 算机工 程 , 0 ,1 5陈 苏 基  ̄ b 3 J计 ] 2 5 0 3
参 考 文献 【] 腾蛟, 世渭, 冬青, 云峰. 1 王 唐 杨 刘 半结 构化数 据 的局部精 确模式 提取方法 [ . J 第 1
十 七届全 国数据 库学术会 议( D C 00 , 0 ,0 2 2 . N B 2 0 ) 0 0 1: — 8 2 2
信息分离 :主要包括页面精 简和重 复模式发现 。页面精简器对 页面 进行精简处理 ,然后 由重复模式发现器在此基础上构造一个符号化 的后 缀树 , 再使用本文提出的方法进行重复模式的查找。 页 面精 简 :对We 网页修饰类信息进行精简 ,将H M 文档转换为 b T L XH ML T 文档 ,将 HT 标签 和标签 间的文本作 为标 记 串,对 符号化 的 ML X T 页面实施对标记串进行数据抽取 。 H ML 重复模式发现 :对页面精 简器构造 的符号化后缀树查找重复 的字符 串。构造后缀树 可将带有头标签的子串插入到后缀树 ,后缀树中总以一 个头标签为开始循环 ,由此减小检索规模 ,缩减遍历时间 ,提高了抽取 的效率 。结合we中重复标记 ,并输 出到分装器数据库。 h
[] 庆 一 , 2z E 王继 成 , 源 远 . 信 息 块 We 页 面 中的 抽 取规 则 [] 算机 工 程 周 多 b J_ 计
f. 0 , ( : -4 J 2 32 9 4 4 . 10 9 )2
[1 3李永丽, 良. 张玉 பைடு நூலகம்种基于后缀树的包装器 自动生成方法研究[ . J计算机工程 】
2 基于 We 页 面 的信 息定位 与 抽取 b
基 于网页结构特征分析的信息抽取 。将We 文档转换成反映H M  ̄ b T L 件层次结构的解 析树 ,通过 自动或半 自动的方式产生抽取规则。将 信息 抽取模型分为信息标记 、信 息抽取 和信息重组3 个模块 ,通过对要抽取 信息项的概念 、类型和实例中值的描述 ,构建信息抽取核心。整个抽取
过 程 如 图2 示 。 所
4 结 论 本文从ⅢmL 结构特点构造we信息抽取系统 ,提出了方便 、简单 的 b We 信息抽取框架 ,结合D M 构造模型 ,采用流程配置的策 略来构造 b O 树 抽取规则 , 提高配置x L M 文档的智能化 ,实F We f A l 息的抽取。 f
取规 则 。
信息抽取 :依靠抽 取路径 、左右邻标识及节点特征等进行辨别和提 取。而对 于w b e 页面动态信 息检索采用相对路径方法结合节点内容特征 进行定位 。把文本里包含的信息进行结构化处理 ,变成表格一样的组织 形式。输入信息抽取系统的是原始文本 ,输出的是固定格式的信息点。 信息点从各种 各样的文 档中被抽取 出来 ,然后 以统一 的形式集成在一 起 ,方便检查和比较并能对数据作 自动化处理。