当前位置：文档之家› 基于web的信息抽取方法研究

基于web的信息抽取方法研究

用户。三层结构图如下图１示。所
用户浏览、客户端程序
１【
ｌ部口解Ｄ树据存Ｉ外接层ｌ析ｏ数并储ｌＭ
解
。
ｌ据Ｍ描文抽结Ｉ依Ｌ述档取果ｌ
３信息抽取性能评价
图２信息抽取模型
３１检索数据的有效性．基于ｗｂ面的变动，容易造成不能够准确地从已改变的页面提取ｅ页出数据。构建校验系统不间断的监视数据抽取的质量，通过ＸＬＩ滤器Ｓ１过对ｘ输出进行检测，从 “ ＭＩ好”的数据中分离出来的 “ 坏”数据３２检索质量评价体系．Ｗｅ信息抽取技术的评测依据经典的信息检索（Ｒ）评价指标，即ｂＩ回召率（ｅａ）和查准率（ｒｃｓｎＲｃｌ１Ｐｅｉｏ）来衡量。其计算公式为：ｉＰ抽出的正确信息点数所有抽出的信息点数－Ｒ抽出的正确信息点数所有正确的信息点数＝以此为标准衡量信息抽取系统的精确程度。
图１信息集成层次模型ＤＯＭ（ｏｕｎ０ｉｃＭ０ｅ，文档对象模型）是一种供ＨＭＬＤｃｍｅｔｂｅｔｄ１Ｔ和ＸＭＬ文档使用的应用程序编程接口（ＩＡＰ），定义了文档的逻辑结构以及访问和操作文档中各个部分的标准方法。构建ＤＯＭ结构树为了抽取ＸＬＭ文档信息，对收集的Ｗｅ页面进行结构分析，建立相应的根元素ｂ（ｏｕｎＥｅｅｔＤｅｍｅｔｌｍｎ）和节点（ｏｅＮｄ）。Ｎｅｄｏ￣象通过继承关系形成一裸Ｏ树，它继ｆＯＭｆ￣Ｎｄ对象的属性和操作，同时又有各自特殊的属性ｏｅ和操作，通过标记识别和定位信息。使用此模型，有效地将Ｗｅ文档中ｂ的数据抽取出来表示为ＸＭＤ陷式的文档，简化信息抽取工作，方便地形成ｘ【据源，为ＤＭＭ数Ｏ等数据提供访问接口，于用户访问与检索。利
１ × 信息集成系统模型设计ＭＬ
将信息集成分为标记抽取层、传输解释层、外部接口层三个层次。作为最底层的标记抽取层，为系统提取和集成数据信息。传输解释层作为中间层，主要负责将ＤＭＯ客户端ＡＩＰ向系统发出的查询指令转换为ｘＭＬ查询，并分发给各个包装器。最高层的外部接口层解释并翻译用户查询命令，传递给传输解释层，获得并解释查询结果树，将结果显示给
ｒ０：４５．２） — ５５
— 羹
２０第３０年１１期
科技与生活
信息科学
ｌ１
基于ｗｅ的信息抽取方法研究ｂ
王毅
（山东省泰安市中心医院信息中心，山东泰安２１０７００）
摘要结合ＤＭ方法构造模型，运用ｘ建立精确文档信息，解决半结构化网页动态信息抽取的困难，提出一种新型的基于样本的信息检ＯＭＬ索方法，将信息整合为新数据模型，提高网络信息抽取的效率和准确度。关键词信息抽取；ＸＬ；ＤＭ方法ＭＯ中图分类号Ｔ３３文献标识码ＡＰ９文章编号１７ —６１（１）７— １— １６３９７一２０１０１０００
随着Ｉｅｔｎｍｅｔ的发展和普及，基于ｗｅ信息查询的需求愈加旺盛。信ｂ息抽取是指从文本中自动抽取相关的或特定类型的信息，并将其形成结构化的数据以供用户查询。由于５成以上的的网页由后台数据库生成的半结构化网页，搜索引擎无法从此类网页中直接获取有效数据，精确定义Ｗｅ资源中的词汇信息，结合ＤＭｂＯ方法建立精简有效的本体模型和抽
与应用，０７３１４１８２０，：１ — ．４１［］４梅雪，旗，岩．种全自动生成网页信息Ｗｒｐｅ的方法［】程学郭一ａｐｒＪ中文信息学．
报，０（）２８１０．
［】琼，文建．于网页结构树１Ｗｅ信息抽签方法［．算机工程，０，１５陈苏基￣ｂ３Ｊ计］２５０３
参考文献【］腾蛟，世渭，冬青，云峰．１王唐杨刘半结构化数据的局部精确模式提取方法［．Ｊ第１
十七届全国数据库学术会议（ＤＣ００，０，０２２．ＮＢ２０）００１： — ８２２
信息分离：主要包括页面精简和重复模式发现。页面精简器对页面进行精简处理，然后由重复模式发现器在此基础上构造一个符号化的后缀树，再使用本文提出的方法进行重复模式的查找。页面精简：对Ｗｅ网页修饰类信息进行精简，将ＨＭ文档转换为ｂＴＬＸＨＭＬＴ文档，将ＨＴ标签和标签间的文本作为标记串，对符号化的ＭＬＸＴ页面实施对标记串进行数据抽取。ＨＭＬ重复模式发现：对页面精简器构造的符号化后缀树查找重复的字符串。构造后缀树可将带有头标签的子串插入到后缀树，后缀树中总以一个头标签为开始循环，由此减小检索规模，缩减遍历时间，提高了抽取的效率。结合ｗｅ中重复标记，并输出到分装器数据库。ｈ
［］庆一，２ｚＥ王继成，源远．信息块Ｗｅ页面中的抽取规则［］算机工程周多ｂＪ＿计
ｆ．０，（：－４Ｊ２３２９４４．１０９）２
［１３李永丽，良．张玉 பைடு நூலகம்种基于后缀树的包装器自动生成方法研究［．Ｊ计算机工程】
２基于Ｗｅ页面的信息定位与抽取ｂ
基于网页结构特征分析的信息抽取。将Ｗｅ文档转换成反映ＨＭ￣ｂＴＬ件层次结构的解析树，通过自动或半自动的方式产生抽取规则。将信息抽取模型分为信息标记、信息抽取和信息重组３个模块，通过对要抽取信息项的概念、类型和实例中值的描述，构建信息抽取核心。整个抽取
过程如图２示。所
４结论本文从ⅢｍＬ结构特点构造ｗｅ信息抽取系统，提出了方便、简单的ｂＷｅ信息抽取框架，结合ＤＭ构造模型，采用流程配置的策略来构造ｂＯ树抽取规则，提高配置ｘＬＭ文档的智能化，实ＦＷｅｆＡｌ息的抽取。ｆ
取规则。
信息抽取：依靠抽取路径、左右邻标识及节点特征等进行辨别和提取。而对于ｗｂｅ页面动态信息检索采用相对路径方法结合节点内容特征进行定位。把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起，方便检查和比较并能对数据作自动化处理。

e商务文档

基于web的信息抽取方法研究

相关文档推荐：