当前位置：文档之家› 国外Web信息抽取研究综述

国外Web信息抽取研究综述

国外Web信息抽取研究综述作者：龙丽，庞弘燊， Long Li， Pang Hongshen作者单位：华南师范大学经济与管理学院,广东,广州,510006刊名：图书馆学刊英文刊名：JOURNAL OF LIBRARY SCIENCE年，卷(期)：2008，30(5)被引用次数：2次1.Ralph Grishman Information extraction:Techniques and Challenges 19972.Valter Crescenzi.Giansalvatore Mecca Automatic Informarion Extraction from Large Websites 2004(05)3.M.Banko.M.Cafarella.S.Soderland.M.Broadhead.O.Etzioni Open information extraction from the Web 20074.Oren Z.Oren E Web Document Clustering:A Feasibility Demonstration 19985.Embley D.Campbell D.Jiang S Conceptual-modelbased data extraction from multiple record web pages 1999(03)6.Embley D.Jiang Y.Ng Y-K Record-Boundary Discovery in Web Documents 19997.Benjamin Habegger.Mohamed Quafafou Building web information extraction tasks8.Dawn G.Gregg.Steven Walczak Adaptive web information extraction 2006(05)9.Chia-Hui Chang.Mohammed Kayed.Moheb Ramzy Girgis.Khaled Shaala A Survey of Web Information Extraction Systems1.期刊论文陈钊.张冬梅.CHEN Zhao.ZHANG Dong-mei Web信息抽取技术综述-计算机应用研究2010,27(12)快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点.现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类.由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用.分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点.2.学位论文陈龙基于WEB信息抽取的企业竞争情报系统研究2007现代社会是信息化和网络化特征明显的社会，信息的竞争已经成为企业竞争环节中非常重要的一环.通过智能的信息处理技术，搜集、分析对企业有价值的情报信息，使企业的决策更为科学，对市场和环境的反应更及时，是企业获得竞争优势的有力武器，因此在现代企业信息化建设中，竞争情报系统建设已经成为大多数企业的一个战略选择.在互联网时代，企业面对信息的爆炸性增长，如何去有效利用这巨大的信息资源库，是企业竞争情报系统研究的新问题.本文首先对竞争情报以及竞争情报系统相关知识进行了一定的阐述，提出了在网络信息时代企业竞争情报面临的新问题，并总结了在网络环境下企业竞争情报系统的相关特征和未来发展趋势.其次针对网络信息时代海量的WEB数据的特点和企业竞争情报系统智能化发展方向，对企业竞争情报系统体系结构进行了研究.改进了传统的竞争情报处理流程，增加了信息抽取核心子系统，并给出了基于J2EE的企业竞争情报系统技术框架.经过对信息抽取技术的相关研究，本文提出在系统中引入WEB信息抽取技术来解决企业竞争情报系统对互联网信息的有效获取.最后建立一个抽取系统的模型，对企业竞争情报系统中的信息抽取进行了研究，提出了一种基于XML的信息抽取方法，为企业建立一个高效和智能的竞争情报系统打下良好基础.3.学位论文秦磊基于XML的信息抽取和集成模型的研究与设计2007随着近几年Internet的飞速发展，虽然Web已经发展成为了一个巨大的分布和共享信息资源的平台，但是如何从Web中快速和有效地获取信息仍然是困扰着Web用户的一个问题。

在这样的背景下，出现了Web信息抽取技术，Web信息抽取技术是从信息抽取技术中衍生出来的，它继承和发展了信息抽取领域的一些关键技术，同时，XML技术出现后，迅速成为了互联网信息表示的标准。

本文就是把传统的信息抽取技术同XML，技术结合起来，在Web信息抽取过程中起到了事半功倍的效果。

本文首先对现有的信息抽取技术和XML技术加以研究，在此基础上提出了适合XML，的通用的树型结构抽取规则，它能够把Web上的数据抽取出来整合到指定模式的XML，文档中去。

Web信息抽取出来，用户如果不能够随心所欲地加以利用，那么将是毫无价值的。

所以，抽取信息的数据集也是Web信息抽取过程当中不可忽视的一个子过程。

那么，如何把抽取出来的数据准确地映射到目标数据库中也是本文需要研究的范畴。

同时，为了方便用户对抽取出的数据进行二次利用，本文还提出了基于XML，的Web查询模式。

总之，Web信息抽取技术结合XML的存储和访问技术，最大限度地实现了Web信息的再利用。

本文的创新之处在于作者提出了一个信息抽取原型系统的设计以及实现方案，该系统采用了多策略的基于XML的抽取方法来满足各个不同领域的抽取需求。

在文章的最后，作者基于江西省新华书店的实例对系统的各项抽取系数进行了评估，基本达到了预期的效果。

4.学位论文江佳信息集成中Web信息抽取技术的研究2007互联网上信息爆炸，如何快速检索需要信息以及更有效的利用这些信息，成为亟待解决的问题。

本文介绍了信息集成系统WS-IIS，该系统整合各种异质的数据源以及Web服务，其中就包含Web数据源。

作为WS-IIS一个辅助部分，Web信息抽取子系统提供将Web网站提供的信息封装为Web服务，供信息集成系统使用。

没有办法直接利用这些页面上的信息，所以需要Wrapper包装器程序将这些页面抽取至目标模式。

Wrapper的核心是抽取规则。

本文提出的基于DOM的信息抽取方法，提出用标准的XMI，技术操纵Web页面，将数据提取出来。

抽取试验证明了这种抽取方法的可行性。

抽取规则只解决了从Web页面抽取出数据至目标模式的问题，然而在互联网环境下，Web信息集成面临许多新的挑战。

本文提出了信息抽取流程和基于流程的信息抽取框架。

XML描述的抽取流程取代了传统的特定程序语言设计的Wrapper，抽取过程的执行由流程执行引擎完成。

在此基础上，信息抽取框架实现了Web服务动态封装，将抽取过程封装为独立的Web服务供信息集成系统使用。

5.期刊论文王权.施韶亭.Wang Quan.Shi Shaoting Web信息抽取技术在统一检索系统中的应用研究-计算机应用与软件2010,27(10)结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例.实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台.6.学位论文那喆基于规则模板的Web信息抽取技术与实现2007随着Web的快速发展，丰富的Web资源构成了一个巨大的全球信息仓库。

如何从Web网站中获得想要的信息成为亟待解决的问题，因此Web信息抽取成为必要，Web信息抽取技术也成为当今的一个研究热点。

Web信息抽取需要解决的问题是：如何构建抽取规则使信息抽取免受页面结构差异和页面结构变化的影响，并尽可能地减少人为参与。

在对Web信息特点和Web信息抽取原理大量研究的基础上，本文提出了基于规则模板的Web信息抽取机制。

在基于抽取规则模板的Web信息抽取中，重点考虑抽取规则模板的定义与构建：根据信息内容的特点定制抽取规则，根据页面的实际情况填充结构信息。

信息抽取执行程序根据规则模板发现、抽取信息并将信息保存到关系型数据库中。

基于规则模板的Web信息抽取机制的目的是设计并实现一种准确、半自动、智能、高效、简单的Web页面抽取方法。

本文提出一种基于规则模板的信息抽取机制；概述了基于规则模板的Web信息抽取机制的基本原理、实现过程；给出了规则模板的定义以及规则模板的组成结构。

并通过分块算法对Html页面进行分块，对分块的结果进行层次划分，配合对页面源文件的分析，得到结构信息填充到规则模板。

独立设计了信息抽取过程，该过程由样本学习、M-Spider、抽取执行程序三个部分组成，并以上市公司财务信息抽取为例，实现了基于规则模板的Web信息抽取机制的实际应用。

7.期刊论文朱晴.姜利群.张言辉.ZHU Qing.JIANG Li-qun.ZHANG Yan-hui半结构化的Deep Web信息抽取技术-电脑知识与技术2010,06(15)当今随着互联网技术的飞速发展,Deep Web的信息量也在以惊人的速度迅猛增长,对其进行信息抽取具有十分重要意义.该文针对Web页面半结构化的特点,提出了基于XML的信息自动抽取方法,设计了抽取的流程,并对抽取规则进行了优化.8.学位论文贡正仙基于网格的Web信息抽取技术的研究与实现2006Web文档往往用各种复杂的HTML标记来包装内部数据，但这种方式给应用系统直接使用Web文档中的数据带来了困难。

Web信息抽取是处理海量数据且需要各种复杂算法支持的一种技术，因此它在一般平台上的工作效率不是很好。

网格能为复杂应用提供分布式并行环境，它面向服务的开放式结构能提高应用的灵活性和代码重用率。

因此，结合网格技术来开发一个自动的Web信息抽取应用有着非常重要的意义。

本文首先介绍了Web信息抽取的有关技术，分析了自动抽取系统RoadRunner的算法和优缺点；接着，介绍了网格的相关知识，重点研究网格应用的特性。

在这之后，本文重点解决两个问题：如何自动抽取Web信息和如何在网格中实现。

在第一阶段，本文通过有效的启发规则解决自动获取一批相似页面的问题，提出并实现了二级页面噪声处理的方案和算法，完成了自动归纳抽取规则的算法，并最终实现了一个完整的面向数据密集型页面的Web信息抽取系统。

在第二阶段，本文首先分析了Web抽取应用的可并行化部分，给出了相应的网格应用模型和编程模式，安装和配置了网格平台，开发和部署了一组相应的服务，并最终结合Java多线程技术解决了抽取应用的并行化问题。

e商务文档

国外Web信息抽取研究综述

相关文档推荐：