当前位置：文档之家› 浅谈web信息抽取

浅谈web信息抽取

信息抽取的方法主要可以分为以下两类：一类是基于层次结构的信息抽取归纳方法，另一类是基于概念模型的多记录信息抽取方法。Ｗｂ信息抽取工作主要包装器（ｒｐｅ）ｅＷａｐｒ来完成 …。包装
２根据自．动化程度可以分为
人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取三大类。３根据现有Ｗｂ信息抽取系统和模型实现原理的不同，．ｅ分为以下几类：（）基于归纳学习的信息抽取。通过对若干个待抽取１实例网页进行结构特征学习，归纳出抽取规则，然后使用抽
２１００年第４期
大众科技
ＤＡＺＨＯＮＧＪＫＥ
Ｎｏ．ｙＮ．２）Ｃｍｕｉｌｏ１８ａｖ
浅谈ｗｂ信息抽取ｅ
李斌
（中国医科大学附属第一医院，辽宁沈阳１００）１０１
【文章编号】１０ — １１０００ — ０８００８１５（１）４０４ — ２２
统进行查询分析。
随着Ｉｔｒｅｎｅｎｔ的迅猛发展，ｅＷｂ已经成为一个巨大的信
息源。曾几何时，人们开始习惯于使用网络搜索引擎来查找自己所需要的有用信息，但随着Ｗｂ信息数量的快速增长，ｅ各网络搜索引擎所能覆盖的范围比例却逐渐减小，因此如何
器是一种软件过程，这个过程使用已经定义好的信息抽取规则，将网络中Ｗｂ页面的信息数据抽取出来，转换为用特定ｅ的格式描述的信息。一个包装器一般针对某一种数据源中的类页面。包装器运用规则执行程序对实际要抽取的数据源
一
进行抽取。
２抽取过程一般包括以下几个步骤：．
是最近几年应用最广泛的抽取知识表达模型。它是一种随机的有限状态自动机，由于Ｈ有成熟的学习算法和坚实的统删计基础，所以在信息抽取中是一种成功的模型。（）基于特征模式匹配的信息抽取。通过大量学习实３例，归纳学习出待抽取信息的语法结构模式，并根据这些模
式从待抽取网页中抽取出相匹配的信息，适用于复杂结构信
息的抽取。
（）使用模式匹配方法识别指定的信息模式的各个部４
分。
（）进行上下文分析和推理，确定信息的最终形式。５（）将结果输出成结构化的描述型式以便由网络集成系６
（）什么是ｗｂ信息抽取一ｅ
Ｗｂ信息抽取是指从Ｗｂ页面所包含的无结构、ｅｅ半结构或
者结构化的信息中识别用户感兴趣的数据，并将其转化为结构和语义更为清晰的格式的Ｗｂ页面信息抽取的过程。ｅ
（）Ｗｂ信息抽取技术涉及的内容二ｅ
因特网提供了一个巨大的信息源。这种信息源往往是半
取规则自动分析待抽取信息在网页中的结构特征并实现信息抽取。采用这种原理的典型的系统有ＳＡＫＲＯＴＥＬ，ＴＬＥ，ＳＨＭＡＹ
ＷＥ。ＩＮ
（）基于ＨＭ（ｉｄｎＭｒｏｏｅ）２ＭＨｄｅａｋｖＭｄ１的信息抽取。 “。
结构化的，并且中间夹杂着结构化和自由文本。网上的信息还是动态的，包含超链接，都以不同的形式出现。１Ｗｂ信息抽取的内容一般可以分为几个方面：．ｅ命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。
（）将Ｗｂ网页进行预处理。预处理的目的是将半结构１ｅ化ＨＭＴＬ页面去掉无用的信息以及对不规则的ＨＭＴＬ标识进行修正，为下一步标记信息做准备。（）用一组信息模式描述所需要抽取的信息。通常可以２针对某一领域的信息特征预定义好一系列的信息模式，存放在模式库中供用户选用。（）对文本进行合理的词法、句法及语义分析，通常包３括识别特定的名词短语和动词短语。
【摘要】文章阐述了ｗｅ息抽取的定义、抽取过程、Ｗｅ息抽取方法的分类，并指明了ｗ信息抽取的应用领域和ｂ信ｂ信ｂｅ
发展方向。【关键词】ｗｅ息抽取；自然语言；包装器；ｗｅｂ信ｂ查询；抽取对象
【中图分类号】Ｔ３３０Ｐ９．２
【文献标识码】Ａ
从Ｗｂ中抽取出所需要的信息，就成为了互联网信息搜索研ｅ究领域中一个重要的研究课题。
，
（）Ｗｂ信息抽取方法的分类三ｅ
把所有网页都归入半结构化文本是不恰当的。若能通过识别分隔符或信息点顺序等固定的格式信息正确抽取出来，那么该网页是结构化的。半结构化的网页则可能包含缺失的属性，或一个属性有多个值，或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性，则该网页是非结构化的。网页的结构化程度总是取决于用户想要抽取的属性是什么。通常机器产生的网页是非常结构化的，手工编写的则结构化程度差些，当然有很多例外。按照Ｗｂ信息抽取对象的结构化程度，大体上可以分为ｅ三种类型：结构化文本：自由文本；半结构化文本。１根据Ｗｂ信息抽取对象划分，可以分为三种类型：．ｅ（）从自由格式的文本中抽取出所需要的信息内容。自ｉ由文本的抽取技术可分为三类：基于自然语言处理（Ｐ）的ＮＬ方式；基于规则的方式：基于统计学习的方式。（）从半结构化的文本中，抽取出所需要的信息内容。２（）从结构化的文本中抽取出所需要的信息内容。３

e商务文档

浅谈web信息抽取

相关文档推荐：