浅谈web信息抽取
信息抽取 的方法主要 可以分为以下两类:一类是基于层 次结构 的信息抽取归纳 方法 ,另一类是基于概念模型的多记 录信息抽取方法 。 W b信息抽取工作主要包装器 (r p e ) e W a p r 来完成 …。包装
2根据 自 . 动化程度可 以分为
人工方式的信息抽取 、半 自动方式的信息抽取和全 自动 方式的信息抽取三大类 。 3 根据现有 W b信息抽取系统和模 型实现原理 的不 同, . e 分为 以下几类 : ( )基于 归纳学 习的信息抽取 。通过对若干个待抽取 1 实例网页进行结构特征学 习,归纳 出抽取规则 ,然后使用抽
21 0 0年第 4期
大 众 科 技
DA ZHONG J KE
No.yN .2 ) C mu i l o1 8 av
浅谈 w b信 息抽取 e
李 斌
( 中国医科 大学附属第一 医院 ,辽 宁 沈 阳 10 0 ) 10 1
【 文章编号 】1 0 — 1 1 000 — 0 8 0 0 8 15 ( 1)4 04 — 2 2
统进行查询 分析 。
随着 I tr e n e n t的迅猛发展 , e W b已经成 为一个 巨大的信
息源 。曾几何时 ,人们开始 习惯于使用 网络搜 索引擎来查找 自己所 需要 的有用信息,但随着 W b信息数量 的快速增长, e 各网络搜索引擎所能覆盖的范 围比例却逐渐减 小,因此如何
器是一种软件过程 ,这个过程使用 已经 定义好的信息抽取规 则 ,将网络中 W b页面 的信息数据抽取出来,转换为用特定 e 的格式描述 的信息 。一个包装器 一般针 对某一种数据源 中的 类页面 。包装器运用规则执行程序对 实际要抽取的数据源
一
进行抽取。
2 抽取过程一般包括 以下几个 步骤 : .
是最近几年应用最广泛 的抽取 知识表达 模型 。它是一种随机 的有 限状态 自动机 ,由于 H 有成熟的学习算法和坚实的统 删 计基础 ,所 以在信息抽取 中是一种成功的模 型。 ( )基于特征模式匹配的信 息抽 取 。通过大量学习实 3 例 ,归纳学习出待抽取信息 的语法 结构模式 ,并根据这些模
式从待抽取网页 中抽取 出相 匹配 的信 息,适用于复杂结构信
息 的抽 取 。
( )使用模 式 匹配 方法识 别指定 的信 息模 式的各个 部 4
分。
( )进行上下文分析和推理 ,确定信息的最终形式。 5 ( )将结果输 出成结构化的描述型式 以便由网络集成系 6
( )什 么是 w b信息 抽取 一 e
W b信息抽取是指 从 W b页面所包含 的无结构、 e e 半结构或
者 结构化的信息中识别用户感兴趣的数据 ,并将其转化 为结 构和语义更为清晰的格式 的 W b页面信息抽取的过程 。 e
( )Wb信 息抽 取技术 涉及 的 内容 二 e
因特 网提供 了一个 巨大的信息源 。这种信息源往往 是半
取规则 自动分析待抽取信 息在 网页中的结构特征并实现信息 抽取。采 用这种原理 的典型 的系统有 SA K R O T E L , T L E ,SH MA Y
WE 。 I N
( )基于 H M(id n M r o o e ) 2 M H d e a k v M d 1的信息抽取。 “。
结构化 的,并且 中间夹杂着结构化和 自由文本 。网上 的信息 还是动态 的,包含超链接 ,都 以不 同的形式 出现 。 1W b信 息抽取 的内容一般可 以分为几个方面: .e 命名实体 的抽取 、与模板 有关的 内容信息抽取 、各个实 体之间关系的抽取和预 置事件 的信息抽取 。
( )将 W b网页进行预 处理 。预处理 的 目的是将半结构 1 e 化 HM T L页面去掉无用的信息以及对 不规则的 HM T L标识进行 修 正,为下一步标记信息做准 备。 ( )用一组信 息模式描述所需要抽取的信息。通常可以 2 针对某 一领域 的信息特征预定义好一系列 的信息模式 ,存放 在模式库 中供用户选用 。 ( )对文本进行合理 的词法 、句法及语义分析 ,通常包 3 括识别特定的名词短语和动词短语 。
【 摘 要】文章 阐述 了 we 息抽取的定义、抽取过程 、We 息抽取 方法的分类 ,并指明 了 w 信息抽取的应用领域 和 b信 b信 b e
发展方向。 【 关键 词】we 息抽取 ; 自然语言 ;包装器;we b信 b查询;抽取对 象
【 中图分类号 】T 330 P 9 .2
【 文献标识码 】A
从 W b中抽取 出所需要的信息,就成 为了互联 网信息搜索研 e 究领域 中一个重要的研究课题 。
,
( )Wb信 息抽 取方 法的分 类 三 e
把 所有 网页都归入半结构化文本 是不恰 当的 。若能通过 识别分隔符或信息 点顺序等 固定的格式信息正确抽取 出来 , 那 么该网页是结构化 的。半结 构化 的网页则可能包含缺失的 属 性,或一个属性有多个值 ,或一个属 性有多个变体等例外 的情况 。若需要用语言学 知识才 能正确 抽取属性 ,则该网页 是非结构化 的。 网页的结构 化程度总是取决于用户想要抽取 的属性是什 么。通 常机器产生的 网页是非常结 构化 的,手工编写的则结 构化程度差些 ,当然有很多例外。 按照 W b信息抽取对象的结构化程度 ,大体上可 以分为 e 三种类型 :结构化文本: 自由文本;半结构化文本 。 1 根据 W b信息抽取对象划 分,可以分为三种类型 : . e ( )从 自由格式 的文本 中抽取 出所需要的信息内容。自 i 由文本 的抽取技术可分为三类 :基于 自然语言处理 (P )的 NL 方式 ;基于规则的方式:基 于统计学 习的方式 。 ( )从 半结构化的文本 中,抽取出所 需要的信息 内容。 2 ( )从结构化 的文本中抽取 出所需要的信 息内容 。 3