当前位置:文档之家› 信息抽取技术面临的挑战及其策略

信息抽取技术面临的挑战及其策略

摘 要 :信 息抽取 是一 种帮助 人们在 海 量信 息源 中迅 速找 到真 正需要 的信 息 的技 术 。该文从 信 息抽 取 的概念 出发 。辨 析 了与信 息检 索 两者的 不同之 处 ,评 述 了信 息抽取 技 术的发展 趋 势 ,并提 出 了信 息抽取 存在 的 问题 和解 决策略 。 关键 词 :信 息抽取 ;信 息检 索 ;I R E;I 中图分类 号 :T 31 P 9 文 献标识码 :A 文章 编 号 :10 — 59( 01 0 — 03 0 07 99 21 ) 8 00 — 2
s u c f h f r ai ny u n e . i p p r tr n o t ec n e to , ay i o f r t nE ta t n a dI f r ai n o r eo ei o t n m t o e d I t s a e, a t g f m o c p f E a l ss f n o mai x r ci n o o nh s i r h I n I o o n m t o R t e a d f rn e ewe n te t . v e e d v lp n r n fI e h oo ya d p e e t I r b e d s li g er v l i e e c sb t e wor iws t e eo me tt d o E tc n l g , r sn s E p o lms a ovn i h e h e n n s ae is t tg e . r
计 算机 光盘 软件 与应 用
2 1 年第 8期 01 Cm u e DS f w r n p lc t o s o p t rC o ta ea dA p a i n i 信息技术应用研究
信息抽取技术面临 的挑战及其策略 30 2 103)
Ke wor :n o ma i xr ci ;n o ma o ere a ;E;R y dsI f r t e ta t I f r t nr tiv lI I on on i
随着 计算 机的 普及 以及互 联 网的迅速 发 展,大 量 的信息 以电 子 文档 的形式 出现 在人们 面前 。信 息 的过量 增长 带来一 定负 面影 响: 由于 目前 Wb上 存在 的信 息格式 具有 很大 的异构 性,信 息之 e 间的关联 描述 较少 ,面对 巨量 的信 息 ,用户 通过直 接浏 览 的方式 获取所需的信息十分困难 ,导致资源迷向 ( 不知道如何确切表达 对 真正想 要 的网上 资源 的需求 )和 信息 过载 ( 以消化 已经 下载 难 的信息 ) 。如何 将大 量无序 的信 息及 时准确 地进 行抽取 、过滤 、归 类 ,组织 成便 于查 询检 索 的形 式 ,帮助人 们 在海量 信息 源 中迅速 找 到真 正需要 的信 息 ,已成 为研 究开发 的焦 点 。信 息抽 取研 究正 是 在这种 背景 下产 生 的。 信息 抽取 的 内涵 及分 析 ( )信 息抽 取的概 念 一 信 息抽取 (n om to xr c in E Ifra in Et ato :I )是把文 本里 包含 的信息进 行结 构化 处理 , 成表格 ~样 的组织 形式 。 入 I 变 输 E系统 的是原始 文本 ,输 出 的是 固定 格 式的信 息 点。信 息抽取 的主 要任 务 是把信 息 点从各 种各 样 的文档 中抽取 出来 ,然 后 以统 一 的形式 集 成在 一起 。信息 抽取 系统可 以看 做是 把信 息从 不同文 档 中转换 成 数据 库记录 的系 统 ,它并不 试 图全面 理解 整篇 文档 ,只是 对文 档 中包含 相关 信息 的部分 进行 分析 。 ( )信 息检 索 的概 念 二 当 前与信 息抽 取密 切相关 的 一项研 究是 信息检 索 。信息 检索 (nom t o e re a ; R 是指信 息 按一定 的方 式组织起 来 , Ifr a in tiv l I ) R
I f r to t a t n Te h o o y Ch l n e n t a e is n o ma i n Ex r ci c n l g al g sa d S r t ge o e
Sh n Je e i
( a g h uC mma dC lg f A FH n z o 3 2 ,h a H n zo o n ol eo C P 。a g h u 1 0 3C i ) e 0 n
A s a t n om t nE t c o ( ) tcnq et h l p o l i t at mo ns fn om t nq i l t f dt a b t c Ifr a o x a t nI i a eh i e epe n h v s a u t o fr a o uc yo i e e l r : i r i E s u o p e i i k n h r


预先 设定 好的 有限种 类 的事实信 息 。 信息抽取技术可视为信息检索技术的一个深化。信息检索从 文 档的集 合 中寻找 与用户 要求 相关 的文 本或 段落 。信息 抽取则 是 在相 关文 本或 段落 的基础 上 ,发现 用户 需要 的信 息。这 两种技术 是 互补 的 ,信 息抽 取系统 通常 以信 息检 索系 统的输 出作 为输入 。 反之 ,也 可在信 息抽 取 的基础 上 ,进 行 高精度 的信 息检 索,二者 的 结合 能够更 好地服 务于 用户 的信息 处理 需求 。 信息 检索 一般对 文本 的语 义不进 行分 析 ,而 由用 户对 文本 的 语 义做 出解释 。信 息抽取 则 由系统 分析 文本 的语义 在此基 础上给 出用 户 需要的信 息 。 二 、信息抽 取 的作用 和意义 作为 一种 新兴发 展起 来的 Itr e 信 息处 理技术 , nen t 信息抽 取 在众 多领 域表 现 出强大 的功能和 美好 的发 展前景 。 ( )从 满足 用户信 息需 求 的角度 来看 ,信 息抽取 是其他信 一 息 获取手 段 的一种有 益补 充 随着 It re n ent的发 展 , 如何 从如 此 巨大的 网络信 息源 中获 取 用户 需要 的信 息( 知识 ) 人工智 能和 Itr e 研 究 的一个主题 。 是 ne nt 信 息检 索严格 来说 是文档 检索 、文本分 类 、文本 过滤 、文本聚类 等技 术 ,可 以从一个 大 的文档 集合 中找 出用 户需要 的相 关文档 , 而 I 技 术却 可 以从 相关 文档 中抽取 出粒 度更 小的关 系或事 件, E 满 足用 户 更深层 次和 更细粒 度 的信息 需求 。从这 个意 义上 说,I E是
相关主题