当前位置:
文档之家› 信息抽取技术的发展现状及构建方法的研究_刘迁
信息抽取技术的发展现状及构建方法的研究_刘迁
(2)基于统计模型的机器学习方法 。这类方法是根据统 计学原理 ,首先构造一个模型以模拟信息抽取的过程 ,应用统 计学方法从训练语料中得出模型的参数 ;然后用训练好的模型 对待抽取语料进行信息抽取 。基于统计模型的机器学习方法 就是从训练数据中构造一个抽取模型 ,模型的各个参数都是从 训练数据中估算获得 。可以看到 ,这类方法是对训练数据进行 归纳和总结 ,然后将归纳和总结的结果运用于待处理语料来完 成信息抽取的方法 。这类方法所利用的统计学模型主要有隐 马尔可夫模型 (H idden M arkov Model) 、最大熵模型 (M aximum Entropy Model)和条件随机场模型 ( Conditional Random Fields Model) 。
摘 要 : 介绍了信息抽取 ( IE)技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了 分类和介绍 ,并对这些方法进行了讨论和比较 ,同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。 关键词 : 自然语言处理 ; 信息抽取 ; 构建信息抽取系统方法 中图分类号 : TP391 文献标志码 : A 文章编号 : 100123695 (2007) 0720006204
Engineering App roach)和机器学习方法 (M achine Learning Ap2 p roach) 。
知识工程 ( KE)方法依靠人工编写抽取模式 ,使系统能处 理特定知识领域的信息抽取问题 。这种方法要求编写抽取模 式的知识工程师对该知识领域有深入的了解 。机器学习 (ML ) 方法是利用机器学习技术让信息抽取系统通过训练文本来获 得抽取模式 ,实现特定领域的信息抽取功能 。任何对该知识领 域比较熟悉的人都可以根据事先约定的规则来标记训练文本 。 利用这些训练文本训练后 ,系统能够处理没有标记的新的文 本 。知识工程方法的设计初始阶段较容易 ,但是要实现较完善 的规则库的过程往往比较耗时耗力 。自动学习方法抽取规则 的获取是通过学习自动获得的 ,但是该方法需要足够数量的训 练数据 ,才能保证系统的抽取质量 。
收稿日期 : 2006205221; 修返日期 : 2006209208 基金项目 : 国家“973”计划资助项目 ( G1999033006) 作者简介 :刘迁 ,男 ,博士研究生 ,主要研究方向为自然语言处理 、基于内容的文本挖掘技术 ( liuqian00@mails. tsinghua. edu. cn) ;焦慧 ,女 ,博士 研究生 ,主要研究方向为中文信息处理 、基于内容的文字信息处理 ;贾惠波 ,男 ,教授 ,博导 ,主要研究方向为仪器科学 、光存储技术 、信息系统.
信息抽取技术的最终目的就是开发实用的信息抽取系统 , 从自由文本中抽取 、分析信息 ,从而得到有用的 、用户感兴趣的 信息 。信息抽取技术在军事 、经济 、医学 、科学研究等领域有着 极大的应用空间 。
与信息抽取密切相关的一项研究是信息检索 ( Information Retrieval, IR)技术 。但是信息抽取与信息检索又有区别 ,其主 要区别如表 1所示 。
表 1 信息抽取与信息检索的区别
比较项
信息检索
信息抽取
实现功能
从大量文档中找到用户所需要 的文档或文档列表
从大量文档中直接获得用户所感 兴趣的事实信息
处理技术
利用统计及关键词匹配技术 ,无 须对文本进行深入分析处理
利用自然语言处理技术 ,对文本中 的句子及篇章进行分析处理
领域相关
否
是
虽然信息抽取与信息检索有区别 ,但两种技术是互补的 。 在海量文本的处理过程中 ,信息抽取系统往往是以信息检索系 统的输出为输入 ,而信息抽取技术又可以用来提高信息检索系 统的性能 。
第 24卷第 7期 2007 年 7 月
计算机应用研究 App lication Research of Computers
Vol. 24 No. 7 July 2007
信息抽取技术的发展现状及构建方法的研究 3
刘 迁 , 焦 慧 , 贾惠波
(清华大学 精密仪器与机械学系 清华大学光盘国家工程研究中心 , 北京 100084)
机器学习方法根据训练文本是否经过人工标注 ,又可分 为 [5 ]有指导的机器学习方法 ( Supervised M achine Learning, S2 ML )和无指 导 的 机 器 学 习 方 法 (Un2supervised M achine Lear2 ning) 。其中有指导的机器学习方法的研究起步较早 。经过十 几年的研究和发展 ,目前利用这种方法国外已经开发出不少实 用的信息抽取系统 。这些系统中的 S2ML 方法可以分为以下 几类 :
1 信息抽取的定义和任务
信息抽取技术是指从一段文本中抽取指定的事件 、事实等 信息 ,形成结构化的数据并存入一个数据库 ,供用户查询和使 用的过程 。也就是从文本中抽取用户感兴趣的事件 、实体和关 系 ,被抽取出来的信息以结构化的形式描述 ,然后存储在数据 库中 ,为情报分析和检测 、比价购物 、自动文摘 、文本分类等各 种应用提供服务 。广义上信息抽取技术的抽取对象并不局限 于文本 ,其他形式存在的信息也可以作为信息抽取的对象 ,而 抽取的结果则变为相应的结构化数据 。广义上信息抽取的过 程如图 1所示 。
Abstract: This paper introduced the concep t of IE techniques and the architecture of IE system. A nd it classified the existing app roaches of IE system. Through analyzing and comparing the app roaches of IE system in existence, it po inted out the key p roblem s to be solved in the Chinese IE system s. Key words: natural language p rocessing; info rmation extraction ( IE) ; app roaches of IE system
随着计算机在各个领域的广泛普及和 Internet的迅猛发 展 ,社会的信息总量呈指数级增长 。信息总量的量级 ,从 20世 纪 90 年 代 初 的 MB ( 106 ) 过 渡 到 GB ( 109 ) 再 到 现 在 的 TB (1012 ) 。进入 21世纪后 ,全世界信息总量更是以每三年增加 一倍的速度递增 。据统计 ,在这些海量信息中 ,有 60% ~70% 是以电子文档的形式存在 。为了应对信息爆炸带来的挑战 ,迫 切需要一些自动化的技术帮助人们在海量信息中迅速找到自 己真正需要的信息 。信息抽取 ( Information Extraction, IE)正是 解决这个问题的一种方法 。
早期出现的信息抽取系统 [6 ]往往是通过知识工程方法建 立的 。这些信息抽取系统依赖于人们手工建立的抽取模式 ,而 这些规则很难保证具有整体的系统性和逻辑性 。并且这些规 则领域相关性较高 。基于知识工程方法建立的信息抽取系统 移植性较差 。因此 ,寻找一种更加快速有效的方法让信息抽取 系统自动获取抽取模式变得十分迫切和重要 。这种形势使得 机器学习方法在信息抽取领域的研究受到了广泛的关注 [7, 8 ] 。
信息抽取可以理解为一个从待处理文本中抽取信息 ,并依 次填入输出模板 ( Temp late)相应的槽 ( Slot)中的过程 。输出模 板是由多个槽组成 ,它是信息抽取系统结构化的输出结果 。运 用完全 (深层 )句法分析 ( Full Syntactic Analysis)或浅层句法分 析 ( Shallow Syntactic Analysis)的信息抽取系统的结构会有一 些不同 ,但是它们的主要结构都可以由图 2所示的结构表示 。
2 信息抽取技术的研究对象及信息抽取过程
信息抽取技术的研究对象主要分为三种 [1 ] : ①结构化文 本 ( Structured Text) 。它是指按照一定格式严格生成的文本 , 如数据库中的文本信息等 。对此类文本的信息抽取非常容易 , 准确率也非常高 。 ②自由文本 ( Free Text) 。它是指文本中文 字合乎于自然语法规则的文本 ,如新闻报道 、科技文献 、政府文 件等 。 ③半结构化文本 ( Sem i2structured Text) 。它是介于结构
(1)基于特征向量的机器学习方法 。这类方法将信息抽 取问题转换为一个分类问题 。首先将训练语料和测试语料都 转换为特征向量 ,通过给定的训练数据构造一个分类函数 ,使 得这个分类函数能够对新数据进行正确分类 ,以实现信息抽 取 。常用 的 基 于 特 征 向 量 的 机 器 学 习 方 法 有 支 持 向 量 机 ( SVM ) [ 9 ]和 W innow[10 ]等 。
这个通用的信息抽取系统结构是由 C. Cardie[3 ]提出的 。 该结构由 五 个 步 骤组 成 : ①符 号 化 和 标 注 ( Tokenization and Tagging) 。输入文档首先经过分段 、分句后进行词性标注 ,有 些系统还会加入语义标注 。对于中文文档而言 ,在文档完成了 分句后还要进行自动分词的处理 。由于汉语本身的特点 ,该步 骤的处理对于中文信息抽取系统的性能起着比较关键的作用 。 ②句法分析 ( Sentence Analysis) 。信息抽取系统将识别待处理 文本的名词短语 、动词短语等各种语法结构 ,并选择一步或多 步策略进行句法分析 ,以识别与抽取任务相关的各类命名实体 (NE) 。 ③抽取 ( Extraction) 。系统利用与领域相关的抽取模 式来识别待处理文本中各个命名实体间的关系 ,根据抽取任务 将需要抽取的信息抽取出来 ,并填入到输出模板的槽中 。 ④指 代合并 (M erging) 。它主要解决待处理文本中命名实体的指代 重复问题 (Coreference Resolution) 。系统如果发现两个指代都 指向同一个命名实体 ,则将两个指代合并 。让信息抽取系统识 别待处理文本中相同命名实体的不同表达式 ,并将它们合并是 一项比较艰巨的任务 。这个问题解决的好坏直接影响着信息 抽取系统的性能 。 ⑤模板生成 ( Temp late Generation) 。这一步 主要完成推理和新模板生成的工作 。推理是根据抽取任务并 结合领域知识来对待处理文本进行推断以得出抽取信息 。当 待处理文档中包含多个事件 ( Event)时 ,则需要生成多个模板 分别对这些事件进行信息抽取 。