当前位置：文档之家› 信息抽取技术的发展现状及构建方法的研究_刘迁

信息抽取技术的发展现状及构建方法的研究_刘迁

(2)基于统计模型的机器学习方法。这类方法是根据统计学原理 ,首先构造一个模型以模拟信息抽取的过程 ,应用统计学方法从训练语料中得出模型的参数 ;然后用训练好的模型对待抽取语料进行信息抽取。基于统计模型的机器学习方法就是从训练数据中构造一个抽取模型 ,模型的各个参数都是从训练数据中估算获得。可以看到 ,这类方法是对训练数据进行归纳和总结 ,然后将归纳和总结的结果运用于待处理语料来完成信息抽取的方法。这类方法所利用的统计学模型主要有隐马尔可夫模型 (H idden M arkov Model) 、最大熵模型 (M aximum Entropy Model)和条件随机场模型 ( Conditional Random Fields Model) 。
摘要 : 介绍了信息抽取 ( IE)技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了分类和介绍 ,并对这些方法进行了讨论和比较 ,同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。关键词 : 自然语言处理 ; 信息抽取 ; 构建信息抽取系统方法中图分类号 : TP391 文献标志码 : A 文章编号 : 100123695 (2007) 0720006204
Engineering App roach)和机器学习方法 (M achine Learning Ap2 p roach) 。
知识工程 ( KE)方法依靠人工编写抽取模式 ,使系统能处理特定知识领域的信息抽取问题。这种方法要求编写抽取模式的知识工程师对该知识领域有深入的了解。机器学习 (ML ) 方法是利用机器学习技术让信息抽取系统通过训练文本来获得抽取模式 ,实现特定领域的信息抽取功能。任何对该知识领域比较熟悉的人都可以根据事先约定的规则来标记训练文本。利用这些训练文本训练后 ,系统能够处理没有标记的新的文本。知识工程方法的设计初始阶段较容易 ,但是要实现较完善的规则库的过程往往比较耗时耗力。自动学习方法抽取规则的获取是通过学习自动获得的 ,但是该方法需要足够数量的训练数据 ,才能保证系统的抽取质量。
收稿日期 : 2006205221; 修返日期 : 2006209208 基金项目 : 国家“973”计划资助项目 ( G1999033006) 作者简介 :刘迁 ,男 ,博士研究生 ,主要研究方向为自然语言处理、基于内容的文本挖掘技术 ( liuqian00@mails. tsinghua. edu. cn) ;焦慧 ,女 ,博士研究生 ,主要研究方向为中文信息处理、基于内容的文字信息处理 ;贾惠波 ,男 ,教授 ,博导 ,主要研究方向为仪器科学、光存储技术、信息系统.
信息抽取技术的最终目的就是开发实用的信息抽取系统 , 从自由文本中抽取、分析信息 ,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。
与信息抽取密切相关的一项研究是信息检索 ( Information Retrieval, IR)技术。但是信息抽取与信息检索又有区别 ,其主要区别如表 1所示。
表 1 信息抽取与信息检索的区别
比较项
信息检索
信息抽取
实现功能
从大量文档中找到用户所需要的文档或文档列表
从大量文档中直接获得用户所感兴趣的事实信息
处理技术
利用统计及关键词匹配技术 ,无须对文本进行深入分析处理
利用自然语言处理技术 ,对文本中的句子及篇章进行分析处理
领域相关
否
是
虽然信息抽取与信息检索有区别 ,但两种技术是互补的。在海量文本的处理过程中 ,信息抽取系统往往是以信息检索系统的输出为输入 ,而信息抽取技术又可以用来提高信息检索系统的性能。
第 24卷第 7期 2007 年 7 月
计算机应用研究 App lication Research of Computers
Vol. 24 No. 7 July 2007
信息抽取技术的发展现状及构建方法的研究 3
刘迁 , 焦慧 , 贾惠波
(清华大学精密仪器与机械学系清华大学光盘国家工程研究中心 , 北京 100084)
机器学习方法根据训练文本是否经过人工标注 ,又可分为 [5 ]有指导的机器学习方法 ( Supervised M achine Learning, S2 ML )和无指导的机器学习方法 (Un2supervised M achine Lear2 ning) 。其中有指导的机器学习方法的研究起步较早。经过十几年的研究和发展 ,目前利用这种方法国外已经开发出不少实用的信息抽取系统。这些系统中的 S2ML 方法可以分为以下几类 :
1 信息抽取的定义和任务
信息抽取技术是指从一段文本中抽取指定的事件、事实等信息 ,形成结构化的数据并存入一个数据库 ,供用户查询和使用的过程。也就是从文本中抽取用户感兴趣的事件、实体和关系 ,被抽取出来的信息以结构化的形式描述 ,然后存储在数据库中 ,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本 ,其他形式存在的信息也可以作为信息抽取的对象 ,而抽取的结果则变为相应的结构化数据。广义上信息抽取的过程如图 1所示。
Abstract: This paper introduced the concep t of IE techniques and the architecture of IE system. A nd it classified the existing app roaches of IE system. Through analyzing and comparing the app roaches of IE system in existence, it po inted out the key p roblem s to be solved in the Chinese IE system s. Key words: natural language p rocessing; info rmation extraction ( IE) ; app roaches of IE system
随着计算机在各个领域的广泛普及和 Internet的迅猛发展 ,社会的信息总量呈指数级增长。信息总量的量级 ,从 20世纪 90 年代初的 MB ( 106 ) 过渡到 GB ( 109 ) 再到现在的 TB (1012 ) 。进入 21世纪后 ,全世界信息总量更是以每三年增加一倍的速度递增。据统计 ,在这些海量信息中 ,有 60% ～70% 是以电子文档的形式存在。为了应对信息爆炸带来的挑战 ,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取 ( Information Extraction, IE)正是解决这个问题的一种方法。
早期出现的信息抽取系统 [6 ]往往是通过知识工程方法建立的。这些信息抽取系统依赖于人们手工建立的抽取模式 ,而这些规则很难保证具有整体的系统性和逻辑性。并且这些规则领域相关性较高。基于知识工程方法建立的信息抽取系统移植性较差。因此 ,寻找一种更加快速有效的方法让信息抽取系统自动获取抽取模式变得十分迫切和重要。这种形势使得机器学习方法在信息抽取领域的研究受到了广泛的关注 [7, 8 ] 。
信息抽取可以理解为一个从待处理文本中抽取信息 ,并依次填入输出模板 ( Temp late)相应的槽 ( Slot)中的过程。输出模板是由多个槽组成 ,它是信息抽取系统结构化的输出结果。运用完全 (深层 )句法分析 ( Full Syntactic Analysis)或浅层句法分析 ( Shallow Syntactic Analysis)的信息抽取系统的结构会有一些不同 ,但是它们的主要结构都可以由图 2所示的结构表示。
2 信息抽取技术的研究对象及信息抽取过程
信息抽取技术的研究对象主要分为三种 [1 ] : ①结构化文本 ( Structured Text) 。它是指按照一定格式严格生成的文本 , 如数据库中的文本信息等。对此类文本的信息抽取非常容易 , 准确率也非常高。 ②自由文本 ( Free Text) 。它是指文本中文字合乎于自然语法规则的文本 ,如新闻报道、科技文献、政府文件等。 ③半结构化文本 ( Sem i2structured Text) 。它是介于结构
(1)基于特征向量的机器学习方法。这类方法将信息抽取问题转换为一个分类问题。首先将训练语料和测试语料都转换为特征向量 ,通过给定的训练数据构造一个分类函数 ,使得这个分类函数能够对新数据进行正确分类 ,以实现信息抽取。常用的基于特征向量的机器学习方法有支持向量机 ( SVM ) [ 9 ]和 W innow[10 ]等。
这个通用的信息抽取系统结构是由 C. Cardie[3 ]提出的。该结构由五个步骤组成 : ①符号化和标注 ( Tokenization and Tagging) 。输入文档首先经过分段、分句后进行词性标注 ,有些系统还会加入语义标注。对于中文文档而言 ,在文档完成了分句后还要进行自动分词的处理。由于汉语本身的特点 ,该步骤的处理对于中文信息抽取系统的性能起着比较关键的作用。 ②句法分析 ( Sentence Analysis) 。信息抽取系统将识别待处理文本的名词短语、动词短语等各种语法结构 ,并选择一步或多步策略进行句法分析 ,以识别与抽取任务相关的各类命名实体 (NE) 。 ③抽取 ( Extraction) 。系统利用与领域相关的抽取模式来识别待处理文本中各个命名实体间的关系 ,根据抽取任务将需要抽取的信息抽取出来 ,并填入到输出模板的槽中。 ④指代合并 (M erging) 。它主要解决待处理文本中命名实体的指代重复问题 (Coreference Resolution) 。系统如果发现两个指代都指向同一个命名实体 ,则将两个指代合并。让信息抽取系统识别待处理文本中相同命名实体的不同表达式 ,并将它们合并是一项比较艰巨的任务。这个问题解决的好坏直接影响着信息抽取系统的性能。 ⑤模板生成 ( Temp late Generation) 。这一步主要完成推理和新模板生成的工作。推理是根据抽取任务并结合领域知识来对待处理文本进行推断以得出抽取信息。当待处理文档中包含多个事件 ( Event)时 ,则需要生成多个模板分别对这些事件进行信息抽取。

e商务文档

信息抽取技术的发展现状及构建方法的研究_刘迁

相关文档推荐：