复杂网络构建中信息抽取技术综述周峰吴斌石川(北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876)摘要复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮。
同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位。
将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用。
本文首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析。
关键字复杂网络信息抽取实体抽取属性抽取实体解析实体关系抽取Information extraction technology on construction of complex network (Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunications, Beijing)Abstract:Complex network provide us a new view to resolve the complex problem, so more and more scholars focus on it recently. Information Extraction is the foundation of automated information processing as a maturing technology. Integrating with IE and complex Network, we can extract the information of vertexes and edges through the technology of IE that can provide basic data for the construction of complex network, and greatly expand the complex network applications. In this paper, we introduce the basic concept and type of IE, and then describe and analysis the technology on construction of complex network.Keywords:Complex Network 、Information Extraction 、Entity Extraction、Attribute Extraction、Entity Resolution、Relation Extraction1.引言近年来,真实网络中小世界效应和无标度特性的发现激起了各界对复杂网络的研究热潮。
复杂网络的研究,为我们提供了一个复杂性研究的新视角、新方法,并且提供了一个比较的视野,可以在复杂网络研究的旗帜下,对各种复杂网络进行比较、研究与综合概括。
随着复杂网络分析算法的不断成熟和完善,针对复杂网络的应用,其构建已成为关键。
通过网络分析所得到信息的丰富和完整程度,往往取决于其构建过程中每个节点和边所包含的信息量。
而现实的大多数应用中,待构建网络的节点和边往往隐藏在非结构化或半结构化的文本信息中,如何从中准确而全面的抽取节点和边信息,成为构建复杂网络的关键问题。
信息抽取是一门正走向成熟的技术,在信息处理自动化中具有基础性的地位,将信息抽取融合到复杂网络中,能够有效的抽取网络的节点和边信息,为复杂网络的构建和表示提供数据准备,这将大大扩展复杂网络的应用范围。
XinLi等[1]通过信息抽取技术,将复杂网络的应用范围扩展到web页面,先抽取命名实体构建网络,再通过社区发现等方法在web上挖掘出知识来。
Dennis M. Wilkinson等[2]通过信息抽取技术,提取出与某一疾病相关的共现基因,而后构建成网络,划分一些相关基因的社区,从而能够帮助专家们发现出基因间的相互作用和它们之间的一些潜在联系。
这些网络构建与分析方法都为复杂网络的应用提供了新的思路。
随着非结构化和半结构化数据的增加,基于这些信息进行复杂网络分析已经成为一种必然趋势,信息抽取将会扮演越来越重要的角色,这也将大大促进复杂网络的发展。
信息抽取与复杂网络的融合将是一个新的研究和应用热点问题。
本文鉴于信息抽取对复杂网络的重大意义,对信息抽取作了简要介绍,并针对复杂网络的构建,描述了如何通过信息抽取技术抽取节点及其属性信息(包括通过实体解析对抽取节点进行预处理),如何抽取边的信息,并给出了一些应用实例,很具有启发意义。
2.信息抽取简介2.1. 信息抽取的概念信息抽取是直接从自然语言文本中抽取事实信息,并以结构化的形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息获取工具[21]。
信息抽取作为自然语言处理中一个发展很快的研究领域,它有如下特征:首先信息抽取是当前文本挖掘中最为突出的一项技术,这一技术结合了自然语言处理、语料资源以及语义技术,目前正趋于成熟;其次,信息抽取不是从文件集中选取一个与用户需求相关的子集,而是从文献中直接抽取与用户需求相关的事实或信息;再次,信息抽取是一个从无结构的自由文本或其他信息资源中抽取出结构化、无二义性信息的过程。
2.2. 信息抽取的类型信息抽取技术有多种分类方式。
根据各种工具采用的原理可分为五类:基于自然语言处理方式的信息抽取、包装器处理归纳方式的信息抽取、基于Ontology方式的信息抽取、基于HTML结构的信息抽取和基于Web查询的信息抽取[3]。
较具有代表性的MUC系列研究项目根据信息抽取内容以及抽取出信息的集聚水平的不同,将信息抽取分为以下几类[4]:1)命名实体识别(NE)信息抽取: NE信息抽取是最为基本的任务,实现从众多信息中表示并分离出相关的命名实体,这是正确理解文本的基础。
此类信息抽取需要系统能够识别出实体名,并将相应的实体名进行归类。
这需要信息抽取系统能够从自由文本中识别并抽取出人名、地名、机构名、时间以及某种类型的数字表达式(如货币数量、百分数),并在文本中对这些信息进行标注。
命名实体识别具有非常直接的使用价值,在对文本中的实体进行标注之后,即提供了对这些信息进行检索的可能。
对于许多语言处理系统,命名实体识别都是其中一个很重要的组件,是目前最有使用价值的一项技术。
2)多语言实体识别(MET)信息抽取:MET信息抽取除了能够对英文命名实体进行识别外,还能够对多语种的命名实体进行识别,例如可以对日文、中文或西班牙文等进行命名实体识别。
3)模板元素(TE)信息抽取:TE信息抽取将特定的描述信息与实体联系起来,它是从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象。
TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的小型属性模块之中。
4)参照(CO)信息抽取:CO信息抽取在进行NE或TE任务时,从文本中表示出对同一实体的不同表达方式。
CO可以将散布在文本中不同地方的同一实体的描述信息连接起来,同时分析实体在文本中不同地方出现的情况,以及次实体在不同场合与其它实体之间的关系,有助于情节信息的抽取。
5)模板关系(TR)信息抽取:TR信息抽取需要在TE的基础上表示出模板元素之间的关系。
TR是MUC7定义的一项新任务,它的抽取包括相关元素模板以及元素之间的相互关系。
6)情节模板(ST)信息:抽取ST主要是抽取某一事件中的时间信息并将时间信息与某个组织、人物或其它实体相关联。
ST需要表示出特定时间及时间的相关属性,包括将事件中的各个实体填充到事件的相应角色中,通过对象之间的关系,能够还原出整个事件的“原型”。
2.3. 信息抽取的方法设计信息抽取系统的方法基本分为两种:基于知识工程的方法和基于自动训练的方法。
第一种知识工程方法,由专家对语料库进行分析、调整从而人工制定规则、模板。
这种方法需要有经验的语言工程师来开发,个人的直觉能够对系统的性能起到很大的影响,性能较好,开发周期较长,一旦成型之后不容易进行修改。
第二种自动训练方法,给出标注的例子文档集,通过机器学习来推导模板和模板的自动填充规则,也可以应用统计学的方法来抽取。
使用这种方法的开发者并不需要掌握语言工程知识,但需要大量的经过标注的训练数据,如果需要对这类系统的核心进行修改,则相应的所有训练数据也需要重新标注。
3.复杂网络构建中的信息抽取技术节点和边是复杂网络的两个最基本的元素。
预对某一复杂性问题构建网络研究时,首先就应抽象出网络的节点和边。
因此,复杂网络构建中信息抽取技术的应用,主要集中在通过信息抽取技术,抽取出网络的节点信息和边信息。
3.1. 节点信息的抽取技术3.1.1.命名实体及属性信息抽取实际应用中,构建复杂网络的每个节点往往是一个个命名实体,它们组成了复杂网络的研究对象。
命名实体抽取是信息抽取中最为基础的类型,它需要系统能够从众多信息中标识并分离出相关的命名实体。
对于科技文献中命名实体的抽取不只局限在人名、地名、机构名的抽取上,还包括一些专门的术语、概念的抽取,比如在医学领域,需要识别出药品名、蛋白质名、基因名等等。
目前命名实体识别的难点在于:在不同领域、场景下,命名实体的外延有差异;数量巨大,不胜枚举,难以全部收录在词典中;某些类型的实体名称变化频繁,并且没有严格的规律可以遵循。
命名实体识别研究至今已经有近20年的发展历史,已经成为自然语言处理领域的一项重要技术,并取得了很多成果。
与大多数自然语言处理技术一样,命名实体识别的方法主要分为两大类:基于规则的方法和基于统计的方法。
较早的命名实体识别方法多采用手工构造有限状态机的方法,用模式和字符串相匹配。
在基于规则的方法中,命名实体识别使用的不仅有各种命名实体的构成规则,还有实体本身和上下文的关系以及用词情况。
但是基于规则的方法缺乏鲁棒性和可移植性,对于每个新领域的文本都需要更新规则来保持最优性能,而这需要大量的专门知识和人力,代价往往非常大。
相比较而言,基于统计的方法利用原始或经过加工的语料进行训练,语料的加工也不一定需要非常广博的语言学知识,较小规模的语料也可以在可接受的时间和人力代价内完成。
更重要的是,用统计方法实现的系统在移植到新的领域时可以不作或作较少的改动,只要利用新领域的语料进行训练即可。