当前位置:文档之家› 基于辅助短语标记的名词短语识别

基于辅助短语标记的名词短语识别

第3 1卷第1期 

2 0 1 4年2月 沈阳航空航天大学学报 

Joumal of Shenyang Aerospace University VO1.31 No.1 Feb.2 0 1 4 

文章编号:2095—1248(2014)01—0052—08 

基于辅助短语标记的名词短语识别 

刘 飞,周俏丽,张桂平 (沈阳航空航天大学知识工程中心,沈阳110136) 

摘要:名词短语的识别是自然语言处理领域中非常重要的子任务。而名词短语的识别性能与识别 效率一直是研究人员关注的焦点,为了达到兼顾二者的目的,提出了一种基于辅助短语标记识别 名词短语的方法。首先,在分析了短语不同分类体系的基础上,构建了一种映射公式,并根据该公 式对不同分类体系的短语类别之间进行映射。然后,根据映射结果及短语的概率分布进行辅助短 语标记的组合。实验结果表明,本文的方法在提高 值的基础上,有效地降低了系统的时问开销。 关键词:辅助短语标记;名词短语;映射公式 中图分类号:TP391.1 文献标志码:A doi:10.3969/j.issn.2095—1248.2014.01.012 

Recognition of Chinese noun phrase based on auxiliary phrase mark 

LIU Fei,ZHOU Qiao—li,ZHANG Gui—ping (Knowledge Engineering Research Center,Shenyang Aerospace University,Shenyang 1 10136) 

Abstract:Noun Phrase Recognition is one of the most critical components in natural language processing 

field.The noun phrase recognition performance and its efficiency are the focus of researchers attention.In order to combine the two elements,this paper proposes a method of recognizing noun phrases based on auxil— 

iary phrase mark.First,this paper presents a mapping between phrases by using the mapping formula based 

on the detmled analysis of the different classification system of the phrases.Then,according to the mapping results and the probability of the distribution of the auxiliary phrase mark,lots of combinations are estab- 

lished.Experimental results show that this method effectively reduces the time of noun phrase recognition without reducing the F—value. 

Key words:auxiliary phrase mark;noun phrase;mapping formula 

自然语言处理的主要任务是使机器自动的理 

解人类语言,而名词短语的识别是自然语言处理 领域中非常重要的子任务,它直接关系到文本分 

析和文本处理的正确性。例如,信息抽取系统将 名词短语作为它的主要识别对象。同时,名词短 

语的识别又是自然语言处理领域中许多子任务的 

基础。 

名词短语的实质是关于名词的特殊表达,例 如,为了表达“心情愉悦”,通常会附带一系列的 

例如“跑”、“跳”、“笑”之类的动词,然而通过这 些动词很难猜测出文章所要阐述的主要内容。但 

是,我们可以根据“心情”、“笑容”、“开心”之类 

的名词,便可以轻而易举的揣测出文章所要表达 

的主要思想。由此可见,为了使机器自动理解人 

类语言,名词短语的识别是其必经之路。此外,作 

为一项重要的基础研究,名词短语的自动识别与 

分析对于自然语言处理领域中的许多应用研究, 

包括句法分析、信息检索、信息抽取、机器翻译等, 

都具有重要的实践意义¨J。当前,针对名词短语 

(NP)的识别,研究较多的主要有最短名词短语的 

收稿日期:2013—10—24 基金项目:国家科技支撑计划项目(项目编号:2012BAH14F00);辽宁省教育厅科学研究一般项目(项目编号:L2012056) 作者简介:刘飞(1987一),女,辽宁大连人,在读硕士,主要研究方向:知识管理与智能人机交互,E.mail:fei1201l@163.com;张桂 平(1962一),女,辽宁本溪人,教授,主要研究方向:自然语言处理,机器翻译,E.mail:zgp@ge.soft.com。

 第1期 刘 飞,等:基于辅助短语标记的名词短语识别 53 

识别和最长名词短语的识别。其中,识别最短名 

词短语可以提高信息检索效率。识别最长名词短 

语可以方便地把握句子的整体结构框架,快速地 构建句子的完整句法结构。但是,这两种形式的 

名词短语都忽略了中间层次的名词短语,通过识 别中间层次的名词短语可以分析出子句框架,从 

而得到子句到整句完整的句子结构框架,同时,中 间层次名词短语的识别对基本名词短语的识别和 最大名词短语的识别也具有一定的促进作用 J。 

1相关研究工作 

近几年来,国内外研究人员在名词短语的自 

动识别方面进行了许多有益的探索,提出了一些 

行之有效的识别方法。主要有基于句法分析的方 法和基于机器学习的方法。 基于句法分析方法,Abney_3 首次将句法分 

析方法运用到英语组块分析系统CASS中。首先 对句子进行句法分析,然后从分析的结果中提取 

名词短语部分,从而得到名词短语的识别结果。 

但是名词短语的识别效果主要受句法分析器性能 的制约。 

基于机器学习的方法采用统计学的处理技术 从大规模语料库中获取语言分析所需要的知识。 

基于机器学习产生的方法主要有:(1)基于错误 

驱动法。错误驱动法也叫基于变换的方法。 Lance 4 等人首次利用该方法进行英文组块分析。 

这种方法适用于解决从语料库中学习转换规则的 

传统问题。相比而言,对计算机的性能要求较高, 并且计算较复杂。(2)基于最大熵(ME)模型。 

ME模型是基于最大熵理论的统计模型。主要思 想是,用有限知识预测未知时,不做任何有偏性假 设。周雅倩 和Koelingl6 分别利用该模型进行 

了中英文名词短语的识别。(3)隐马尔科夫 (HMM)模型。HMM模型包含一个双重随机过 

程,一个基本随机过程是系统状态变化的过程;另 

一个是由状态决定观察的随机过程。李荣 在 

识别非嵌套名词短语时,采用了此模型。这种模 型充分利用了词位信息,但由于独立性假设使其 

忽略了一些特殊特征。(4)支持向量机(SVM)模 

型。SVM模型根据结构风险最小化原则,对训练 

样本进行优化学习,能够获得具有很好泛化能力 的分类器。Kudo 利用这种方法识别基本的名 

词短语,并在CoNLL一2000基本名词短语识别的 

评测中,取得了第一名。由于SVM考虑了上下 

文信息并可以自由加入新特征,使得执行过程非 常复杂。(5)基于条件随机场(CRF)模型。CRF 

模型是在给定需要标注的观察序列的条件下,计 算整个标注序列的联合概率。F.Sha_9 在识别名 

词短语的过程中,使用了CRF模型。由于标记序 列的分布条件属性,可以使CRF很好的拟和现实 

数据,所以不存在标记偏置问题。 

在Whitney的论文中,对以上方法做了详细 的实验对比,通过对比可以看出,SVM和CRF的 

识别结果较其它好,,值分别达到94.39%和 

94.38%,而句法分析方法的识别结果较其它差, 

F值是77%。由于句法分析方法的效果主要依 赖于句法分析器的性能,而在Whimey的论文中, 

句法分析的方法又是基于规则的,所以识别的效 

果较其它差。通过1O年和12年两届的CIPS— SIGHAN测评可以看出,目前,主流的句法分析方 

法主要是基于统计的。并且在统计的句法分析器 

中Berkeley Parser的识别效果较好。所以本文分 别利用CRF、SVM和Berkeley Parser工具进行名 

词短语的识别,并对实验结果进行了对比分析,采 

用的实验数据来源于宾州树库5.0,在该树库中, 

训练语料包含18083句,测试语料包含348句。 具体结果如表1所示。 

表1名词短语识别结果对比 

通过以上的对比实验可以看出,句法分析方 

法的识别效果较其他两种好,分析原因主要是由 于在进行句法分析时利用了丰富的短语标记信 

息,但也正是由于丰富的短语标记信息,使得识别 

效率降低。而SVM和CRF在进行名词短语识别 

时只有NP标记,由于包含的标记信息少,所以识 别的准确率低,识别效率高。由于CRF可以自由 

选择特征,所以识别的效果较SVM好。为了达 

到兼顾识别时间和识别性能的目的,本文提出了 

一种基于辅助短语标记识别名词短语的方法。 

2如何选择辅助短语标记 

为了选择辅助短语标记,本文分别从两个角 

度对短语标记进行分析,一是,从短语的语法功能 

角度进行分析。二是,从短语的结构组合角度进 

行分析。通过分析,本文主要从两方面衡量辅助 54 沈阳航空航天大学学报 第31卷 

短语标记的选择,一方面,选择的辅助短语标记对 名词短语的识别具有促进作用。另一方面,利用 

选出的辅助短语标记识别名词短语时,能降低系 统时间开销。 2.1短语的语法功能类别 

张斌 叫在《现代汉语》中指出,短语是一种句 

子的结构单位,是造句的备用材料,短语从外部的 

语法功能进行分类,可以分成体词性短语、谓词性 短语、加词性短语。短语这种三分的方法反映了 

语法学界对实词内部认识的一种深化,是语法研 究更加精密化和科学化的必然结果。 

体词性短语的语法功能主要做主语、宾语,一 

般不做谓语。体词性短语包括五种类别。(1)以 体词为中心的偏正短语。(2)带有定语的以谓词 

为中心的偏正短语。(3)由各类体词组成的联合 

短语。(4)同位短语。(5)“的”字短语和由名量 词组成的量词短语。谓词性短语的语法功能与谓 

词一样,在句子中主要做谓语,有时也能做主语和 宾语。从短语的结构分类上看,谓词性短语包括 

两种类别:(1)形容词短语。(2)动词短语。加词 

性短语在句子中只能充当定语和状语。加词性短 语主要包括介词短语,以及做修饰成分的偏正短 语和固定短语。 石毓智 在《汉语语法》中指出,句子的基本 

成分都是S(主语)、V(谓语动词)和O(宾语)。  ̄kJ'b,还包括定语、状语和补语。张斌在《现代汉 

语》中指出,句子中的主语和宾语主要由体词性 

短语构成,谓语主要由谓词性短语构成,状语和定 语主要由加词性短语构成。从短语的角度进行分 

析,句子的主要成分包含在体词性短语、谓词性短 

语和加词性短语中。所以分别识别出体词性短 语、谓词性短语和加词性短语中的主要部分便可 

以得到整个句子的框架。 

={孽 茬 2.2短语的结构组合类别 周强 坦 和俞士汶¨ 指出,对短语的标注,除 

了利用句法功能信息确定不同短语的边界及其相 应的标记外,还可以利用不同短语的结构组合信 

息以及一些特征词信息,得到短语的划分和标注。 根据这个原则,产生了不同的短语标注体系。较 

典型的主要有,北京大学的短语标注体系,中国台 

湾中研院的短语标注体系,LCD的中文树库的短 语标注体系等。由于本文实验语料来自LCD的 

中文树库Chinese Tree Bank4.0(CTB4.0),所以, 本文统计了该树库中的短语类别,共有24类。主 

要可以分为以下几大类: 

(1)名词性短语:NP、DNP、QP、DVP; (2)动词性短语:VP、VRD、VFrr、VCD、VSB、 

VCP; 

(3)介词短语:PP; (4)形容词短语:ADJP; 

(5)副词短语:ADVP; (6)量词短语:QP,CLP; 

(7)并列短语:UCP。 2.3构建短语类别映射公式 细致考察短语的语法功能类别和短语的结构 

组合类别,可以发现,两种类别的短语之间存在一 定的关联。为达到深度剖析句法内部结构的目 的,短语的结构组合类别对短语的语法功能类别 

做了细化工作。由于体词性短语、谓词性短语和 加词性短语,这三类短语在句子中充当主要成分, 

所以将这三种类型的短语识别出来,便可以得到 

句子的框架。但是由于目前的语料库是基于短语 的结构组合进行短语类别的标注,所以,需要将两 

种短语类别构建映射关系,本文针对宾州树库 4.0中的短语类别做了如下的映射公式。 

X∈t NP,QP,DNP,CP,DVP,CLP} X∈{VP,ADJP,VRD,VCD,VSB,VPT,VCP,VNV,UCP 

X∈{PP,IP,ADVP,PRN,FRAG} 

其中每种标记的具体定义如表2所示。 

根据语法功能,可以将名词性质的短语映射 

到体词性短语中,形容词短语、动词性短语映射到 谓词性短语中,介词短语和副词短语等映射到加 

词性短语中;对于每种短语的分布情况本文分别 作了详细统计,具体如表3所示。 

从表3可以看出,在体词性短语中,出现频率 较高的有NP、DNP、QP和CLP;在谓词性短语中, 出现频率较高的有VP、ADJP;在加词性短语中, 

出现频率较高的有IP、ADVP和PP。所以可以从 

这三类短语中分别选出频率较高的几种短语类别 

进行组合。从而本文提出了一种基于辅助短语标 

记识别名词短语的方法。

相关主题