当前位置:文档之家› 一种基于混合分析的汉语文本句法语义分析方法

一种基于混合分析的汉语文本句法语义分析方法

中 文 信 息 学 报第16卷第4期 JOURNAL OF CHINESE INFORMATION PROC ESSING Vol.16No.4一种基于混合分析的汉语文本句法语义分析方法尹 凌 姚天 张冬茉 李 芳(上海交通大学计算机科学与工程系 上海 200030)摘要:本文提出了一种领域相关的汉语文本句法语义分析方法。

根据领域文本的特点,该方法将浅层句法分析和深层句法语义分析结合在了一起。

其浅层句法分析部分采用有限状态层叠的方法,将文本中的命名实体识别出来,从而大大减轻了深层分析部分的负担。

其深层句法语义分析部分将语义分析和语法分析结合起来,主要依靠词汇搭配信息来决定句子的结构。

该方法在解决领域相关文本的短语结构歧义方面取得了较好的试验结果。

关键词:浅层句法分析;深层句法分析;有限状态层叠;分语义场中图分类号:T P391.1A Hybrid Analysis Based Chinese Text Syntactic andSemantic Analysis MethodYin Ling Y ao T ian fang Zhang Dong mo Li Fang(Department of Computer Science and Engineeri ng Shanghai Jiao Tong University 200030 Shanghai) Abstract:T his paper proposes a Chinese text analysis method on specific domain.A ccording to the texts character, t his met hod combines shallow parsing technolog y w ith deep parsing and semantic analysis technology.Drawing on fi nite state cascades method,its shallow parsing module recognizes named entities in the tex ts.So that it greatly eases t he burden of the deep analysis mo dule.Principally depending on wo rd collocation information,its deep analysis mod ule combines syntactic analysis and semantic analysis to determine sentence structure.It gains goo d effect at resolv ing t he ambiguity of phrase structure in specific do main.Key Words:shallow parsing;deep parsing;finite state cascades;sub semant ic field一、概述对于汉语语料库的多级加工,主要分为切词、词类标注、短语结构标注、语义信息标注[1]等。

针对后两个阶段,本文以足球比赛报道为试验领域,提出了一种领域相关的汉语文本分析方法。

它对已经完成分词和词性标注的中间文本进行处理,借鉴并扩展了C.J.Fillmore的格语法,分析结果力求将句子中各个成分之间的格关系标注清楚。

分析足球比赛报道文本的特点,发现有许多实体名称,如球队名称,比赛名称,人的身份等,对深层句法和语义分析是至关重要的。

我们把这些实体名称称为命名实体(named enti收稿日期:2001-12-24基金项目:国家自然科学基金(60083003).作者尹凌,女,1978年生,上海交通大学计算机系研究生,主要研究方向为自然语言处理.姚天,男,上海交通大学副教授,主要研究方向为自然语言处理.张冬茉,女,上海交通大学副教授,主要研究方向为自然语言处理.李芳,女,上海交通大学副教授,主要研究方向为自然语言处理.ty)。

这些命名实体通常由一列并置的名词组成,可以由简单的语法规则识别,直接调用深层分析很可能由于前面词汇错误的结合,将它们拆分开来。

如果用浅层句法分析先将这些实体标注出来,深层分析在此基础上再进行分析,这样就可以大大减少深层分析失败的情况。

由此,我们采用深层分析和浅层分析相结合的方法,在深层分析之前,先用浅层分析对句子进行预处理。

在以下各节当中,首先介绍了系统的整体框架;然后阐述了浅层分析部分的主要原理;第四节讨论了深层分析部分的数据准备和核心算法;第五节给出标注结果;第六节对系统进行了讨论和评测。

二、系统整体框架该系统的整体框架如图1所示。

图中第三个步骤属于浅层分析模块,后四个步骤属于深层分析模块,值得说明的是,第二个步骤中,对应每个词的语义码来自于根据词汇的搭配关系制定的分语义场。

第四个步骤中,挑选句子的谓语中心词借鉴了北京大学的骨架分析法。

图1 系统流程图三、浅层句法分析浅层句法分析(shallow parsing)是近年来自然语言处理领域流行的一种新的语言处理方法[2,3],它是与深层句法分析相对的。

深层句法分析要求得到句子完整的句法树,而浅层句法分析则只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。

在我们所处理的足球比赛语料中,如足球队名、足球比赛名和人的身份等命名实体就通常是由并置的名词组成的。

当这些命名实体被识别以后,在深层句法和语义分析的任务在某种程度上得到简化,同时也有利于采用句法分析技术有效的处理大规模真实文本。

3.1 命名实体的组成成分在我们的实验系统中要识别的命名实体是足球队名、足球比赛名和人的身份。

它们的组成成分介绍如下。

1.足球队名:它表示足球队的名称。

主要组成成分有:国家名、省市(州)名、公司名、产品名等。

例如:中国队、四川队、上海申花队、拜仁慕尼黑队等。

2.足球比赛名:它表示足球比赛的名称。

主要组成成分有:简称、区别词、量词、数字串、字母串、洲名、国家名、城市名、产品名等。

例如:全国女足超级联赛、泰王杯国际足球邀请赛等。

3.人的身份:它表示在上下文中所提及的人的身份。

例如:门将、球员、外援、裁判员等。

这些身份与人名、队名、地点名、数词、量词等上下文有关。

如:阿根廷中场肯佩斯、北欧队员等。

为了快速而可靠地分析和识别上述命名实体。

我们采用了有限状态层叠机制。

并且在正则式中加入了语义限制。

下面将介绍这一分析机制的原理。

3.2 有限状态层叠机制及其自动构造有限状态层叠[3]是Abney于1996年提出的。

它包括多个层级,分析逐层进行,每一层的分析由一个有限状态自动机完成,故称为有限状态层叠。

每一级上短语的建立都只能在前一级分析结果的基础之上进行,没有递归,即任何一个短语都不包含同一级的短语或高一级的短语。

分析过程包括一系列状态转换,用T i表示。

在每一级上,通常的状态转换操作的结果是合并输入串中的一个元素序列成为单个元素,并为其标明实体类别信息。

每一个转换定义为一个模式的集合。

每一个模式包括一个识别范畴和一个由POS符号组成的正则式以及正则式相应的语义限制规则。

其定义如下:识别范畴 POS正则式(语义限制规则1|语义限制规则2| |语义限制规则n)|!表示规则之间是或!的关系。

正则式可构造有限状态自动机,模式自动结合在一起就产生一个单一的、确定性的有限状态层级识别器(level recog nizer)T i,它以上一级的输出L i-1为输入,并产生L i作为输出。

在模式匹配过程中,如遇到冲突(即两个或两个以上的模式都可以运用),则按最长匹配原则选择合适的模式。

用模式匹配识别命名实体的时候,先根据词汇的POS符号匹配正则式,同时也要检查是否符合其语义限制。

例如:TN N5+N+KEY WORD(CityName+CompanyName+T eam NameKeyw ord|CityName+ProductName+TeamNameKeyw ord|ProvinceName+CityName+ T eamNameKeyword|Prov inceName+CompanyName+TeamNameKeyword)这里,TN表示Team Name。

!后面为正则式,正则式中的+!表示一般的符号连接关系。

由于我们采用山西大学的分词和标注系统[4]切分句子。

所以正则式中的POS符号也同样采用他们POS集的符号。

如N表示一般名词,N5表示中国地名。

同时,我们补充了一些符号,如KEY WORD表示命名实体的关键字。

括号内是该正则式相应的语义限制规则,+!意义同上。

语义限制规则中的语义符号是我们自己定义的,从符号本身就可以知道它所代表的意义。

相应于这些语义符号所对应的语义类别,包含于分语义场中。

考虑到有限状态层叠机制的独立性和可维护性。

我们采用了根据模式集合自动构造有限状态层叠的方法,其构造原则是:在保证所构造的自动机的正确性的前提下,其状态尽量不要冗余。

为了保证构图的正确性,每加入一条新的边时,要进行正确性的检查。

如该条边所涉及的结点的入度和出度等。

另外,为了减少自动机的复杂性,我们限制两种情况的出现:一种情况是存在从某一结点到自身结点的边;另一种情况如果存在一条从A结点到B结点的边,同时也存在一条从B结点到A结点的边。

具体构造有限状态层叠的方法,限于篇幅,这里就不详述了。

3.3 分析和识别命名实体在三层有限状态层级识别器自动构造完成以后,我们就可以采用具有三层的有限状态层叠机制来分析和识别运动队名(第一层)、比赛名(第二层)以及人的身份(第三层)。

按照这样的识别顺序,将下一层识别的结果提供给上一层使用。

主要算法如下:1输入待处理文本2从待处理文本中取出一句句子,将其单词(已转换成语义码)和POS放入各自的向量(vector)中3检查单词是否是关键字。

如是,则将其POS符号置换为KEY WO RD!。

检查单词是否是命名实体候选词,如是,则将其POS符号置换为CA NDI DA T E!4从语句中的第一个单词开始匹配某层自动机。

从自动机初始状态开始,先匹配PO S邻接矩阵中的POS符号,再借助索引矩阵匹配语义邻接矩阵中的语义类别,根据是其语义码。

匹配过程中利用栈存放与中间状态匹配成功的词汇,直到到达自动机终结状态,才认为识别成功,将栈中内容合并输出。

5如果待处理文本中仍有句子未处理,则转3。

否则结束该层自动机的匹配。

从上述算法可以看出:在整个匹配过程中,只有所有单词均匹配且遇到终结状态时才表示匹配成功。

一旦匹配成功,所匹配过的单词就不会再次匹配。

相关主题