当前位置:文档之家› 书面汉语自动分词及歧义分析

书面汉语自动分词及歧义分析

第25卷 第4期河南师范大学学报(自然科学版)Vol.25 No.4 1997年11月JournalofHenanNormalUniversity(NaturalScience)Nov.1997 

书面汉语自动分词及歧义分析

郑延斌

(河南师范大学计算机系,453002,新乡;33岁,男,讲师)

摘 要 歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.关键词 分词;切分;歧义字段;知识;词典;规则分类号 TP391α

书面汉语自动分词是把汉语材料中汉字字符的序列用计算机切分成词的序列的过程.汉字是方块字,每一个方块汉字都自为一个独立的、完整的书写单元,相互之间有明显的界

限,书写时字与字逐一连续等矩离排列,词与词之间没有空格隔开,没有任何区分标志,因此

在进行词处理之前,首先要对待处理的汉语语料进行分词处理.这一问题解决的好坏,将直

接影响到词处理阶段的后期工作.因此称自动分词是汉语词处理阶段的“瓶颈”,自动分词是

汉语信息处理中关键的一环.

1 常用的分词方法介绍

自动分词中使用的分词方法,也称为机械分词方法.最基本的分词有以下3种:

1.1 最大匹配法——MM方法

MM(TheMaximunMatchingMethod)的基本思想是:假设自动分词词典中的最长词条中汉字个数为i,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找分词

词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典

中找不到这样一个i字词,则匹配失败.匹配字段去掉最后一个汉字,剩下的字符作为新的

匹配字段,进行新的匹配,如此进行下去,直到匹配成功为止.即完成一轮匹配,匹配出一个

词,然后再按上面的步骤进行下去,直到切分出所有词为止.

1.2 逆向的最大匹配法——RMM方法或OMM方法与MM方法相对应的方法是RMM方法(TheReverseDirectionalMaximunMatching

Method),也称OMM方法.它的分词过程与MM方法相同,不同的是每次是从待处理语料的末尾开始处理,每次匹配不成功时去掉的是前面一个汉字.

1.3 逐词遍历法该方法是把词典中的词按由长到短的顺序逐个搜索整个待处理材料,直到把所有的词

都切分出来为止.

α文稿收到日期:1997-06-23.除了上述3种基本方法外,在分词过程中可以采用其它的一些技巧,这些技巧有时也被

称为分词方法,但它们不是纯粹意义的机械分词方法.

[1]中把汉语自动分词方法归纳为以下11种:最大匹配法(MM方法);OMM方法;逐词遍历法;设立切分标志法;OM方法;有穷多层次列举法;二次扫描法;基于词频统计的分词方法;基于期望的分词方法;联想——回溯

法;双向扫描法.在实际的自动分词系统中,往往是几种方法结合起来使用,以求达到最佳的效果.

2 歧义分析

在分词过程中具有两种或两种以上切分形式的字段称为歧义字段,只有歧义字段才能

产生错误切分,衡量一个自动分词系统的指标主要有3个:切分速度,切分精度,系统的可维

护性.切分精度则直接反映系统的正确性与科学性,是3个指标中最重要的一个.所以,要提

高自动分词的精度,必须有效地处理歧义字段.

2.1 歧义产生的根源分词过程中歧义产生的根源可以归结为以下3个方面:

A)由自然语言中的二义性所引起的歧义,称为第一类歧义;如:“乒乓球拍卖完了”可以

切分成“乒乓球󰃗拍卖󰃗完了”又可以切分成“乒乓球拍󰃗卖󰃗完了”.这两种切分形式无论在语

法上、语义上都是正确的,只有结合上下文才能给出正确的切分.

B)由计算机自动分词产生的特有歧义,称为第二类歧义;如:“在这种环境下工作是太可怕了”,用计算机切分,可以切分成“在󰃗这种󰃗环境󰃗下工󰃗作󰃗是󰃗太󰃗可怕󰃗了”,也可以切分

成“在󰃗这种󰃗环境󰃗下󰃗工作󰃗是󰃗太󰃗可怕󰃗了”,而对本句来说,只有第二种切分都正确的.这

用人工分词是不可能产生歧义的.

C)由于分词词典的大小而引起的歧义,称为第三类歧义;如:“王小二是一个农民”,用

计算机切分被分为“王󰃗小󰃗二󰃗是󰃗一个󰃗农民”,这里“王小二”是一个人名,在汉语中应是一

个词,所以这个切分是错误的.“发展社会主义的新乡村”,“新乡”是一个地名,若词典中有该

词,则“新乡村”是一个歧义字段.因此,不论词典的大与小都可以产生歧义.

2.2 歧义字段的分类

[2]中把自动分词中的歧义现象分为两类:交集型歧义切分字段,多义组合型歧义切分

字段.如:“下工作”可以分为“下工󰃗作”或“下󰃗工作”,它是一个交集字段.“手指”可以切分成

“󰃗手指󰃗”或“手󰃗指”,它是一个多义组合字段.

[2]中给出了词尾字检验技术,利用此方法,可以找出所有的交集字段.但对于多义组合

字段,目前还没有比较好的检验技术,只能通过人工收集,在分词词典中加以歧义标记,然后

再利用某些知识来解决.

3 歧义的解决方法

3.1 第一类歧义

这类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语

义信息,即增加语义、语用知识的处理.这无异对自动分词的效率有很大的影响(时间上和空

间上),而且实现起来比较困难.若是在词处理的相应阶段,结合对分词阶段未解决的歧义字19第4期 郑延斌:书面汉语自动分词及歧义分析段进行处理,则会起到事半功倍的效果.统计表明,第一类歧义字段只占整个歧义字段总数

的1󰃗30以下,因此不必在分词阶段花费巨大的开销来处理它们.

3.2 第二类歧义

目前对它们的处理方法有以下几种:

A)分词知识处理法 这类方法是通过对大量歧义切分字段的研究,发现其中的一些普遍规律,获得知识,并反过来利用所获得的知识来处理歧义字段.

B)联想—回溯法[3] 该方法主要依据规则库处理歧义字段,规则库中包括有语法知识,使用联想机制构造新词汇,利用回溯机制处理歧义.

C)基于词频统计的方法 该方法的基本思想是在分词过程中,依据词频统计的结果,对歧义字段进行处理.频度高的词优先分出.若ABC是交集字段,AB的频度比BC的频度

高,则应切分为AB󰃗C.若A的频度比C的频度大,则应切分为A󰃗BC.

D)邻接约束法[4] 由于句法、语义或习惯用法的限制,或人们为了避免造成阅读上的

困难,相邻词之间有一种约束关系,称为邻接约束.如“那里”不能切分成“那󰃗里”.

E)基于数学期望的方法 在一个句子中,由于人们说话的习惯和汉语语法及语用规则,一个词的出现对于它后面的紧相随的词有一种期望.根据语法知识和语义知识可把该期

望分为结构期望和语义期望.

3.3 第三类歧义

计算机分词中使用的分词词典只能包括一定数量的词,而汉语中词的数量非常多,解决

这类歧义目前有两种方法:

A)增加构词知识 如:“他快快乐乐地走了”中的“快快乐乐”词典中可能没有这个词,故该句被错误切分成“他󰃗快󰃗快󰃗乐󰃗乐󰃗地󰃗走了”.“快快乐乐”一词属于AABB构词形式,若系统中有AABB这一条知识,就可以正确切分这一句子.

B)增加临时词典 对于人名、地名等专用名词,词典中只能收集少量,对没有收集的人名、地名可以采用临时词典的形式来解决.有了临时词典后,匹配过程中若分词词典匹配不

成功,需要从临时词典中来匹配.

4 分词知识处理法

能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库

或规则库.虽然对第二类歧义的处理可以采用多种方法,但全面衡量,分词知识处理具有好

的效率.此方法的明显优点是:解决歧义问题的方法,独立于自动分词方法(机械分词方法),它的适用性比较强.对分词词典只要求能提供必要的词项信息,故对自动分词的空间复杂度

影响不大.再者采用这种方法便于在使用的过程中,采用知识学习的手段,以丰富系统的知

识,提高分词的精度.目前所用的分词知识可以分为如下几种:

4.1 构词知识

构词知识用于构造词典中没有的词.如:“花花绿绿的世界”,按照汉语的构词法“花花绿

绿”是一个词,但分词词典中不可能包括所有形如AABB的词,故词被错误地切分.构词知识能够构成如AA、AABB、AAB(AB为词)、ABB(AB为词)、前缀词构成的词、

后缀词构成的词等等,有了构词知识后,这类词就可以正确切分.

4.2 规则知识29河南师范大学学报(自然科学版) 1997年从歧义字段形成的词与词之间的结构关系和词性关系出发,总结出一些规则来解决它

们,这类知识[5]中作了详细说明.

4.3 专用知识用于正确地解决一个字所形成歧义字段的知识称为专用知识.如:“把”字知识的描述如

下:式中的W为分词词典中词的集合,WD为动词的集合.

r=把ΑΒ∩把Α∈W](Β∈WD]r1=把󰃗Α󰃗Β)∪(Β|WD∩ΑΒ∈W]r1=把󰃗ΑΒ)∪(Β|WD∩ΑΒ|W]r1=把Α󰃗Β).

利用此知识可以把“把头抬起来”正确切分为“把󰃗头󰃗抬󰃗起来”,“把儿子给你”正确切分

为“把󰃗儿子󰃗给󰃗你”,“请拉好把手”正确切分为“请󰃗拉󰃗好󰃗把手”等等.并不是分词知识越多越好,由于知识之间的相互影响和顺序不同,就可以有不同的切分

效果.因此知识库(或规则库)应是开放的系统,用户可以根据实际需要来进行调整、修改、添

加等操作.总之,只要进行研究,完全可在系统中彻底解决第二类、第三类歧义字段.

5 第一类歧义字段的处理

对于第一类歧义字段,目前还没有更好的处理方法,可以从下面几个方面入手:①高级

的分词知识处理 即在分词过程中使用语义知识、语用知识来解诀.②人工干预分词 在遇

到计算机解决不了的歧义时,借助于人工干预来完成,可以大大提高分词的精度,但对分词

的速度有影响.③人工分词与计算机自动分词结合 随着词输入技术的发展与运用,汉字输

入阶段的输入对象由单个字转变成词,用户在输入的过程中首先对所输入语言文本进行人

工分词,然后再把所分的词输入计算机,但由于词输入系统中不可能包括更多的词,加上输

入者的知识水平限制,这一阶段的分词不可能完全正确,进入分词阶段后,只需对有歧义的

字段来参考输入过程的分词就可以了.这一方法在利用计算进行自动分词的同时,又充利用

了用户在文本输入过程中的人工分词工作,对分词系统没有什么影响,但系统的分词精度可

以大大提高.

参 考 文 献

1 梁南元,郑延斌.书面汉语自动分词方法和分词模型.微型计算机,1991(3):182 梁南元.书面汉字自动分词与一个自动分词系统CDWS.北航学报,1984(4):443 李国臣.汉语自动分词及歧义组合结构的处理.中文信息学报,1988(3):324 张潮生.邻搠约束事汉语自动分词.ICCIP’87,19875 梁南元.汉语自动分词知识.中文信息学报,1990(2):29

PrintedChineseWordAutoSegmentationandAmbiguousPhrasesAnalysingZhengYanbin(DepartmentofComputerScience,HenanNormalUniversity,453002,Xinxiang)Abstract Ambiguousistheproductofautosegmentationwhichcannotbeprohibited,throughanalysingofautosegmentation,thispaperproposedtheoriginalofambiguousphrasesinautosegmenta2tionandgavethemethodstodealwiththeseAmbiguousPhrases.Keyword segmentation;ambiguousphrases;knowledge;dictionary;rule39第4期 郑延斌:书面汉语自动分词及歧义分析

相关主题