新词发现综述廖先桃摘要:中文自动分词技术是自然语言处理领域一项很重要的基础工作,而随着新词的不断出现,它使中文分词结果中出现过多的“散串”,影响了分词的准确率。
因此,新词识别已经成为中文自动分词的一个难点和瓶颈问题。
本文从新词的概念出发,讨论了新词发现的技术及发展。
关键词:新词发现 中文分词1 引言在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,中文自动分词是一项很重要的基础工作。
但是随着社会和互联网的不断发展,新词语不断在日常生活中涌现。
据中国语言文字工作委员会专家曾做的一个保守统计,中国自改革开放的20年来平均每年产生800多个新词语[1][2]。
新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率。
最近的研究还显示,60%的分词错误是由新词导致的[20]。
因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
2 新词的概念目前,在中文分词领域出现了新词(New Words)和未登录词(Unknown Words)两种概念。
很多研究者并没有对未登录词和新词加以区别,认为它们是一样的[12][13]。
通常,未登录词被定义为未在词典中出现的词[3][4][5]。
(Chen,1997)通过对一个规模为300万词汇的语料统计,将未登录词分为五种类别,包括(a) 缩略词(abbreviation),如“中油”、“日韩”;(b) 专有名词(Proper names),主要包括人名、地名、机构名。
如“张三”、“北京”、“微软”;(c) 派生词(derived words),主要指含有后缀词素的词,如“电脑化”;(d) 复合词(compounds),由动词或名词等组合而成,如“获允”、“搜寻法”、“电脑桌”;(e) 数字类复合词(numeric type compounds),即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2005年”、“三千”。
新词虽然也是未在词典中出现的词,属于未登录词,但它和未登录词还是不同的。
(周,et al.,2004)认为应该从两个方面把握新词的定义,(1)从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语[6]。
即鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词语的用法。
(2)从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形、新词义或者新用法的词汇[7]。
从语言学角度来讲,汉语中的新词语按照来源大体可以分为以下几类[2][6]:(1) 命名实体:包括人名、地名、商品名、公司字号、机构名等;(2) 缩略语:如“非典”、“计生委”等;(3) 方言词:如“靓”、“埋单”等;(4) 新造词:如“伊妹儿”、“美眉”等;(5) 专业术语:如“非典型肺炎”、“蓝光光盘”等;(6) 音译词:如“酷”、“秀”、“克隆”等;(7) 字母词:如WTO、APEC等;(8) 词义、用法发生变化的旧有词语:如“下课”、“充电”等。
其中还包括一种“旧词新用”的语言现象,比如“高就”、“赏光”等,很长时间不用了,最近又重新出现在语言中。
当然,根据实际的需要,新词的定义也有所不同,如(Wu,2000)中识别的新词是指最近出现的词、偶然出现的词、以及其他很少使用的词,这些词既不能在词典中找到,也不能通过识别系统的规则识别出来,如“冷射”、“球痞”、“鲜丽”等。
本文中讨论的新词主要是指(周,2004)中定义的除命名实体之外的新词。
从上面的新词的含义及分析来看,新词发现技术存在着以下难点:(1) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找到一种通用的有效的方法;(2) 新词尤其是非命名实体,在构成方面没有普遍的规律;(3) 对于低频新词由于数据稀疏,识别难度很大;(4) 很难根据词语的词形、词义和词语用法的变化以及利用时间信息发现新词。
3 国内外研究现状3.1 新词的研究领域语言随着社会的发展而发展,在词汇中的一大表现就是新词语的出现。
新词的产生引起了语言学者的特别关注,自80年代以来,学者们对汉语新词语进行了较多的研究,这种研究呈现出了多方位,多角度,多层次和立体化的趋势[9]。
主要包括:新词语的界定,新词语的产生与社会、文化的关系,新词语产生的途径,新词语的结构形式特点,新词语的词义发展特点等[9][10][11]。
为了便于计算机研究新词,(亢,2002)从2001年开始开发可机读的新词电子词典——《现代汉语新词语信息电子词典》,已收录新词近四万个。
除了语言学家对新词进行研究之外,自然语言处理领域的专家也一直尝试不同的方法借助计算机从大规模的文本中自动抽取新词。
新词的识别已经是自然语言处理领域一个重要的研究课题。
目前国内的研究单位主要有微软亚洲研究院、富士通研究中心、华中师范大学计算机系、中科院计算技术研究所、北京语言大学语言信息处理研究所、山西大学计算机系等单位,他们在新词识别算法以及对新词结构特征研究等方面做了有益的尝试。
国外的马萨诸塞州大学计算机系彭富春等人对新词识别做了研究,另外还有日本奈良工业大学的Chooi-Ling Goh[21] ,加拿大的Jianyun Nie[4]等对未登录词识别做了很充分的工作。
3.2 新词发现的主要方法在新词发现方法方面,目前主要有基于规则和基于统计两种方法。
基于规则的方法其主要思想是根据新词的构词特征或外型特点建立规则库、专业词库或模式库,然后通过规则匹配发现新词。
基于统计的方法,一般是利用统计策略提取出候选串,然后再利用语言知识排除不是新词语的垃圾串。
或者是计算相关度,寻找相关度最大的字与字的组合。
规则的方法主要缺点在于局限于某个领域,并且需要建立规则库等。
而统计的方法,一般都是限于查找较短的新词语。
(郑,2002)完全采用规则的方式识别新词,一方面以新词的构词知识为基础建立新词识别的常用构词库,另一方面从网上词语的特征出发建立特殊构词规则库。
并按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、特殊构词规则。
利用这些规则过滤并确定新词。
封闭测试准确率为91.2%,召回率95%。
规则的方法准确率较高,但是总结规则费时费力且受领域限制。
另外,本文抽取的规则形式较单一,不能描述所有的情况。
动态流通语料库是指面向媒体(如报纸等)采集到的语料库,由于实时性强,领域广,常含有很多新词。
(颜,2003)提出利用动态流通语料库的VSM新词识别方法。
首先对新词现象做了系统分析,再根据新词特点利用动态流通语料库构建一个含有M个属性的语素属性库,即建立VSM模型,然后通过计算空间向量的相似度的方法发现新词。
这种方法比较简单,但是由于建立VSM模型时属性只用0和1表示,区分度不大,故容易引入噪音。
由于建立规则的过程需要对新词的特点进行细致的分析,而且规则常与领域相关,不易移植,于是越来越多的研究者开始借助统计方法获取新词信息,并将统计和规则结合识别新词。
(Chen,2003)在识别数字、时间、人名等新词时利用了语言学触发规则,如后缀词、姓用字、名用字等。
同时对其他新词,作者计算了一个单字的成词概率,当相邻的两个单字的概率的乘积大于某个事先预定的概率时,则认为这两个字组成一个新词。
这种识别新词的方法存在明显的缺陷,一是只考虑了由两个字组成的新词,二是仅利用概率条件,过于简单。
将新词识别加入分词模块之后,R oov和F值分别提高11%和0.08%。
(Wu,2000)是在规则系统中加入了统计信息以提高新词总体的识别效果。
首先对文本进行分词以及NE、数字等识别,然后对句子中的散串计算单个汉字的IWP(c)和多个汉字串的IWP(s),并设定域值挑选新词候选字串。
另外再由候选字串的词性与位置、词长之间的关系假设,计算P(Cat,Pos,Len)概率值,并根据域值判断候选串是否是新词。
测试的F值为56%。
该方法通过统计加入了词的内部成词信息,也考虑了分词等外部信息,但是它没有利用新词本身的语言特性。
另外,由于假设条件的限制,只能识别长度为2到4个汉字的新词。
(贾,2004)提出采用基于概率统计技术和规则方法的新词发现方法。
作者从网上获得大规模待处理的文本,预处理之后进行分词和词性标注,然后建立二元统计模型。
此时利用统计方法选出共现频次在均值之上的词汇组合作为候选词串,对候选结果再利用规则——单字组合词规则、多字组合词规则等过滤,最后由人工选择确定最终的新词结果。
该方法虽然加入了统计信息,加快了从大规模语料中获取信息的速度,但是统计的方法会受数据稀疏问题的影响,不利于低频新词和含汉字较多的新词的发现。
另外规则过滤的效果也依赖规则的获取和完备性。
最终的人工干预也降低了新词发现的效率。
针对多字新词抽取精度不高的情况,研究者提出基于质子串分解的新词发现技术[18]。
他们对从Internet上采集的网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词),在此基础上,再用质子串分解的方法,将长串分解为更短的子串,然后通过子串之间的关联程度来评估长串成为新语的可能性。
从而提高了长串的抽取精度。
(周,2004)中新词识别方法,首先大规模处理网页,对于切分后的网页内容,用重复串查找寻找新词语。
接着根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合,这个集合里面不仅包括了大部分已有的词语,还包括了噪音和固定搭配。
然后作者在这个背景词串集合的基础上,通过评价函数对于给定时间以后的词和串进行比较和评价,从中得到新词语候选。
最后用过滤规则对新词语候选进行过滤,得到最终的新词语结果。
新词发现精确率30%以上,召回率90%以上。
本文的不同之处在于,他们利用了新词构成特征以及时间特征,同时将统计与规则很好的结合,可以寻找某一时间点后首次出现的不限领域和长度的任意新词语。
但他们总的识别效果不是太好。
前边用到的统计方法大都是用作规则的辅助策略。
(Peng,et al.,2004)则完全采用统计的方法。
作者将分词和新词发现作为一个统一的过程,利用CRF(Conditional Random Fields)模型,将词汇特征和领域知识等很好的融入到模型中。
同时,发现的新词会加入到词典中改善分词器的性能,改善后的分词系统又能更好的识别新词,两者互相促进,达到了很好的识别效果。
(Li,2004)主要研究了两种类型的新词:NW11(由两个汉字组成)和NW21(由一个二字词后跟一个单字组成)。
作者将新词识别问题看作一个二元分类问题,对NW11和NW21分别选用不同的特征并利用SVM分类器进行分类。
NW11和NW21的F值分别为64.4%和54.7%。