2016年第19期信息与电脑China Computer&Communication计算机工程应用技术
自然语言处理技术中的中文分词研究
陈开昌
(西安高级中学,陕西 西安 710021)
摘 要:中文分词是自然语言处理处理的基础,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)
中,中文分词都是不可或缺的环节。随着互联网在中国的兴起,对中文信息处理提出更高要求,即在语义层面上处理中文,
这使得中文分词算法的研究显得更加困难,中文分词技术的发展显得更为重要。关键词:自然语言处理技术;中文分词;正向最大匹配算法
中图分类号:TP391.1 文献标识码:A 文章编号:1003-9767(2016)19-061-03
1 自然语言处理技术概述
1.1 自然语言处理技术的发展历程
语言在人类社会的形成和发展过程中有至关重要的作
用,只有掌握自然语言,人与人之间才能更好地沟通和交流。
在人类的大脑皮层中有专门处理自然语言的区域,这也是人
类智慧的根源和开发人工智能的关键。
自然语言处理技术是所有与自然语言的计算机处理有关
的技术的统称,其目标是给计算机配备各种语言知识,使其
能够接受人们采用自然语言给它输入的命令,理解人们所要
表达的意思,实现从一种语言到另一种语言的翻译等功能。
用自然语言与计算机进行通信,这是人们长期以来所追
求的。因为它既有明显的实际意义,同时也有重要的理论意义:
人们可以用自己最习惯的语言来使用计算机,而无需再花大量
的时间和精力去学习不很自然和习惯的各种计算机语言;人们
也可通过它进一步了解人类的语言能力和智能的机制。
最早的自然语言理解方面的研究工作是机器翻译。1949
年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,
国外对机器翻译曾开展大规模的研究工作,耗费了巨额费用,
但人们当时显然是低估了自然语言的复杂性,语言处理的理论
和技术均不成熟,所以进展不大。主要的做法是存储两种语言
的单词、短语对应译法的大辞典,翻译时一一对应,技术上只
是调整语言的同条顺序。但日常生活中语言的翻译远不是如此
简单,很多时候还要参考某句话前后的意思。
大约90年代开始,自然语言处理领域发生了巨大的变化。
这种变化的两个明显的特征是:(1)对系统的输入,要求
研制的自然语言处理系统能处理大规模的真实文本,而不是
如以前的研究性系统那样,只能处理很少的词条和典型句子,
只有这样,研制的系统才有真正的实用价值;(2)对系统
的输出,鉴于真实地理解自然语言是十分困难的,并不要求
系统能深层理解自然语言文本,但要能从中抽取有用的信息,
例如,对自然语言文本进行自动提取索引词,过滤、检索、自动提取重要信息,进行自动摘要等。
1.2 自然语言处理技术的主要研究问题
自然语言处理的研究分为基础性研究和应用性研究两部
分,这两类研究都是从语音和文本两方面进行的。基础性研
究主要集中在语言学、数学、计算机科学等领域,比如消除
歧义、语法形式化、计算语言学理论基础以及语言资源库等。
应用性研究主要集中在一些需要应用自然语言处理技术的领
域,比如信息检索、文本分类、自动文摘、机器翻译等。
作为计算机科学与数学建设所用的计算机语言,通过建
立形式化的计算模型来分析、理解和处理自然语言的学科,
自然语言处理致力于处理人和机器之间的交流沟通问题。目
前科学家们已研制出了能处理计算机文本和语音的自然语言
处理系统,最终将会开发出能理解并生成人类语言的计算机
系统。
1.3 自然语言处理技术的应用场景
自然语言处理技术研究的最终目的在于应用,如机器翻
译、智能检索、自动文摘、信息检索等。下面仅从机器翻译、
搜索引擎两方面介绍国内企业对于自然语言处理技术的使用
情况。
1.3.1 机器翻译
20世纪90年代以来,国内机器翻译研究有了长足的进
步。目前正在从事机器翻译研究的高校包括北京大学、清华
大学、哈尔滨工业大学等,研究所包括中国科学院计算技术
研究所、自动化研究所等,公司有译星公司、华建公司等。
这些单位的研究成果在产品开发中得到了充分运用。例如,
译星、高立、通译等全自动翻译系统,采用全自动机器翻译
技术,有简单的全自动翻译功能,采用的主要技术不是全自
动的机器翻译,而是翻译记忆(TM)技术。
很多网站提供的在线翻译服务,为网上阅读者快速理解
和使用外文资源提供了方便,Google公司的快速翻译就是典
— 61 —2016年第19期信息与电脑China Computer&Communication计算机工程应用技术
型的应用事例。
1.3.2 中文搜索引擎
中文搜索引擎是以网络上的中文信息为主要对象,可提
供信息的自动收集、索引和检索等服务的数据库服务系统。
常见的搜索引擎公司有Google、百度等。尽管这些企业所开
发的搜索引擎产品各有特色,其采用的自然语言处理技术却
大致相近,包括以下几种。
(1)中文自动分词技术。目前大多数搜索引擎采用的
都是关键词匹配查询方法。关键词查询的前提是将查询任务
分解为关键词,中文与西文的不同在于中文需要人为进行分
词,完善的中文自动分词技术可以有效排除各种歧义,提高
分词的准确率,从而提高查询准确率。
(2)短语自动识别技术。通常情况下,用户所提出的
查询请求以短语形式呈现,如用户要查询“北京的建筑”,
应将“北京”和“建筑”联合起来作为一个短语查询,过滤
掉那些只有“北京”或只有“建筑”的文档。因此,短语识
别技术是搜索引擎公司常用的自然语言处理技术。
(3)同义词处理技术。对专用领域的搜索引擎,人工
构造同义词表的方法能有效解决同义词问题。而对一般领域
的搜索引擎,需要从语料中自动取得同义词,在给出一个关
键词的情况下,搜索引擎应能自动查找,找到其同义词。
2 中文分词研究背景、目的及意义
2.1 背景
随着社会的发展和计算机科学的进步,人机交互问题
亟待解决,虽然有了键盘和鼠标,但依然不能满足人们日常
生活的需要,人们希望能有更方便、更快捷的方式与计算机
进行交互,语音交互成为一个研究的重点。语音交互特别是
中文与计算机之间的交互问题,对中国人来说是很重要的一
个问题,从使用中文与计算机进行交互以来,一直没有完美
的解决途径。中文与其他语言不同,中文中字与字之间没有
很好的标识符,不像英文单词之间有空格,所以,中文中对
句子进行分词,是一个难点,也是一个重点,如果中文的分
词问题都解决不好,后面的处理效果就会非常差,不能让人
满意。
目前最常用、最基本的中文分词算法基于词典的方法,
正向最大匹配与逆向最大匹配的方法,能对句子进行简单的
分词。
2.2 目的
中文分词是自然语言处理技术中最基本和最重要的部
分,分词的好坏直接影响到后面的句法分析、语义分析,只
有分词分对了,后面的处理效果才会好,如果一句话连分词
都分错了,很可能这句话的意思就被理解反了,例如,一句
话本来想表达的是“不高兴”的意思,分词分错了,可能就表达成了“高兴”的意思。所以,研究中文分词,如何提高
分词的准确率,是很重要的一个问题。
2.3 意义
解决了中文分词这个难题,可以为后面的研究打下一个
很好的基础。当自然语言处理技术的每一个小的方向都提高
了以后,就能方便快捷地与计算机使用自然语言进行沟通,
我们的生活也将变得更加丰富多彩。
3 现代中文词语切分的方法
中文自动切分就是把一句活自动转换为多个词的过程,
但由于中文的词汇间没有间隔,同英语相比,中文的切分较
为困难。中文的切分是中文中句法分析、语义分析等的基础。
3.1 基本方法
(1)基于词表的方法。
最大匹配法:正向最大匹配法、逆向最大匹配法。
全切分+路要选择。
(2)字序列标记方法(非基于词表方法)。
3.2 中文分词的关键问题
在中文的切分中有两大关键问题至今仍未能得到很好的
解决,它们是歧义识别和未登录词识别。
3.2.1 歧义问题
切分歧义包括混合型歧义和交集型歧义以及二者结合所
形成的组合型歧义。
(1)交集型歧义。在一个字符串中若An与前m项和
右P项都可结合成一个词,此时对于字符An有两种不同的
切法,我们称对于此字符串中的An有交集型歧义。如字符
串“从小学”中字符“小”既能与字符“从”组合成词“从
小”,又能与字符“学”组合成词“小学”。若不根据语境,
很难判断字符串“从小学”的正确切分方法,那么这个字符
串便存在着交集型歧义。
(2)组合型歧义。对于字符串A,若“AmAm+1”可
成一个词,“Am”和“Am”也可以单独成词,即称对于字
符串A存在组合型歧义,如“美军中将竞公然说”中的“中将”
既可单独成词,也可组合成词,所以这句话存在组合型歧义。
组合型歧义占常见的歧义问题的90%以上,是最难避免的一
类歧义,值得研究人员予以重视。
(3)混合型歧义。若字符串中存在混合型歧义,那么
此字符串中一定同时出现交集型和混合型两类歧义,如“这
样的人才能经受住考验”,既可以切分成“这样的/人/才/
能/经受住考验”,也可切分成“这样的人/才能/经受住考
验”。在这种情况下很难说清楚到底哪种切分才是正确的切
分方式,似乎各自有各自的道理,所以混合型歧义是最难消
除的一类歧义。
在上述歧义类型中有些歧义是可以避免的,可以称为“伪
— 62 —2016年第19期信息与电脑China Computer&Communication计算机工程应用技术
歧义”。如对“切分成”能切分成“切/分成”和“切分/成”,
很明显只有后种切分方式是正确的,即此字符串中不存在“真
歧义”,而是“伪歧义”。在真实的文本歧义中,伪歧义的
比例达94%,可见大部分歧义在理论上是可以避免的。
3.2.2 未登录词的识别
未登录词即没有被收录在分词词表中但必须切分出来的
词,包括各类专有名词(人名、地名、企业名等)、缩写词、
新增词汇等。
3.2.3 切分结果的评价指标
中文分词的评价指标主要有准确率(Precision)、召回
率(Recall)和F值。其中准确率P=提取出的正确分词个数/
提取出的总的分词数;召回率R=提取出的正确分词个数/
正确分词的总数;()2PRF=P+R值(F值即为准确率和召回率的
调和平均数)。
准确率在中文分词中能很好地评定一个分词系统的查准
率,主要针对单篇文章;召回率则能评定一个分词系统对于
大量文档的覆盖范围,即查全率;对于F值,简单地来说就
是两者的调和平均数,对于一个分词系统的科学评定是非常
重要的。例如对于文档“该书对地理学的贡献甚至达到了西
方地理学的现代水平”,分词系统的切分结果为“该书\对\地
理学\的\贡献\甚至\达到了\西\方\地理学\的\现代\水
平”,正确的切分结果为“该书\对\地理学\的\贡献\甚
至\达到了\西方地理学\的\现代水平”。
857%14P=≈,880%10P==,()2PR67P+R%P≈=4 中文分词基本算法介绍
基于词典的方法(字符串匹配、机械分词方法):按照
一定策略将待分析的汉字串与一个提前生成好的词典中的词
条进行匹配,若在词典中找到某个字符串,则匹配成功。按
照扫描方向的不同分为:正向匹配和逆向匹配。
4.1 正向最大匹配算法MM
(1)从左向右取待切分中文句的m个字符作为匹配字
段,m为词典中最长词条个数。
(2)查找词典并进行匹配。若匹配成功,则将这个匹
配字段作为一个词切分出来。若匹配不成功,则将这个匹配
字段的最后一个字去掉,剩下的字符串作为新的匹配字段,
进行再次匹配,重复以上过程,直到切分出所有词为止。
4.2 逆向最大匹配算法RMM
该算法是正向最大匹配的逆向思维,从右向左去匹配,
匹配不成功,将匹配字段的最前一个字去掉。
5 结 语
中文分词技术在数字资源处理、在线翻译、搜索引擎技
术中有大量的应用,值得我们关注并认真探究,在不断的探
究中,不断开发更加便捷实用的算法以达到更好的效果。只
有实践才是硬道理,只有不断探索,敢于创新才能总结出更
佳的办法。
中文分词,作为一个需要进行长期研究的领域,虽然国
内自然语言处理的研究已取得了不少成果,但准确率还没有
达到让人很满意的程度,随着研究的不断深入,分词技术会
越来越成熟,一定会推动自然语言处理技术向前发展。
5 结 语
文章针对Linux平台下搭建的各种服务器存在安全隐患
进行分析,以攻击者角度分析可能出现的攻击,总结了保护Linux系统安全的措施,结合当前流行的Apache WEB服务
器安全,提出了启用用户验证及搭建安全WEB的解决方案,
对于Linux网络安全管理提供一定的参考。
参考文献
[1]张文波,王成,于三明.浅析Linux系统的网络安全策略和措施[J].吉林师范大学学报:自然科学版,2003(2):63-65.
[2]金京犬.Linux网络操作系统课程教学改革研究与实
践[J].湖南城市学院学报:自然科学版,2016(5).[3]陈旭,温阳东.LINUX系统网络安全问题分析及对策
[J].合肥工业大学学报:自然科学版,2002(3).
[4]任周.基于Linux网络系统的安全性能的研究[J].计
算机与数字工程,2009(8).(上接第58页)
— 63 —