中文自动分词技术是以“词”为基础,但汉语书面语不是像西方文字那样有天然的分隔符(空格),而是在语句中以汉字为单位,词与词之间没有明显的界限。
因此,对于一段汉字,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程词,就要应用到中文自动分词技术。
下面依次介绍三种中文自动分词算法:基于词典的机械匹配的分词方法、基于统计的分词方法和基于人工智能的分词方法。
1、基于词典的机械匹配的分词方法:
该算法的思想是,事先建立词库,让它它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到该字符串,则识别出一个词。
按照扫描方向的不同,串匹配分词的方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,又可以分为最大匹配和最小匹配。
按这种分类方法,可以产生正向最大匹配、逆向最大匹配,甚至是将他们结合起来形成双向匹配。
由于汉字是单字成词的,所以很少使用最小匹配法。
一般来说,逆向匹配的切分精度略高于正向匹配,这可能和汉语习惯将词的重心放在后面的缘故。
可见,这里的“机械”是因为该算法仅仅依靠分词词表进行匹配分词
a)、正向减字最大匹配法(MM)
这种方法的基本思想是:对于每一个汉字串s,先从正向取出maxLength 个字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。
b)、逆向减字最大匹配法(RMM )
与正向减字最大匹配法相比,这种方法就是从逆向开始遍历。
过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。
机械匹配算法简洁、易于实现.其中,最大匹配法体现了长词优先的原则,在实际工程中应用最为广泛。
机械匹配算法实现比较简单,但其局限也是很明显的:效率和准确性受到词库
容量的约束;机械匹配算法采用简单机械的分词策略,不涉及语法和语义知识,所以对于歧义切分无法有效地克服,切分精度不高。
虽然专家们采用了不少方法来改善机械匹配的性能,但是从整体效果上来看,单纯采用机械匹配式进行分词难以满足中文信息处理中对汉语分词的要求。
在机械匹配分词的基础上,利用各种语言信息进行歧义校正是削弱机械式切分局限性的一种重要手段。
b)基于统计的分词方法
该类算法的主要思想是:词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够较好地反映成词的可信度,因此对语料中相邻共现的汉字的组合频度进行统计,计算他们的统计信息并作为分词的依据。
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。
因此与字相邻共现得频率或概率能够较好的反映成词的可行度。
可以对预料中相邻共现的各个字的组合的频率进行统计,计算它们的互现信息。
计算汉字X和Y的互现信息公式为
M(X,Y)=lg(P(X,Y)/P(X)P(Y))其中,P(X,Y)是汉字X,Y的相邻共现概率,P(X)、P(Y)分别是X,Y在语料中出现的频率。
互现信息体现了汉字之间结合的关系的紧密程度。
当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
基于统计模型的自动分词算法的优点在于:该类算法所需的一切数据均由机器从生语料中自动获得无须人工介入能够有效地自动排除歧义能够识别未登录词解决了机械匹配分词算法的局限,但是由于该类算法不使用分词词表,所以对常用词的识别敏感度较低,时空开销较大,并且会抽出一些共现频度高但并不是词的常用词组(有的但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用词组,例如,“这一”、“之一”、“有的”、“我的”、“许多的”等。
实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,有利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
3、基于人工智能的分词方法
应用人工智能中的神经网络和专家系统来进行中文自动分词,以实现智能化的中文自
动分词系统是近年来中文自动分词领域中的一个研究热点。
该类算法的分词过程是对人脑思维方式的模拟,试图用数字模型来逼近人们对语言认识的过程。
a)神经网络分词算法
该类分词算法是以模拟人脑运行,分布处理和建立数值计算模型工作的.它将分词知识的隐式方法存入神经网内部通过自学习和训练修改内部权值以达到正确的分词结果。
神经网络分词法的关键在于知识库权重链表的组织和网络推理机制的建立。
算法的分词过程是一个生成分词动态网的过程。
该过程是分步进行的:首先以确定的待处理语句的汉字串为基础,来确定网络处理单元;然后,根据链接权重表激活输入输出单元之间的链接,该过程可以采用某种激活方式取一个汉字作为关键字确定其链接表不断匹配。
神经网络分词法具有自学习自组织功能,可以进行并行、非线性处理并且反应迅速对外界变化敏感;但是目前的基于神经网络的分词算法存在着网络模型表达复杂学习算法收敛速度较慢,训练时间长,并且对已有的知识维护更新困难等不足。
b)专家系统分词算法
专家系统分词算法从模拟人脑功能出发,构造推理网络,将分词过程看作是知识推理过程。
该方法将分词所需要的语法语义以及句法知识从系统的结构和功能上分离出来,将知识的表示、知识库的逻辑结构与维护作为首要考虑的问题。
专家系统分词算法是一种统一的分词算法,不仅使整个分词处理过程简明,也使整个系统的运行效率得到提高。
并可利用深层知识来处理歧义字段,其切分精度据称可达语法级:其缺点是不能从经验中学习,当知识库庞大时难以维护,进行多歧义字段切分时耗时较长,同时对于外界的信息变化反应缓慢。
总之,知识库按常识性知识与启发性知识分别进基于人工智能技术的神经网络分词方法和专家系统分词方法是理论上最理想的分词方法但是由于该类分词方法的研究还处于初级阶段并且由于汉语自然语言复杂灵活知识表示困难所以对于基于人工智能的中文自动分词技术还需要进行更深入和全面的研究虽然目前还处于起步阶段但是该类分词方法是未来中文自动分词方法的发展方向
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。
中文是一种十分复杂的语言,让计算机理解中文语言更是困难。
在中文分词过程中,
有两大难题一直没有完全突破。
1、歧义字段的识别
汉语自动分词过程中出现具有多种切分可能的字段,我们称其为歧义字段。
歧义是指同样的一句话,可能有两种或者更多的切分方法。
例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。
这种称为交叉歧义。
像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。
“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。
由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。
例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。
这些词计算机又如何去识别?如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。
真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。
例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新新词类的识别
新词,专业术语称为未登录词。
也就是那些在字典中都没有收录过,但又确实能称为词的那些词。
最典型的是人名,人可以很容易理解句子“王军虎去广州”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。
如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。
即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。
目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
综上所述,解决中文文本自动分词问题已经成为中文信息处理当前的一项战略任务,它已经同让世界了解汉语中华民族文化的伟大复兴紧密地联系在一起,该任务
具有相当的紧迫性和必要性,需要语言学、计算机语言、自然语言处理等多方面的专业人士共同努力来完成。
信息检索和搜索引擎名称:中文自动分词技术的论述
班级硕研2011-4-8 班
学生姓名杨慧锋
学号 S11085212009
日期 2011.10.28
自拟查询要求和查询条件上网完成查询并分析查询结果查询要求:查询毛泽东在西北地区的活动
查询结果:。