当前位置：文档之家› 一种基于LUCENE的中文分词算法研究

一种基于LUCENE的中文分词算法研究

第２４＠第３期　青岛大学学报（自然科学版）　２　０　１　１年８月　ＪＯＵＲＮＡＬ　ＯＦ　ＱＩＮＧＤＡＯ　ＵＮＩＶＥＲＳＩＴＹ（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｅｄｉｔｉｏｎ）　Ｖｏ１．２４　ＮＯ．３　Ａｕｇ．２　０　１　１　

文章编号：１００６—１０３７（２０１１）０３—００５３—０６　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００６—１０３７．２０１１．０８．０１２　

一种基于ＬＵＣＥＮＥ的中文分词算法研究　

戴　洪，蒋　静，樊　程，于雪丽　

（青岛大学信息工程学院，山东青岛２６６０７１）　

摘　要：由于Ｌｕｃｅｎｅ自带的ＣｈｉｎｅｓｅＡｎａｌｙｚｅｒ和ＣＪＫＡｎａｌｙｚｅｒ两种中文分析器不能够满　

足全文检索系统的应用，本文给出了一种新的中文分词算法，用于改进Ｌｕｃｅｎｅ中文分析　器。该算法基于字符串匹配原理，实现了正向和逆向相结合的最大增字匹配分词算法。　

通过实验仿真，比较改进后的分析器与Ｌｕｃｅｎｅ自带的两种分析器在分词效果和效率上的　

差异。结果显示，改进后的分析器分词效果明显优于Ｌｕｃｅｎｅ自带的两种分析器，提高了　全文检索系统的中文处理能力，系统的查全率和查准率都达到用户的需求。　

关键词：全文检索；Ｌｕｃｅｎｅ；中文分词　中图分类号：ＴＰ３９１　文献标志码：Ａ　

全文检索是以各种计算机数据诸如文字、声音、图像等为处理对象，提供按照数据资料的内容而不是外　

在特征来实现的信息检索手段　。Ｌｕｃｅｎｅ作为实现全文检索的组件之一，虽然已经被广泛地应用，但是国　内对Ｌｕｃｅｎｅ的研究和应用多数是将Ｌｕｃｅｎｅ直接应用到全文检索系统中　，Ｌｕｎｃｅｎｅ自带的语言分析器只　

能对汉字进行单字切分和双字切分，不能很好的对中文信息进行处理。本文针对Ｌｕｎｃｅｎｅ的这一不足进行　

了改进，提出了一个新的中文分词算法，用以构建高效的中文分析器。改进后的分析器提高了中文信息处理　

能力。　

１相关技术研究　

Ｉ　ｕｃｅｎｅ是一个免费开放源码的全文检索引擎工具包ｌ３　］，来源于Ａｐａｃｈｅ下Ｊａｋａｒｔａ项目组开发的ＪＡ—　

ＶＡ　ＡＰＩ接口。它不是一个完整的全文检索引擎，而是一个面向全文检索的引擎架构，要开发基于Ｌｕｃｅｎｅ　

的全文检索系统，需要在其基础上进行二次开发　］。Ｌｕｃｅｎｅ主要提供了索引引擎、检索引擎和存储管理接　口等模块。它为开发人员提供了一个简单易用的全文检索类包，可以方便地嵌入到各种应用中以实现全文　

检索功能。　

１．１　ＬＵＣＥＮＥ系统架构　Ｌｕｃｅｎｅ系统架构有着明显的面向对象特点，它将系统核心功能部分设计为抽象类，具体的实现部分设　

计为抽象类的实现，设计一种与平台无关的索引格式类，与平台相关操作也设计为抽象类，通过层层面向对　象设计，使Ｌｕｃｅｎｅ成为一个高内聚、低耦合、容易进行二次开发的检索引擎。Ｌｕｃｅｎｅ系统架构主要由基本　封装结构、索引核心和外部接口三部分组成，其中索引核心是Ｌｕｃｅｎｅ架构的关键部分。Ｌｕｃｅｎｅ系统架构如　

图１所示（ｏｒｇ．ａｐａｃｈｅ．Ｌｕｃｅｎｅ简写为Ｌｕｃｅｎｅ）。　通过图１Ｌｕｃｅｎｅ系统架构可见，Ｌｕｃｅｎｅ系统结构清晰，每个包分工明确，用来完成特定的功能。每个功　

能模块都设计为抽象类，便于维护和扩展［６］。　

＊收稿日期：２Ｏｌ１－０７　２３　基金项目：国家支撑计划项目（２００６ＢＡ１１１Ｂ０７）　作者简介：戴洪（１９８８），男，硕士研究生，主要研究方向：分布式计算。

　５４　青岛大学学报（自然科学版）　第２４卷　

图１　Ｌｕｃｅｎｅ系统架构　

１．２　ＬＵＣＥＮＥ索引结构　

Ｌｕｃｅｎｅ采用倒排索引结构，即以词作为索引基本单位，通过词来建立词一文档映射关系。根据这种索　

引结构，使得Ｌｕｃｅｎｅ在进行检索时，是通过词来查找文档，而不是通过文档来查找词。　

在Ｌｕｃｅｎｅ的索引结构中，由项（Ｔｅｒｍ）指向域（Ｆｉｅｌｄ），由域（Ｆｉｅｌｄ）指向文档（Ｄｏｃｕｍｅｎｔ），由文档（Ｄｏｃｕ—　

ｍｅｎｔ）指向段（Ｓｅｇｍｅｎｔ）　］。Ｌｕｃｅｎｅ的索引结构如图２所示。　

图２　Ｌｕｃｅｎｅ索引结构图　

１．３　ＬＵＣＥＮＥ中文分词算法　

Ｌｕｃｅｎｅ有其自己的中文分析器，其中主要是ｃｈｉｎｅｓｅＡｎａｌｙｚｅｒ和ＣＪＫＡｎａｌｙｚｅｒ两个中文分析器。Ｃｈｉ—　

ｎｅｓｅＡｎａｌｙｚｅｒ分析器采用单字分词法，而ＣＪＫＡｎａｌｙｚｅｒ分析器采用二分法。这两种分词法的具体分词方式　

如下：　

（１）单字分词法　

单字分词法是以单个字作为单元进行切分，把文本的每一个字切分出来，然后按照这种方式来建立索　第３期　戴洪，等：一种基于ＬＵＣＥＮＥ的中文分词算法研究　５５　

引。例如“中华人民共和国”使用单字分词法进行分词时，切分出来的词为：“中”、“华”、“人”、“民”、“共”、　

“和”、“国”。可见，单字分词法实现比较简单，但切分出来的词没有意义，丧失了文本原有的语义。　

（２）二分法　二分法以两个字作为一个单元进行切分，把文本中相邻两个字切分出来，然后按照这种方式建立索引。　

例如“中华人民共和国”使用二分法进行分词，切分出来的词为：“中华”、“华人”、“人民”、“民共”、“共和”、“和　

国”。与单字分词法相比，虽然二分法在处理字词位置方面要好，但这种方法切分出很多无用词条，从而产生　

索引冗余。　

综上所述，ＬＵＣＥＮＥ自带的两种中文分析器，对于中文分词效果并不明显，不能满足系统对中文的分词　

要求。　

２　改进的中文分词算法研究　

现有分词算法大体可分为三类：基于字符串匹配的分词方法，基于理解的分词方法和基于统计的分词方　

法口］。本文采用基于字符串匹配的分词算法来改进Ｌｕｃｅｎｅ中文分词器。基于字符串匹配的分词方法是按　

照一定策略，将待分析的中文与机器词典进行匹配，若在词典中找到某个字符串，则匹配成功。与单字分词　

和二分法分词相比，使用词典进行分词准确性更高。　

２．１字符串匹配分词模型　

中文分词算法最常用的是基于字符串匹配方法，对于字符串匹配分词，可以建立一个分词模型ＡＳＭ　

（Ａｕｔｏｍａｔｉｃ　Ｓｅｇｍｅｎｔａｔｉｏｎ　Ｍｏｄｅ１），该模型可表示为ＡＳＭ（ｄ，ａ，ｍ）。其中ｄ：匹配方向，＋１表示正向，一１表　

示逆向；ａ：每次匹配失败后增加／减少字串长度（字符数），＋１为增字，一１为减字；ｍ：最大／最小匹配标志，　

＋１为最大匹配，一１为最小匹配Ｌ８］。　

用该模型对各种方法的复杂度进行比较后得出，减字匹配ＡＳＭ（ｄ，一，ｍ）的复杂度是１２．３，高于增字匹　

配ＡＳＭ（ｄ，＋，ｍ）的复杂度１０．６＿８］。因此本文采用正向最大增字匹配ＡＳＭ（＋，＋，＋）和逆向最大增字匹　

配ＡｓＭ（一，＋，４－）相结合的双向最大增字匹配算法。　

正向最大增字匹配分词算法实现需要一个词典，在分词过程中，算法对文本从左到右进行扫描，将文本　

中的字符串和词典中的词条进行匹配，当前匹配字段从一个字开始，匹配中不断增字，直到匹配不下去为止；　

而结束每一轮匹配的最终结果，则取匹配成功的最大的当前匹配字段；这也就是被切分出来的词　］。例如：　

“我是中华人民共和国公民”，词典中有“中华人民共和国”、“中华”、“人民”、“共和国”、“公民”等词。从“中”　

字开始，向后依次扫描，分别取“中”、“中华”、“中华人”、“中华人民”、“中华人民共”、“中华人民共和”、“中华　

人民共和国”、“中华人民共和国公”进行匹配，词典中最长的匹配字符串是“中华人民共和国”，那么该词被切　

分出来。接着从“公”字开始扫描，重复上述操作。　

正向最大增字匹配算法分词原则是“长词优先”，这样可以保证切词的精确性，但仍然可能切出和原字符　

串语义不同的词，我们称它为歧义词。例如：“提高成功的确定性”字符串在采用正向最大匹配算法分词时，　

“提高”和词典中相应词匹配成功，被切分成一个词，同理“成功”被切分成一个词，“的确”被切分出来…．．，最　

后切分结果为“提高／成功／的确／定性”。可见，切分出的“的确”，“定性”属于歧义词，丢失了原字符串的语　

义。　

分析可知，产生这种问题是因为正向最大增字匹配算法扫描的方向是自左向右。为了确保在切分过程　

中，不丢失原字符串语义，本文给出正向最大增字匹配和逆向最大增字匹配相结合的算法，我们把它称作双　

向最大增字匹配算法。　

逆向最大增字匹配算法的分词过程与正向最大增字匹配算法基本相同。不同的是从字符串的末尾开始　

扫描，每次匹配不成功时去掉前面的一个字，直至匹配成功为止。

　５６　青岛大学学报（自然科学版）　第２４卷　

２．２改进的中文分词算法　

双向最大增字匹配算法的基本思想是：在进行中文分词时，将待处理的字符串先进行一次正向最大增字　

匹配算法处理，再进行一次逆向最大增字匹配算法处理，两次所切　

分出的词即为最终结果。　

假设对ｓ＝＝＝Ｃ　ＣｚＣ。Ｃ　……ｃ　进行双向最大增字匹配分词，其　

算法过程描述如下：　

（１）首先取出ｓ中的第一个字ｃ　，在词典中匹配查找是否存　

在以Ｃ　为前缀的词，如果有，保存为成词标记；　

（２）再从ｓ中取出一个字ｃ２，和词典进行匹配，判断是否存在　

以Ｃ１Ｃ２为前缀的词；　

（３）如果不存在，则将Ｃ１从字串Ｓ中切分出来，一次分词结　

束；　

（４）如果存在，则再判断一下Ｃ１Ｃ２是否成词，计算以Ｃ１Ｃ２为　

前缀的词的个数ｎ；　

（５）如果ｎ一０，则一次分词结束；　

（６）如果ｎ不为０，则再从ｓ中取出一个字Ｃｉ，和词典进行匹　Ｎ　

配，判断是否存在以Ｃ１Ｃ２……ｃｉ为前缀的词；　

（７）如果存在，则转到（６）；　

（８）如果不存在，则将Ｃ１Ｃ２……Ｃｉ一１从字串Ｓ中切分出来，　

一次分词结束；　（９）从字串ｓ的字ｃｉ开始继续进行分词，重复上述步骤，直到　

字串ｓ正向切分结束；　

（１０）首先取出Ｓ中的最后一个字Ｃｎ，在词典中匹配查找是否　

存在以Ｃｎ为后缀的词，如果有，保存为成词标记；　

（１１）再从Ｓ中取出一个字Ｃｎ一１，和词典进行匹配判断是否　

存在以Ｃｎ一１Ｃｎ为后缀的词；　（１２）如果不存在，则将Ｃｎ从字串ｓ中切分出来，一次分词结　

束；　（１３）如果存在，则再判断一下Ｃｎ一１Ｃｎ是否成词，计算以Ｃｎ　

１Ｃｎ为后缀的词的个数ｎ；　

（１４）如果ｎ一０，则一次分词结束；　

（１５）如果ｎ不为０，则再从Ｓ中取出一个字Ｃｉ，和词典进行匹　

配判断是否存在以ＣＩ．．…・Ｃｎ一１Ｃｎ为后缀的词；　

（１６）如果存在，则转到（１５）；　

（１７）如果不存在，则将Ｃｉ＋１……Ｃｎ一１Ｃｎ从字串ｓ中切分　

出来，一次分词结束；　

（１８）从字串Ｓ的字Ｃｉ开始继续进行分词，重复上述步骤，直　

到字串ｓ逆向切分结束。双向最大增字匹配算法分词的具体流程　

如图３所示。　例如：“提高成功的确定性”字符串在第一次正向扫描时，切分　

图３双向最大增字匹配算法流程图

e商务文档

一种基于LUCENE的中文分词算法研究

相关文档推荐：