湖南文理学院课程设计报告课程名称:计算机软件技术基础系部:电信系专业班级:通信工程T09103班学生姓名:刘程程指导教师:完成时间:2011.12.28报告成绩:目录中文摘要 (I)ABSTRACT (II)第一章引言 (1)1.1背景和意义 (1)1.2词性标注定义及其困难 (1)1.2.1词性的定义 (2)1.2.2词性标注的难点 (2)第二章基础理论介绍 (3)2.1隐马尔科夫模型(H1DDEN M ARKOV M ODEL,HM) (3)2.2HMM用于词性标注 (4)第三章改进HMM标注模型与参数估计 (4)3.1改进HMM模型词性标注 (4)3.2参数估计 (5)3.2.1训练语料库 (5)3.2.2当用数据库 (5)第四章改进VITERBI算法标注 (7)4.1标注过程 (7)4.2改进后的V ITERBI算法的具体描述 (7)第五章实验结果与分析 (8)5.1评价标准 (8)5.2实验结果 (9)5.3错误分析 (10)参考文献 (11)中文摘要汉语词性标注是中文信息处理技术中的一项基础性课题。
一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。
因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。
词性标注的方法主要有基于规则和基于统计的两大类。
由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。
在基于统计的方法中,隐马尔科夫模型是最主要的算法模型之一。
在本文中,我们以汉语的词性自动标注为研究对象,提出了一种基于改进的隐马尔科夫模型汉语词性标注方法。
该方法在原有隐马尔科夫模型的基础上,加入了更多的上下文信息,用于汉语词性的自动标注问题,取得了较好的效果。
主要的研究内容有以下几方面: 1.虽然隐马尔科夫模型有很好的标注效果,但是它在对当前词词语出现概率的估计只与其词性有关。
2.获得上下文信息的多少和数据平滑程度是评价统计词性标注模型性能的两个重要参数。
本文详细介绍了现阶段几种平滑算法,针对该模型数据稀疏现象,采用性能稳定指数线性插值方法来平滑HMM的概率参数。
3.对HMM参数估计模型的修改,只是改进模型的第一步,为了更有效的使用训练所得到的参数,需要对Viterbi算法进行修改。
由于传统的Viterbi算法不适合本模型,所以对Viterbi算法进行了拓展。
4.对于自然语言来讲不存在完备的可计算的词性信息,如何确定未登录词的词性是除兼类问题之外词性标注所面临的另一个关键问题。
本文对未登录词处理提出了具体处理方法。
关键词:中文信息处理;汉语词性标注;隐马尔科夫模型;平滑算法;AbstractChinese Part-of-Speech Tagging is a fundamental problem to many Chinese Information Processing tasks. The task of Part-of-Speech Tagging is to design software that can identify Part-of-Speech in a sentence automatically.One side, the performance of many realistic applications such as information extraction, information retrieval, and machine translation would be improved if the right Part-of-Speech were available. And on the other hand, it is indispensable processing component in Chinese lexical analysis system, Chinese syntax analysis system, and etc. Therefore, its research is of great of theoretical importance as well as practicability.The model of Part-of-Speech Tagging includes both rule and statistics technique. Because of the statistics technique requires no manual rules of natural language and has a high level accuracy, the statistical language model has gradually become a hot research topic. For its better performance, Hidden Makov Model (HMM), one of the statistical models, has been the recent trend in Part-of-Speech Tagging.We propose a method of Chinese Part-of-Speech Tagging based on ameliorated Hidden Makov Model, taking more information of context into the model to describe language phenomena. The result of ameliorated model is satisfying. The main works of this paper includes four parts:1 .Although HMM are high performance, the probability of the word depends on its own tag. 2. Two key factors can be used in evaluating the performance of statistical model of Part-of-Speech Tagging. 3 .For the sake of making effective use of parameters trained from ameliorated Hidden Makov Model; we fit the Viterbi algorithm for the new parameter.4 .For the imperfection of computable information on each word in How to solve new words is anther key problem in statistical language In this paper, we propose a concreted method in new words.Key words: Chinese Information Processing; Chinese Part-of-SpeechTagging; Hidden Makov Model; Smoothing Algorithm第一章引言1.1背景和意义随着Internet上中文网页的急剧膨胀和中文电子出版物、中文数字图书馆的迅速普及,以非受限文本为主要对象的中文自然语言处理研究的重要性日益显著。
分析和处理语言的基本方法,是将语言分为词法、句法、语义等不同层次来加以认识的,在自然语言处理领域,相应建立了词法分析、句法分析、语义分析等课题。
当前汉字编码和输入方法的研究已比较成熟,中文自然语言处理的重点已从“字”层面转移到“词”层面。
汉语的词性标注研究,主要是从词层面进行的研究,这一问题在70年代末就受到了广泛的关注,目前,许多标注方法方法已得到了实现。
在这一长期的研究和实践过程中,尽管有这些难题的长期困扰,汉语的词性标注仍得到很多现实应用。
因此具体如下:a)为更高层次的自然语言文本加工提供素材,例如:利用词性标注结果对部分句法进行对名次短语的识别。
b)为语言学的研究提供翔实的资料,例如:利用词性标注实现信息理解,数据抽取或文本数据挖掘。
c)从加工过的文本中获取词类及频度的词性标注知识。
例如:文本分类等。
一方面,它的研究成果可以直接融入到机器翻译[z1、信息检索、语音识别等诸多实际应用系统当中,另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。
因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。
1.2词性标注定义及其困难词性也叫词类,是根据一个词的本意及在短语或句子中的作用划分的。
从语言学的角度,汉语词汇可分为实词和虚词两大类。
实词是意义比较具体的词,包括:名词(含方位词)、动词、形容词(含颜色词)、数词、量词、代词六大类。
虚词主要指没有完整的词汇意义,但有文法意义或功能意义的词,包括:副词、介词、连词、助词、象声词六大类。
需要注意的是,上述的分类方法不是唯一的。
一种语言的词汇应该划分为多少类以及每一类都应该包含那些词汇都没有一个统一的标准。
在语言学研究中,这个问题通常是由人们的语一言感觉、应用需求、工程可操作性三个因素共同决定。
1.2.1词性的定义词性也叫词类,是根据一个词的本意及在短语或句子中的作用划分的。
从语言学的角度,汉语词汇可分为实词和虚词两大类。
实词是意义比较具体的词,包括:名词(含方位词)、动词、形容词(含颜色词)、数词、量词、代词六大类。
虚词主要指没有完整的词汇意义,但有文法意义或功能意义的词,包括:副词、介词、连词、助词、象声词六大类。
需要注意的是,上述的分类方法不是唯一的。
一种语言的词汇应该划分为多少类以及每一类都应该包含那些词汇都没有一个统一的标准。
在语言学研究中,这个问题通常是由人们的语一言感觉、应用需求、工程可操作性三个因素共同决定。
1.2.2词性标注的难点所谓词性标注就是根据句子中的上下文信息给句中的每个词确定一个最为合适的词性标记。
比如给定一个句子:“我中了一张彩票。
”对其的标注结果可以是:“我/代词中/动词了/助词一/数词张/量词彩票/名词。
/标点’,。
词性标注的难点主要是由词性兼类[3]所引起的,词性兼类是指自然语言中一个词语的词性多余一个的语言现象。