当前位置：文档之家› 汉语自动分词与词性标注

汉语自动分词与词性标注

的二字词或三字词组，一律划分为分词单位。”
歧义切分问题 ➢交集型切分歧义 ➢组合型切分歧义 ➢多义组合型切分歧义
• 交集型歧义切分
中国人为了实现自己的梦想
中国/ 人为/ 了/ 实现/ 自己/ 的/ 梦想
中国人/ 为了/ 实现/ 自己/ 的/ 梦想
中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想例如：中国产品质量、部分居民生活水平
C* = arg max P(C)P(S | C)
，其中生成模型为表7-1
• 生成模型满足假设独立性假设条件，任何一个词类ci生成汉字串si的概率只与ci自身有关，与上下文无关。
• 生成模型的训练由以下三步组成： ➢ 在词表和词法派生词表的基础上，用FMM切分
语料，专有名词通过专门模块标注，实体名词通过相应的规则和有限状态自动机标注，由此产生一个带词类别标记的初始语料； ➢ 采用最大似然估计方法估计统计语言模型的概率参数 ➢ 采用得到的语言模型对训练语料重新进行切分和标注得到一个新的训练语料。 ➢ 重复2,3步，直到系统性能不再有明显的提高为止。
• 随即变量S为一个汉字序列，W是S上所有可能切分出来的词序列，分词求解就是条件概率P(W|S)最大的切分出来的词序列W*
W*=arg maxP(W|S)
=arg maxP(W)P(S|W)
• 根据生成模型，可以把一个可能的词序列W 转换成一个可能的词类序列C=c1c2…
• 可以将上面的公式转换成下面的公式：
• 整个时间ቤተ መጻሕፍቲ ባይዱ杂度为O(n*N*k)。
• 随着n和N的增加，计算复杂度增加太快，张华平给出了一种基于统计信息的粗分模型。
• 粗分的目标就是确定P(W)最大的N种切分结果
m
P(W ) = P(w i )
i =1
7.2.3 基于HMM的分词方法
• 我们可以将汉语自动分词与词性标注统一考虑，建立基于HMM的分词与词性标注一体化处理系统。
• 基于词性的三元统计模型 • 基于单词的三元统计模型 • 分词与词性标注一体化模型
• 基于词性的三元统计模型
在分词过程中，先确定词性，在确定单词，只要列出所有可能的切分，用单词的出现概率和词性与词性的连接概率，计算每种切分概率总和，概率值最大的一个即为输出结果。
n
P(W ,T ) = P(W | T)P(T) P(w i| | ti )P(ti | ti-1ti-2 )
汉语自动分词词性标注
7.1 汉语自动分词中的基本问题
• 汉语的词与词之间没有任何空格之类的显示标志指示词的边界。
• 汉语自动分词来源于如下三方面： ➢分词规范 ➢歧义切分 ➢未登录词的识别
7.1 汉语自动分词中的基本问题
汉语分词规范问题： ➢单字词与词素之间的划界 ➢词与短语的划界 “二字或三字词，以及结合紧密、使用稳定
i =1
• 我们组合成一个团队 • Ad/v/p/m/n0.5 • 我们、组合、成 • Ad/v/v/m/n0.4 • 我们/组/合成/一个/团队0.35 • Ad/v/n • 我们/组合/成/一个/团队0.3
• 基于单词的三元统计模型
如果把单词序列作为HMM的中间状态，词性标注作为输出，那么P(W,T)的另一种简化形式为(7-10)
7.2基本分词方法
• 基本方法： ➢正向最大匹配法(FMM) ➢逆向最大匹配法 ➢双向扫描法 ➢逐词遍历法 ➢基于词表的分类法
7.2.1 基于统计语言模型的分词方法
• 汉语分词四类： ➢能与分词词表中任何一个词相匹配的字段
为一个词。 ➢文本中任意一个经此法派生出来的词或短
语为一个词(重叠形式，前缀派生，后缀派生，动词加趋向动词，等等) ➢文本中被明确定义的一个实体名词是一个词 ➢文本中任何一个专有名词是一个词
7.2.2 N-最短路径方法
• 图7-2
• 时间复杂度为O(n2 )，该算法与其有两个本质区别：
• 有向边的源节点编号均小于目的结点编号，即所有边的方向一致；
• 算法最终求解的是有向图首尾结点之间的N-最短路径。
• 运行时间与n(字串长度)、N(最短路径数)以及某个字作为词末端字的平均次数k(总次数除以所有词末端字的总数，即结点平均入度)成正比。
• 详见第六章举例。 • 有了HMM参数以后，对于任何一个给定的
观察值序列(单词串)，总可以通过viterbi算法很快地可以得到一个可能性最大的状态值序列(词性串)。算法的复杂度与观察值序列的长度(句子中的单词个数)成正比。
7.2.4 基于三元统计模型的分词与词性标注一体化方法
• 句子S是由单词串组成，W=w1…..wn，单词 wi的词性标注为ti,词性标注符号序列可表示为T=t1……tn,分词与词性标注的任务就是要在S所对应的各种切分和标注形式中，寻找T 和W的联合概率P(W,T)为最优的词切分和标注组合。
• 对于交集型歧义字段（OAS），措施是：首先通过FMM检测出这些字段，然后，用一个特定的类<GAP>取代全体OAS，依次来训练语言模型P(C)。类<GAP >的生成模型的参数通过消歧规则或机器学习方法来估计。
• 对于组合型歧义字段(CAS),该方法通过对训
练语料的统计，选出最高频、且其切分分布比较均衡的70条CAS，用机器学习方法为每一个CAS训练一个二值分类器，利用这些分类器在训练语料中消解这些CAS的歧义。
交集型切分歧义为“偶发歧义”，多义组合型切分歧义为“固有歧义”。
• 混合型
• 它集交集型与组合型的特点与一身，而且情况复杂，都是交集型字段内含组合型字段。
• 这篇文章写的太平淡了。 • 即使太平时期也不应该放松警惕。
• 人们通常将专有名词和数字、日期等词通称为命名实体。命名实体的识别是自动分词的关键问题之一。(7.3 7.4)
2、门把手弄坏了。(组合型歧义) 门/ 把/ 手/ 弄/ 坏/ 了/ 。门/ 把手/ 弄/ 坏/ 了/ 。例如，“将来”、“现在”、“才能”、 “学生会”等，都是组合型歧义字段。
梁南元对一个含有48092字的自然科学、社会科学样本进行统计，结构交集型切分歧义有518个，多义组合型切分歧义有42个。

e商务文档

汉语自动分词与词性标注

相关文档推荐：