当前位置:文档之家› 汉语自动分词与词性标注

汉语自动分词与词性标注

的二字词或三字词组,一律划分为分词单 位。”
歧义切分问题 ➢交集型切分歧义 ➢组合型切分歧义 ➢多义组合型切分歧义
• 交集型歧义切分
中国人为了实现自己的梦想
中国/ 人为/ 了/ 实现/ 自己/ 的/ 梦想
中国人/ 为了/ 实现/ 自己/ 的/ 梦想
中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想 例如:中国产品质量、部分居民生活水 平
C* = arg max P(C)P(S | C)
,其中生成模型为表7-1
• 生成模型满足假设独立性假设条件,任何 一个词类ci生成汉字串si的概率只与ci自身有 关,与上下文无关。
• 生成模型的训练由以下三步组成: ➢ 在词表和词法派生词表的基础上,用FMM切分
语料,专有名词通过专门模块标注,实体名词 通过相应的规则和有限状态自动机标注,由此 产生一个带词类别标记的初始语料; ➢ 采用最大似然估计方法估计统计语言模型的概 率参数 ➢ 采用得到的语言模型对训练语料重新进行切分 和标注得到一个新的训练语料。 ➢ 重复2,3步,直到系统性能不再有明显的提高 为止。
• 随即变量S为一个汉字序列,W是S上所有可 能切分出来的词序列,分词求解就是条件 概率P(W|S)最大的切分出来的词序列W*
W*=arg maxP(W|S)
=arg maxP(W)P(S|W)
• 根据生成模型,可以把一个可能的词序列W 转换成一个可能的词类序列C=c1c2…
• 可以将上面的公式转换成下面的公式:
• 整个时间ቤተ መጻሕፍቲ ባይዱ杂度为O(n*N*k)。
• 随着n和N的增加,计算复杂度增加太快, 张华平给出了一种基于统计信息的粗分模 型。
• 粗分的目标就是确定P(W)最大的N种切分结 果
m
P(W ) = P(w i )
i =1
7.2.3 基于HMM的分词方法
• 我们可以将汉语自动分词与词性标注统一 考虑,建立基于HMM的分词与词性标注一 体化处理系统。
• 基于词性的三元统计模型 • 基于单词的三元统计模型 • 分词与词性标注一体化模型
• 基于词性的三元统计模型
在分词过程中,先确定词性,在确定单词, 只要列出所有可能的切分,用单词的出现 概率和词性与词性的连接概率,计算每种 切分概率总和,概率值最大的一个即为输 出结果。
n
P(W ,T ) = P(W | T)P(T) P(w i| | ti )P(ti | ti-1ti-2 )
汉语自动分词 词性标注
7.1 汉语自动分词中的基本问题
• 汉语的词与词之间没有任何空格之类的显 示标志指示词的边界。
• 汉语自动分词来源于如下三方面: ➢分词规范 ➢歧义切分 ➢未登录词的识别
7.1 汉语自动分词中的基本问题
汉语分词规范问题: ➢单字词与词素之间的划界 ➢词与短语的划界 “二字或三字词,以及结合紧密、使用稳定
i =1
• 我们组合成一个团队 • Ad/v/p/m/n0.5 • 我们、组合、成 • Ad/v/v/m/n0.4 • 我们/组/合成/一个/团队0.35 • Ad/v/n • 我们/组合/成/一个/团队0.3
• 基于单词的三元统计模型
如果把单词序列作为HMM的中间状态,词 性标注作为输出,那么P(W,T)的另一种简化 形式为(7-10)
7.2基本分词方法
• 基本方法: ➢正向最大匹配法(FMM) ➢逆向最大匹配法 ➢双向扫描法 ➢逐词遍历法 ➢基于词表的分类法
7.2.1 基于统计语言模型的分词方法
• 汉语分词四类: ➢能与分词词表中任何一个词相匹配的字段
为一个词。 ➢文本中任意一个经此法派生出来的词或短
语为一个词(重叠形式,前缀派生,后缀派 生,动词加趋向动词,等等) ➢文本中被明确定义的一个实体名词是一个 词 ➢文本中任何一个专有名词是一个词
7.2.2 N-最短路径方法
• 图7-2
• 时间复杂度为O(n2 ),该算法与其有两个本质区 别:
• 有向边的源节点编号均小于目的结点编号,即 所有边的方向一致;
• 算法最终求解的是有向图首尾结点之间的N-最 短路径。
• 运行时间与n(字串长度)、N(最短路径数)以及 某个字作为词末端字的平均次数k(总次数除以 所有词末端字的总数,即结点平均入度)成正 比。
• 详见第六章举例。 • 有了HMM参数以后,对于任何一个给定的
观察值序列(单词串),总可以通过viterbi算 法很快地可以得到一个可能性最大的状态 值序列(词性串)。算法的复杂度与观察值序 列的长度(句子中的单词个数)成正比。
7.2.4 基于三元统计模型的分词与词 性标注一体化方法
• 句子S是由单词串组成,W=w1…..wn,单词 wi的词性标注为ti,词性标注符号序列可表示 为T=t1……tn,分词与词性标注的任务就是要 在S所对应的各种切分和标注形式中,寻找T 和W的联合概率P(W,T)为最优的词切分和标 注组合。
• 对于交集型歧义字段(OAS),措施是:首 先通过FMM检测出这些字段,然后,用一 个特定的类<GAP>取代全体OAS,依次来训 练语言模型P(C)。类<GAP >的生成模型的参 数通过消歧规则或机器学习方法来估计。
• 对于组合型歧义字段(CAS),该方法通过对训
练语料的统计,选出最高频、且其切分分 布比较均衡的70条CAS,用机器学习方法为 每一个CAS训练一个二值分类器,利用这些 分类器在训练语料中消解这些CAS的歧义。
交集型切分歧义为“偶发歧义”,多义组 合型切分歧义为“固有歧义”。
• 混合型
• 它集交集型与组合型的特点与一身,而且 情况复杂,都是交集型字段内含组合型字 段。
• 这篇文章写的太平淡了。 • 即使太平时期也不应该放松警惕。
• 人们通常将专有名词和数字、日期等词通 称为命名实体。命名实体的识别是自动分 词的关键问题之一。(7.3 7.4)
2、门把手弄坏了。(组合型歧义) 门/ 把/ 手/ 弄/ 坏/ 了/ 。 门/ 把手/ 弄/ 坏/ 了/ 。 例如,“将来”、“现在”、“才能”、 “学生会”等,都是组合型歧义字段。
梁南元对一个含有48092字的自然科学、 社会科学样本进行统计,结构交集型切分 歧义有518个,多义组合型切分歧义有42个。
相关主题