当前位置：文档之家› 词性标注与隐马尔可夫模型(精)

词性标注与隐马尔可夫模型(精)

给每个词标上它最常见的词性所有的未登录词标上名词词性
8
决定一个词词性的因素
从语言学角度：由词的用法以及在句中的语法功能决定统计学角度：
和上下文的词性（前后词的标注）相关和上下文单词（前后词）相关
9
隐马尔可夫模型－概要
背景马尔可夫模型隐马尔可夫模型
13
马尔可夫模型示例－天气预报
通过有限状态自动机描述状态转移概率
14
预测－计算未来天气（序列的概率）
晴-晴-雨-雨-晴-多云-晴，未来七天天气是这种情况的概率
P (O | Model ) P ( S3 , S3 , S1 , S1 , S3 , S 2 , S3 | Model ) P( S3 | Begin) * P( S3 | S3 ) * P( S1 | S3 ) * *P( S1 | S1 ) * P( S3 | S1 ) * P( S 2 | S3 ) * P( S3 | S 2 ) 3 * a33 * a31 * a11 * a13 * a32 * a23 0.33*0.8*0.1*0.4*0.3*0.1*0.2 6.336*10 5
T
18
HMM的定义
定义：一个HMM模型 λ=(A,B,π)
S是状态集， S=(S1,S2,…SN) V是观察集， V=(V1,V2,…VM) 状态序列Q = q1q2…qT （隐藏），观察序列 O=o1o2…oT （可见） A是状态转移概率分布A=[aij], aij=P(qt=sj|qt-1=si) (满足假设1.) B是观察值生成概率分布B=[bj(vk)], bj(vk)=P(ot=vk|qt=si) (满足假设2、3) 初始观察值概率分布 Π= [πi], πi =P(q1=si)
对兼类词消歧－词性标注的任务
5
词性标注的应用及重要性
机器翻译 Text – Speech 词法句法规则－词性组合句法分析的预处理统计自然语言处理的基础
6
词性标注常见方法
规则方法：
词典提供候选词性人工整理标注规则
统计方法
寻找概率最大的标注序列如何建立统计模型 P( tag, word ) HMM方法（Garside et al. 1987,Church 1988）
模型评估解码模型参数学习
10
背景
俄国统计学家Andrei Markov（1856-1922）提出 Studied temporal probability models Real-world Observed output (signals) Signal Models – stimulate the signals source and learn as much as possible through simulations
4
词性标注问题－词性标注歧义（兼类词）
一个词具有两个或者两个以上的词性英文的Brown语料库中，10.4%的词是兼类词
The back door On my back Promise to back the bill
汉语兼类词
把门锁上，买了一把锁他研究与自然语言处理相关研究工作汉语词类确定的特殊难点
词性标注与隐马尔可夫模型
戴新宇 2006-11-17
1
概要
词性标注 HMM模型 HMM模型用于词性标注相关问题讨论
2
词性标注
定义及任务描述词性标注的问题－标注歧义（兼类词）词性标注之重要性词性标注方法
3
词性标注任务描述
什么叫词性？
词性又称词类，是指词的语法分类，或者说是按照其各自的语法功能的不同而分出来的类别
介绍定义隐马模型应用于词性标注
17
HMM模型的简单介绍
“隐”在何处？
状态（序列）是不可见的（隐藏的）
HMM是一阶马尔可夫模型的扩展
观察值与状态之间存在概率关系隐藏的状态序列满足一阶马尔可夫模型
相对于markov模型的又一假设：输出独立性
P(O1 ,...OT | S1 ,...ST ) P(Ot | St )
15
马尔可夫假设
假设1 有限视野
P(Ot+1=Sk|O1,…Ot) = P(Ot+1=Sk|Ot-(n-1),…Ot)
(n-1)th 阶马尔可夫链假设2 时间独立性
→ n 元语言模型
P(Ot+1=Sk|Ot) = P(O2=Sk|O1)
16
隐马尔可夫模型－ Hidden Markov Model (HMM)
11
马尔可夫模型
举例说明马尔可夫模型马尔可夫假设
12
马尔可夫模型示例－天气预报
状态：雨、多云、晴给定不同天气之间的转换概率，预测未来数天的天气通过如右图所示的矩阵描述状态之间的转移概率
0.4 0.3 0.3 A {aij } 0.2 0.6 0.2 0.1 0.1 0.8
19
词性标注的HMM模型定义
HMM：S V A B π S：预先定义的词性标注集 V：文本中的词汇 A：词性之间的转移概率 B：某个词性生成某个词的概率例，P(我|“代词”) π ：初始概率基于构建的HMM，利用某些算法，寻找一个最合适的词性标注序列，即为一个词串上的每个词标注上词性。
划分词类的依据
词的形态、词的语法意义、词的语法功能
汉语的词类划分词性标注：给某种语言的词标注上其所属的词类
The lead paint is unsafe. The/Det lead/N paint/N is/V unsafe/Adj. 他有较强的领导才能。他/代词有/动词较/副词强/形容词的/助词领导/名词才能 /名词。
决策树方法（Schmid 1994）最大墒方法（Ratnaparkhi 1996）
基于错误驱动的方法
错误驱动学习规则利用规则重新标注词性
7
词性标注的性能指标
性能指标：标注准确率当前方法正确率可以达到97% 正确率基线(Baseline)可以达到90%
基线的做法：

e商务文档

词性标注与隐马尔可夫模型(精)

相关文档推荐：