当前位置：文档之家› 机器翻译原理与方法讲义(03)基于词的统计机器翻译方法

机器翻译原理与方法讲义(03)基于词的统计机器翻译方法

信源信道模型 (1)
• 信源信道模型又称噪声信道模型，是由IBM 公司的Peter F. Brown等人于1990年提出来的：
Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics,1990
Pr(F | E) = ∑ Pr(F, A | E) =
A
ε
(l + 1)
m
∑ ∑∏ t ( f
a1 =1 am =1 j =1
l
l
m
j
| ea j )
fm
E = e1l = e1e2
, m}, ai ∈ {0,
el
, l}
am , ∀i ∈ {1,
那么词语对齐的概率可以表示为:
Pr(F, A | E) = Pr(m | E)∏ Pr(a j | a1j −1 , f1 j −1 , m, E ) Pr( f j | a1j , f1 j −1 , m, E )
Pr( f j | a1j , f1 j −1 , m, E) = t ( f j | ea j )
机器翻译原理与方法讲义(02)机器翻译方法 27
IBM Model 1 的推导(2)
那么对齐概率可以表示为:
Pr(F, A | E) =
ε
(l + 1)
m
∏ t( f
j =1
m
j
| ea j )
对所有可能的对齐求和，那么翻译概率就可以表示为:
机器翻译原理与方法讲义(02)机器翻译方法 2
为翻译建立概率模型
• 假设任意一个英语句子e和一个法语句子 f，我们定义f翻译成e的概率为：
Pr(e | f )
其归一化条件为：
e
∑ Pr(e | f ) = 1
机器翻译原理与方法讲义(02)机器翻译方法
• 于是将 f 翻译成 e 的问题就变成求解问题：
机器翻译原理与方法讲义(02)机器翻译方法 24
IBM Model 1 & 2 推导方式 (1)
源语言句子E： I1 am2 a3 student4
目标语言句子F：词语对齐A：
我 1
是 2
一 3
个 3
学生 4
IBM模型1&2的推导过程： 1. 猜测目标语言句子长度； 2. 从左至右，对于每个目标语言单词：
机器翻译原理与方法讲义(02)机器翻译方法 19
翻译模型
• 翻译模型P(F|E)反映的是一个源语言句子E 翻译成一个目标语言句子F的概率 • 由于源语言句子和目标语言句子几乎不可能在语料库中出现过，因此这个概率无法直接从语料统计得到，必须分解成词语翻译的概率和句子结构（或者顺序）翻译的概率
– 首先猜测该单词由哪一个源语言单词翻译而来； – 再猜测该单词应该翻译成什么目标语言词。
机器翻译原理与方法讲义(02)机器翻译方法 25
IBM Model 1 & 2 推导方式 (2)
假设翻译的目标语言句子为: 假设翻译的源语言句子为: 假设词语对齐表示为:
A = a1m = a1a2
m
F = f1m = f1 f 2
9
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型语言模型 –– n元语法模型翻译模型 –– IBM模型1-5 词语对齐算法解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 10
语言模型
这与整个机器翻译系统翻译方向的刚好相反
机器翻译原理与方法讲义(02)机器翻译方法 6
统计机器翻译基本方程式
E = arg max P ( E ) P (F | E )
E
• P.Brown称上式为统计机器翻译基本方程式
– 语言模型：P(E) – 翻译模型：P(F|E)
• 语言模型反映“ E像一个句子”的程度：流利度 • 翻译模型反映“F像E”的程度：忠实度 • 联合使用两个模型效果好于单独使用翻译模型，因为后者容易导致一些不好的译文。
ˆ e = argmax Pr(e | f )
e
3
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型语言模型 –– n元语法模型翻译模型 –– IBM模型1-5 词语对齐算法解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 4
机器翻译原理与方法讲义(02)机器翻译方法 13
N元语法模型－定义
• N元语法模型（N-gram Model）
P ( w ) = ∏ P ( wi | w1 w2 ... wi −1 )
i =1 n n
≈ ∏ P ( wi | wi − N +1 wi − N + 2 ... wi −1 )
i =1
机器翻译原理与方法
第三讲基于词的统计机器翻译方法刘群
中国科学院计算技术研究所 liuqun@
中国科学院计算技术研究所2008-2009年度秋季课程
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型语言模型 –– n元语法模型翻译模型 –– IBM模型1-5 词语对齐算法解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
袋子模型 Bag Model (2)
• 实验：取38个长度小于11个单词的英语句子，实验结果如下：
机器翻译原理与方法讲义(02)机器翻译方法
18
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型语言模型 –– n元语法模型翻译模型 –– IBM模型1-5 词语对齐算法解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
– 翻译模型：不考虑上下文，只考虑单词之间的翻译概率 – 语言模型：根据单词之间的同现选择最好的译文词
机器翻译原理与方法讲义(02)机器翻译方法 8
统计机器翻译的三个问题
• 三个问题：
– 语言模型P(E)的建模和参数估计 – 翻译模型P(F|E)的建模和参数估计 – 解码（搜索）算法
机器翻译原理与方法讲义(02)机器翻译方法
23
机器翻译原理与方法讲义(02)机器翻译方法
IBM Model
对P(F,A|E)的估计 IBM Model 1仅考虑词对词的互译概率 IBM Model 2加入了词的位置变化的概率 IBM Model 3加入了一个词翻译成多个词的概率 • IBM Model 4 • IBM Model 5 • • • •
机器翻译原理与方法讲义(02)机器翻译方法 21
词语对齐的表示 (1)
图形表示
连线矩阵（见下页）
1 China 2 ’s 3 14 4 open 5 board 6 cities 7 marked 8 economic 9 achievement 中国 1,2 十四 3 个 3
数字表示
给每个目标语言单词标记其所有对应的源语言单词
机器翻译原理与方法讲义(02)机器翻译方法 7
语言模型与翻译模型
• 考虑汉语动词“打”的翻译：有几十种对应的英语词译文：
打人，打饭，打鱼，打毛衣，打猎，打草稿，……
• 如果直接采用翻译模型，就需要根据上下文建立复杂的上下文条件概率模型 • 如果采用信源－信道思想，只要建立简单的翻译模型，可以同样达到目标词语选择的效果：
边境 5 开放 4 城市 6 经济 8 建设 9 成就 9 显著 7
机器翻译原理与方法讲义(02)机器翻译方法
22
词语对齐的表示 (2)
achievement economic marked cities board open 14 ‘s China 中国十四个边境开放城市经济建设成就显著
j =1
注意：在IBM Model中，词语对齐只考虑了源语言到目标语言的单向一对多形式，不考虑多对一和多对多的形式。
机器翻译原理与方法讲义(02)机器翻译方法 26
IBM Model 1 的推导 (1)
假设所有翻译长度都是等概率的： Pr(m | E) = ε 假设词语对齐只与源语言长度有关，与其他因素无关： 1 j −1 j −1 Pr(a j | a1 , f1 , m, E) = l +1 假设目标词语的选择只与其对应的源语言词语有关，与其他因素无关：
机器翻译原理与方法讲义(02)机器翻译方法 11
语言模型的类型
• 理论上，单词串的任何一种概率分布，都是一个语言模型。 • 实际上，N元语法模型是最简单也是最常见的语言模型。 • N元语法模型由于没有考虑任何语言内部的结构信息，显然不是理想的语言模型。 • 其他语言模型：
– 隐马尔科夫模型（HMM）（加入词性标记信息） – 概率上下文无关语法（PCFG）（加入短语结构信息） – 概率链语法（Probabilistic Link Grammar）（加入链语法的结构信息）
• 假设：单词wi出现的概率只与其前面的 N-1个单词有关
机器翻译原理与方法讲义(02)机器翻译方法 14
N元语法模型－举例
• N=1时：一元语法模型

e商务文档

机器翻译原理与方法讲义(03)基于词的统计机器翻译方法

相关文档推荐：