当前位置:文档之家› 机器翻译原理与方法讲义(03)基于词的统计机器翻译方法

机器翻译原理与方法讲义(03)基于词的统计机器翻译方法


信源信道模型 (1)
• 信源信道模型又称噪声信道模型,是由IBM 公司的Peter F. Brown等人于1990年提出来 的:
Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics,1990
Pr(F | E) = ∑ Pr(F, A | E) =
A
ε
(l + 1)
m
∑ ∑∏ t ( f
a1 =1 am =1 j =1
l
l
m
j
| ea j )
fm
E = e1l = e1e2
, m}, ai ∈ {0,
el
, l}
am , ∀i ∈ {1,
那么词语对齐的概率可以表示为:
Pr(F, A | E) = Pr(m | E)∏ Pr(a j | a1j −1 , f1 j −1 , m, E ) Pr( f j | a1j , f1 j −1 , m, E )
Pr( f j | a1j , f1 j −1 , m, E) = t ( f j | ea j )
机器翻译原理与方法讲义(02)机器翻译方法 27
IBM Model 1 的推导(2)
那么对齐概率可以表示为:
Pr(F, A | E) =
ε
(l + 1)
m
∏ t( f
j =1
m
j
| ea j )
对所有可能的对齐求和,那么翻译概率就可以表 示为:
机器翻译原理与方法讲义(02)机器翻译方法 2
为翻译建立概率模型
• 假设任意一个英语句子e和一个法语句子 f, 我们定义f翻译成e的概率为:
Pr(e | f )
其归一化条件为:
e
∑ Pr(e | f ) = 1
机器翻译原理与方法讲义(02)机器翻译方法
• 于是将 f 翻译成 e 的问题就变成求解问题:
机器翻译原理与方法讲义(02)机器翻译方法 24
IBM Model 1 & 2 推导方式 (1)
源语言句子E: I1 am2 a3 student4
目标语言句子F: 词语对齐A:
我 1
是 2
一 3
个 3
学生 4
IBM模型1&2的推导过程: 1. 猜测目标语言句子长度; 2. 从左至右,对于每个目标语言单词:
机器翻译原理与方法讲义(02)机器翻译方法 19
翻译模型
• 翻译模型P(F|E)反映的是一个源语言句子E 翻译成一个目标语言句子F的概率 • 由于源语言句子和目标语言句子几乎不可 能在语料库中出现过,因此这个概率无法 直接从语料统计得到,必须分解成词语 翻译的概率和句子结构(或者顺序)翻译 的概率
– 首先猜测该单词由哪一个源语言单词翻译而来; – 再猜测该单词应该翻译成什么目标语言词。
机器翻译原理与方法讲义(02)机器翻译方法 25
IBM Model 1 & 2 推导方式 (2)
假设翻译的目标语言句子为: 假设翻译的源语言句子为: 假设词语对齐表示为:
A = a1m = a1a2
m
F = f1m = f1 f 2
9
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 10
语言模型
这与整个机器翻译系统翻译方向的刚好相反
机器翻译原理与方法讲义(02)机器翻译方法 6
统计机器翻译基本方程式
E = arg max P ( E ) P (F | E )
E
• P.Brown称上式为统计机器翻译基本方程式
– 语言模型:P(E) – 翻译模型:P(F|E)
• 语言模型反映“ E像一个句子”的程度:流利度 • 翻译模型反映“F像E”的程度:忠实度 • 联合使用两个模型效果好于单独使用翻译模 型,因为后者容易导致一些不好的译文。
ˆ e = argmax Pr(e | f )
e
3
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 4
机器翻译原理与方法讲义(02)机器翻译方法 13
N元语法模型-定义
• N元语法模型(N-gram Model)
P ( w ) = ∏ P ( wi | w1 w2 ... wi −1 )
i =1 n n
≈ ∏ P ( wi | wi − N +1 wi − N + 2 ... wi −1 )
i =1
机器翻译原理与方法
第三讲 基于词的统计机器翻译方法 刘群
中国科学院计算技术研究所 liuqun@
中国科学院计算技术研究所2008-2009年度秋季课程
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
袋子模型 Bag Model (2)
• 实验:取38个长度小于11个单词的英语句子,实验结果如 下:
机器翻译原理与方法讲义(02)机器翻译方法
18
内容提要
• • • • • • • • • 为翻译建立概率模型 IBM的信源信道模型 语言模型 –– n元语法模型 翻译模型 –– IBM模型1-5 词语对齐算法 解码算法 Candide系统 Egypt工具包与Giza++ 机器翻译自动评价
– 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 – 语言模型:根据单词之间的同现选择最好的译文词
机器翻译原理与方法讲义(02)机器翻译方法 8
统计机器翻译的三个问题
• 三个问题:
– 语言模型P(E)的建模和参数估计 – 翻译模型P(F|E)的建模和参数估计 – 解码(搜索)算法
机器翻译原理与方法讲义(02)机器翻译方法
23
机器翻译原理与方法讲义(02)机器翻译方法
IBM Model
对P(F,A|E)的估计 IBM Model 1仅考虑词对词的互译概率 IBM Model 2加入了词的位置变化的概率 IBM Model 3加入了一个词翻译成多个词 的概率 • IBM Model 4 • IBM Model 5 • • • •
机器翻译原理与方法讲义(02)机器翻译方法 21
词语对齐的表示 (1)
图形表示
连线 矩阵(见下页)
1 China 2 ’s 3 14 4 open 5 board 6 cities 7 marked 8 economic 9 achievement 中国 1,2 十四 3 个 3
数字表示
给每个目标语言单 词标记其所有对应 的源语言单词
机器翻译原理与方法讲义(02)机器翻译方法 7
语言模型与翻译模型
• 考虑汉语动词“打”的翻译:有几十种对应的英语词 译文:
打人,打饭,打鱼,打毛衣,打猎,打草稿,……
• 如果直接采用翻译模型,就需要根据上下文建立 复杂的上下文条件概率模型 • 如果采用信源-信道思想,只要建立简单的翻译 模型,可以同样达到目标词语选择的效果:
边境 5 开放 4 城市 6 经济 8 建设 9 成就 9 显著 7
机器翻译原理与方法讲义(02)机器翻译方法
22
词语对齐的表示 (2)
achievement economic marked cities board open 14 ‘s China 中国 十四 个 边境 开放 城市 经济 建设 成就 显著
j =1
注意:在IBM Model中,词语对齐只考虑了源语言到目标语 言的单向一对多形式,不考虑多对一和多对多的形式。
机器翻译原理与方法讲义(02)机器翻译方法 26
IBM Model 1 的推导 (1)
假设所有翻译长度都是等概率的: Pr(m | E) = ε 假设词语对齐只与源语言长度有关,与其他因素 无关: 1 j −1 j −1 Pr(a j | a1 , f1 , m, E) = l +1 假设目标词语的选择只与其对应的源语言词语有关, 与其他因素无关:
机器翻译原理与方法讲义(02)机器翻译方法 11
语言模型的类型
• 理论上,单词串的任何一种概率分布,都是一个语言模型。 • 实际上,N元语法模型是最简单也是最常见的语言模型。 • N元语法模型由于没有考虑任何语言内部的结构信息,显然 不是理想的语言模型。 • 其他语言模型:
– 隐马尔科夫模型(HMM)(加入词性标记信息) – 概率上下文无关语法(PCFG)(加入短语结构信息) – 概率链语法(Probabilistic Link Grammar)(加入链语法的结构信 息)
• 假设:单词wi出现的概率只与其前面的 N-1个单词有关
机器翻译原理与方法讲义(02)机器翻译方法 14
N元语法模型-举例
• N=1时:一元语法模型
相关主题