当前位置：文档之家› 基于句法的统计机器翻译的翻译规则快速匹配方法.

基于句法的统计机器翻译的翻译规则快速匹配方法.

现有匹配方法
• 基于树片段的穷举搜索
– 输入：句法树或森林F，翻译规则表R – 输出：匹配的翻译规则 – 步骤
• 对于F中每一个结点N
– 枚举其所有可能以N为根的子树片段 – 对于每一个子树片段G » 将其与rR中的左端相比较，匹配成功，则返回r

LOGO
Fast Translation Rule Matching for Syntax-based Statistical Machine Translation
基于句法的统计机器翻译的翻译规则快速匹配方法
Hui Zhang, Min Zhang, Haizhou Li, Chew Lim Tan In EMNLP2009 骆卫华报告 2009-6-19

超图匹配算法
TOP 规则表 IP IP VP
句法森林
NP ADJP NP NN
VP
VP VV
NP NN
NP VP NP VV, ε
VP NP VV, NN
NP VP ADJ NP,ε ε, NP,ε

超图匹配算法(1)
TOP
IP
IP
VP
SFP:
• 翻译规则匹配算法
– 基于树片段的穷举搜索 – 基于规则的穷举搜索

规则表：
( CP ( IP ( VP ) ) ( DEC ) ) the | @_@ | of | @_@ 2:2 1:4 2.3854e-05 1e-07 0.000441261 0.0375863 -3.23683e-05 -0.000515897 -5.32183 -13.0477 1.29399 ( CP ( IP ( VP ) ) ( DEC ) ) to | @_@ | @_@ 1:2 2:3 0.000588023 1e-07 0.0118465 0.0968351 -0.000650801 -0.0136365 -5.32183 -9.75755 34.7395 ( CP ( IP ( VP ) ) ( DEC ) ) to | the | @_@ | @_@ 1:3 2:4 0.000483222 1e-07 0.00111862 0.0242182 -0.000552588 -0.00124435 -5.32183 -12.1175 3.28033 ( CP ( IP ( VP ) ) ( DEC 的 ) ) 's | @_@ 1:2 0.0139025 0.270723 0.00245631 0.00467418 -0.0402974 -0.0024043 -2.32674 -8.33583 143.969 ( CP ( IP ) ( DEC ) ) 's | @_@ | @_@ 1:2 2:3 0.000845534 1e-07 0.000491488 0.00467418 -0.000716712 -0.000572699 -3.86862 -11.4867 6.1641 ( CP ( IP ) ( DEC ) ) , | @_@ | @_@ 1:2 2:3 0.0016289 1e-07 0.00392479 0.0658115 -0.00162 -0.00435942 -3.86862 -9.40906 49.2236
现有匹配方法
• 基于规则的穷举搜索
– 输入：句法树或森林F，翻译规则表R – 输出：匹配的翻译规则 – 步骤
• 把rR的左端按照自顶向下，从左到右的次序分解为超边序列H • 按次序取出H中的每个超边h：
– 按照自顶向下，从左到右的次序与F进行匹配 – 匹配成功，则返回r

动机现有匹配方法规则集的超树表示基于超树的匹配算法实验结果总结

动机
• 基于森林的翻译
– 翻译规则匹配 – 基于已抽取规则的解码

动机
• 问题
– 规则匹配和解码非常耗时
• 规则数量巨大
– 在265w句对(树高度3)上生成规则文件大小30G(不过滤)
规则集的超树表示
TOP
超树(Hyper-tree)
超顶点(Hyper-node) 超路径(Hyper-path) 超顶点(Hyper-node) 超顶点(Hyper-node)
超顶点(Hyper-node)

规则集的超树表示
• 超结点的精简表示
– 如果超结点没有与之相连的规则，则从根结点到该超结点的超路径不存在对应的翻译规则
– 解码算法优化
• Beam search with pruning • Cube pruning
– 规则匹配算法优化？
• ……

动机
• 改进匹配算法
– 提高匹配速度
• 改进规则表示方法
– 加载更多规则 – 放宽参数限制：树高度

现有匹配方法
NP
ADJP
NP
JJ
NN
有关
规定

现有匹配方法
• 基于树片段的穷举搜索
– h：句法压缩森林的一个结点 – f(h)：以h为根的可能的树片段数目
• f(h) = 0 如果h为叶结点
e为连接 h的超边 ci为e中第 i个孩子结点

(1 f (c ))
i
否则

IP => NP VP; NP => NP NP; NP => NN; NN => 声明

现有匹配方法
• 基于规则的穷举搜索
– 对于F中的每个结点需匹配所有规则 – R通常规模巨大 – 实际速度比基于树片段的搜索更慢

规则集的超树表示
• 基本思想
– 超树匹配
• 句法压缩森林和翻译规则集均表示为超树 • 超树的每个顶点只访问一次

规则集的超树表示
公共部分

规则集的超树表示
IP
NP VP
NP
NPΒιβλιοθήκη NNNN新华社声明

规则集的超树表示

e商务文档

基于句法的统计机器翻译的翻译规则快速匹配方法.

相关文档推荐：