当前位置:文档之家› 基于短语的阿拉伯语到中文的机器翻译系统

基于短语的阿拉伯语到中文的机器翻译系统


2畅2 词语对齐
本模块的主要目标就是实现训练语料库中的句子自动词 语对齐。
其基本思想是利用 GIZA ++进行汉语到阿拉伯语、阿拉
伯语到汉语两个方向的训练,再对两个方向的对齐结果按照 Och 等人[14] 提出的 Heuristic 的思路进行优化。 GIZA ++实现 了 IBM 统计翻译模型,但得到的对齐结果忽略了多对多及多 对一的情况。 为了解决 GIZA ++词语对齐的问题,通常利用 双向对齐的结果进行优化。 优化的方法采用了以两个方向对 齐结果的交集为中心点,检查其上下左右( grow) 及对角( diag) 相邻的八个点,若在并集中,则作为扩展的对齐点加入对齐序 列中。 具体实现伪代码如下:
自然语言处理在国内已经得到了充分的发展,尤其是在中 文处理方面已经达到了相对较高的水平;同时在机器翻译方 面,也取得了长足的进步,但主要研究还是在中文与英文的互 翻译上,对于一些相对较小的语种来说,国内的研究还比较少, 如在阿拉伯语与中文的翻译方面,还处于起步阶段。 本文采用 国际上流行的基于短语(base phrase)的统计机器翻译思想,借 鉴了国际上阿拉伯语到英语[1] 、英语到中文[2,3] 的机器翻译处 理方法,利用国内外现有的开源工具,建立了一个简易的阿拉 伯语到中文的翻译系统。
方法( discriminative training) [8] ,其训练的优化准则为
λ^1M

=arg max{ ∑ log
λ1M
s =1
pλ1m ( es
|fs ) }
(4)
这个判定准则是凸的,并存在全局最优。
收稿日期: 2008唱10唱08; 修回日期: 2008唱11唱27 基金项目: 新疆自治区科技攻关( 含重大专项) 和重点资助项目(200732143唱1) 作者简介:李凯(1982唱) ,男, 硕士研究生,主要研究方向为自然语言处理、电子政务( zhonghuataishan@gmail.com) ;郑洁(1985唱) ,女,硕士研究 生,主要研究方向为电子政务、搜索引擎;蒋同海(1963唱) ,男,研究员,硕导,主要研究方向为多语种信息处理技术.
第 26 卷第 6 期 2009 年 6 月
计算机应用研究 Application Research of Computers
Vol.26 No.6 Jun.2009
基于短语的阿拉伯语到中文的机器翻译系统 倡
李 凯, 郑 洁, 蒋同海
( 中国科学院 新疆理化技术研究所 多语种信息技术实验室, 乌鲁木齐 830011)
对于已经进行了词对齐的语料,直接估计最大似然词汇化 翻译表,用于短语对的词汇化概率计算。 如果直接用 GIZA ++ 产生的翻译表计算,由于有的词条在 GIZA ++词典中没有出 现,导致会有一些短语对的词汇化概率为 0,而且 GIZA ++词 典中没有 w( a |NULL) 和 w( c |NULL) 这两个概率值。 直接估 计的方法就是直接抽取对齐的词对,如果某个词没有与之对齐 的翻译词,就认为它与 NULL 对齐;然后计算同现次数,按照式 (5)(6)分别计算出 w(c |f)和 w(f |c),从而直接生成词汇化的 翻译表。
摘 要: 使用基于短语的统计翻译方法,搭建了一个简易的阿拉伯语到中文的翻译系统。 核心的解码器采用了 log唱linear 直接翻译模型进行开发,在系统中使用了大量的开源软件进行语料库的预处理,并讨论了该方向上尚 未解决的问题和未来的发展趋势。 关键词: 短语; 统计翻译; 阿拉伯语; log唱linear; 解码 中图分类号: TP391.43 文献标志码: A 文章编号: 1001唱3695(2009)00唱2306唱04 doi:10.3969 /j.issn.1001唱3695.2009.06.093
2畅3 短语抽取
目标:从词对齐的语料库中自动学习阿拉伯语短语到汉语 短语的翻译。
实现原理:很多基于短语的统计机器翻译系统的短语抽取 方法都很相似,根据这些方法,本模块实现了从词对齐中自动 抽取双语短语的算法。 基本思想就是首先根据词对齐生成最 大似然词汇化辞典;然后进行短语抽取;最后对每一个短语对 计算四个翻译概率。 2畅3畅1 生成最大似然词汇化翻译表
第6 期
李 凯,等:基于短语的阿拉伯语到中文的机器翻译系统
· 23 07 ·
笔者引入以下六个特征,并将其整合到 log唱linear 模型中: 短语翻译概率为 p( c~|a~);逆向短语翻译概率为 p( a~|c~);词汇 化的短语翻译概率为 lex( c~|a~) ;逆向词汇化的短语翻译概率 为 lex( a~|c~) ;中文语言模型为 lm( c1I );中文句子长度为 I。
AND 橙f j ∈f:( ci , fj ) ∈W→ci ∈c
(7)
其中:W 表示词语对齐的矩阵。 抽取方法就是提取对齐矩阵
中所有以对齐点为顶点的矩形,条件是与矩形所在行范围内的
词源对齐的目标词都在这个矩形的列范围内,反之亦然,如图
6 所示。
w( c |f) =count( c, f) /countc ( c, f)
(5)
w( f |c) =count( c, f) /countf ( c, f)
(6)
2畅3畅2 短语抽取
从词语对齐的语料库中抽取双语短语,要求短语对必须与
词对齐相容。 定义如下:
( c, f) ∈BP骋橙ci ∈c:( ci, fi ) ∈W→fi ∈f
(1)
对于直接翻译概率 Pr( c1I |f 1J ) ,系统采用了 log唱linear 直接
翻译模型[8] 进行模拟:

Pr( c1I
|f1J )
=exp(

m =1
λm



c1I
,f1J



∑exp(
c′1I′


m =1
λm


(c1′I′,Fra bibliotekf1J ) )
(2)
在式(2)中的分母(语言模型) 因为仅与源语言句子 f1J 有 关,所以在搜索的过程中能够省略分母,然后得出了一个对翻
翻译系统的整个流程图如图 2 所示。 整个系统由以下模块构成:训练语料库预处理模块、中文 分词工具 ( 利 用 开 源 工 具 Stanford NLP 提 供 的 中 文 分 词 工 具[10] ) 、阿拉伯语词形分析工具(利用开源工具 Encode唱Arabic唱 1.8 版[11] 和 AMIRA1.0 版[12] ) 、词语对齐模块( 利用开源工具 GIZA ++获得初始对齐,然后对结果进行再处理)、短语抽取 模块、语言模型训练模块( 利用开源工具 SRI)、语言模型应用 工具(利用开源工具 SRI)、输入预处理模块、解码模块、输出后 处理模块。 每个模块都是一个可独立执行的文件,可以运行在 Linux 平台上。 模块之间以文件作为接口,这些文件包括训练语料 库、规范的训练语料库(采用 GIZA ++定义)、分词的训练语料 库(采用 GIZA ++定义)、词语对齐的语料库、短语翻译概率 表、语言模型(采用 SRI 定义)、输入文本、输出文本。
1 系统描述
1畅1 基于短语的统计机器翻译模型
基于短语的统计机器翻译[4 ~6] 以短语作为翻译的基本单 位。 对于一个阿拉伯语句子,翻译系统将其划分为多个连续的 词语串[7] ( 即所谓的 phrase);然后将每一个阿拉伯语短语翻 译为汉语短语;最后将产生的汉语短语进行顺序调整,并输出 译文,如图 1 所示。
Phrase唱based machine translation system from Arabic to Chinese
LI Kai, ZHENG Jie, JIANG Tong唱hai
( Research Center for Multilingual Information Technology, Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi 830011, China)
2 预处理和规范化工具
一个训练语料的流程图如图 3 所示。
2
3
2畅1 训练语料的预处理
训练语料都是中文和阿拉伯文句子对齐的语料,在进行 GIZA ++训练前,需要对这些语料进行加工处理。 对语料进行 预处理的主要工作就是进行中文分词和阿拉伯语的词形分析。 实现原理如下:
a) 中文分词 系统中使用 Stanford NLP 自然语言处理小组开发的中文 分词开源工具[13] 对文档进行处理,分词后的文件保持原文件 名(filename.txt),同时产生原文件的备份文件( filename.cla. bak)。 举例如图 4 所示。 b) 阿拉伯语的词形分析 系统中使用了 Diab 开发的 AMIRA1.0 进行阿拉伯语词形 分析,但是在处理前,首先要利用软件 Encode唱Arabic 将阿拉伯 语的句子转换为 Buckwalter 编码的格式;然后再将经过编码转 换的句子输入到 AMIRA,依次进行词法分析、词性标注和短语 划分。 举例如图 5 所示。
译模型起决定作用的公式:
c^1I^=argI,cm1I ax{

m∑=1 λm



c1I


J 1


(3)
这个方法是 the source channel approach[9] 的一个泛化。 其
优点是能够很容易地把辅助模型 h(· ) 整合到整个系统之中。 这个模型的比例因子 λ1M 能够被训练,通过一种区别性的学习
1畅2 基准的统计机器翻译系统
在统计机器翻译中,假定一个源语言句子 f1J =f1 …fj …fJ , 要被翻译成目标语言句子为 c1I =c1 …ci …cI 。 在所有可能的目 标翻译句子中,选择出概率最高的句子作为最终的目标翻译 句子。
相关主题