当前位置:文档之家› 基于实例的机器翻译

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。

Method and Issues of Example-Based Machine Translation

Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced.

󰒰󰉺 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。

基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8] 等人起到了很

好的推动作用。

󰳋󰉺 EBMT的基本思想

长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她 买 了 一 本 计算语言学 入门 书 假定计算机内已经存储了如下的实例对: (b) 她 买 了 一 件 时髦 的 夹克衫. She bought a sharp jacket. (c) 他 正在 读 一 本 计算语言学 入门 书 He has been reading a book on introduction to Computational Linguistics.例2.1(a) 可以通过 (b)中“他买了”对应的 She bought 和 (c) 中“一本计算语言学入门书”对应的 a book on introduction to Computational Linguistics 重组产生: She bought a book on introduction to Computational Linguistics. 一般来说,EBMT主要有如下部分构成:

双语语料库 相似实例检索语义辞典 重组与调整图2.1 EBMT基本结构图 翻译结果 双语辞典

待翻译句子 在EBMT 中,对齐的双语语料库是最重要的知识库之一。 实例的粒度越大,当翻译用到时,其效果则越理想;但另一方面,粒度越大,能够直接使用的可能性又越小。因此,在实例的粒度选择上,应该考虑到一定程度的平衡。 一般认为,实例的粒度定位在句子一级比较合适;也有大量的实验表明,其粒度要么定位在子句一级,要么以结构形式表示,这样才能使实例的引用达到更好的效果。 由上图可知,语义词典也是不可或缺的重要知识源。根据Somer[9]引入的长尾真的例子:

例2.2 (a) He eats potatoes 是待翻译的句子,同时,假定实例库中有如下的实例: (b) A man eats vegetables Hito-wa yasai-o taberu (c) Acid eats Metal. San-wa kinzoku-O ocasu. 这两个实例从形式上看都可以和 (a)匹配,但是结果只能选择(b),而不是 (c)。这一选择有赖于语义词典。通过语义词典可以判断He 能取代 “ A man ”,不能取代“Acid”,同样,“potato”和“vegetable”间的语义比“potato”与“metal”间的语义更相似。 在确定了相似的句子之后,紧接着的调整处理必须借助于双语词典。如 He—Kare替换man—Hito以及 potato——poteto替换 vegetable—yasai 都需要双语词典的支撑。 翻译实例的重组和调整一般包括替换、插入和删除等操作,上面的两个例子主要涉及到替换操作。最简单的插入操作如例2.3,反过来则为删除操作: 例2.3 (a) 她游览过北京的许多景点。 (b) 她随旅游团游览过北京的许多景点。 在EBMT 中,最为重要的操作是相似实例的检索,主要是相似性的量度标准。后面将详细讨论。 三、基于实例的机器翻译与翻译记忆的异同 翻译记忆TM ( Translation Memory)与EBMT有着千丝万缕的联系,甚至在很多情况下,两个术语不加区别地使用。根据 Somers[9],TM 的思想最初来自于 Martin Kay在1980年的著名文章“Proper Place”。Martin Kay对机器翻译始终是悲观的,但他认为,如果已经有相似的文档,则可以直接从中取出相似的部分来辅助翻译,这正是TM的核心。本质上讲,TM仅仅是辅助翻译,它从实例库中找出相似的例子(常常是多个例子),并提交给用户,让用户选择。TM所面对的用户通常是“专家”,既懂双语,又懂专业。但EBMT则属于机器翻译,翻译的结果由系统决定。用户可以只懂一种语言。 Eiichiro SUMITA 在2002年的TMI会上将机器翻译作了如下分类:

MT CBMTSBMT

EBMT

RBMTTM

图3.1 机器翻译分类 显然,TM并不属于 MT。但TM 与 EBMT 也存在许多相似的地方,主要表现在,都是对已有翻译实例的重用,都需要存储翻译实例,都需要检索相似的翻译实例。

四、基于实例的机器翻译的相关问题

基于实例的机器翻译很重要的一项工作就是构建知识库,其中,包括构建对齐的实例库,双语词典和语义词典。 4.1 双语实例库的构建 双语库的构建需要考虑三个问题: z 双语语料的加工 双语语料的加工包括双语语料的收集,不同文件格式(如 Word的文件格式、文本文件格式、HTML 文件格式以及 PDF 等文件的格式)的统一,不同粒度的对齐处理(包括篇章对齐、段落对齐、句子对齐、子句对齐和多词Multiword 及词汇的对齐)及其标注集的制定和对齐单位的表示。其中,句子(子句)的对齐、多词及词汇的对齐对基于实例的机器翻译有着直接的影响。后两者的对齐加工在常宝宝的论文中有详细的讨论[3];而句子的对齐主

要有如下的两种方法: 方法一,基于长度(或统计)的对齐方法。由Gale和 Church[5] 等人提出的基于符号串

长度的对齐方法是目前使用最为广泛的方法,该方法开始主要用于相似语系(如印欧语系)的句子对齐,如英语、法语、德语、西班牙语等之间的对齐。其基本假设是,长的原文句子对应着长的译文句子,短的原文句子对应着短的译文句子。由于对齐几乎没有使用到任何语言知识(完全将句子看成符号串),该方法具有很强的适应性。该方法在英语—西班牙语双语对其中,成功率达到了93.2%,在英语—法语双语对齐中,成功率达到了98%;然而,当该方法用于差异较大的语系时,效果则不理想,Wu等人[10]曾经用相同的算法进行汉语—英语的句子对齐,对新闻语料集测试,成功率仅为54.5%,对香港科技大学的预料(HKUST corpus)测试,成功率为 86.4% 。 方法二,基于锚点的对齐方法。其主要思想是寻找特殊标记进行对齐。如,双语中相同的数字(数值)、地名、人名、日期等。一旦原文有,译文也应该有。 z 双语的表示形式 双语的表示有多种形式,最简单的形式是符号串,这对于中文来说,就是汉字串。显然,这过于简单;因此,通常情况下,用词串表示。也可以对语料进一步加工,如附带上词性,甚至可以对对齐的语料进行结构分析,使之在结构上也对齐。但结构分析需要有好的分析器,这本身又非常困难。 z 双语的存储形式 为了覆盖更多的语言现象,就必需收集尽可能多的双语实例。但另一方面,当实例库足够大时,快速检索相似的例子就成为一个重要的问题。为了从大规模的实例库中检索到相似实例,大多采用倒排表技术。 4.2 相似实例的检索 相似实例的检索主要是相似性的判断,而相似性的判断与实例的表示形式有着密切的关系。根据表示形式的不同,相似性的判断主要可以分为如下几种: z 基于字符 (Character-based) 的匹配 基于字符的匹配纯粹是一种表层的匹配, 即,判断两个串中公共子串的相对长度(中文中的一个字符由两个字节表示),相同串必须是有序的。先看如下例子: 例 4.1 (a) 从 上海 到 美国 的 西部 城市 洛杉矶。

(b) 从 美国 的 西部 城市 洛杉矶 到 上海。 尽管例子 (a)(b) 包含完全相同的词,但从字符串的角度看,则不是完全相同的——相同部分已经用下划线表示。其长度可以以字符(汉字)为单位计数,也可以以词为单位计数。从上面的例子来看,这种方法显然存在问题。匹配的部分本来应该是“ 从 …… 到 ”。 基于字符匹配的相似性,主要通过编辑距离(edit distance)判断。这种方法最早是由 Wagner & Fisher 提出来的,它量度了一个字符串S=s1s2…sm变化为另一个字符串T=t1t2…tn所

相关主题