当前位置:文档之家› 机器翻译技术的探讨

机器翻译技术的探讨

机器翻译技术的探讨六院五队-徐允鹏-12060143摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。

本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。

关键词:机器翻译;基于规则;语料库;评估方法1.机器翻译概述随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。

翻译是解决自然语言之间通信障碍最直接最有效的方法。

传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。

伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。

机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。

它是自然语言处理(Natural LanguageProcessing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。

机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。

研究机器翻译具有重要的实践意义和理论意义。

国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。

同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。

2.机器翻译方法人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。

2.1基于规则的机器翻译方法2.1.1基于分析和转换的机器翻译方法人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机制[2]。

该方法有三个阶段,为分析—转换—生成。

一般情况下,分析以句法为主、语义为辅,正确的句法结构转换加正确的词汇译文可以从源语言向目标语言传递完整的正确信息。

以句法结构转换附加一定的语义信息, 能够构成转换的基本层次[3]。

标准机器翻译系统中句子和短语层次的结构转换是核心,产生式方式的转换规则形式为:S:S1+S2+···Si <C1 C2···Ck> T1+T2+···Tj :TS是源语言的某个待翻译单位(句子、短语等等),S1~Si是S 中的下一级组成单位对于S,如果满足条件<C1 C2···Ck>, 则目标语言中有T1~Tj译文构成了相应的等价物T。

上述方法称为基于句法的转换方法, 因为S1+S2+···Si一般来说就是源语言的的句法结构表示:也可以称为直接转换方法, 因为对于每个源语言的翻译组块, 都马上给出一个目标语言组块与之对应应该说, 这种转换方法符合人的直觉认识, 也能够实现[3]。

2.1.2基于中间语言的机器翻译方法基于中间语言的翻译方法是对源语言进行分析以后产生一种称为中间语言的表示形式,然后直接由这种中间语言的表示形式生成目标语言。

所谓中间语言就是自然语言的计算机表示形式的系统化, 它试图创造出一种独立于各种自然语言,同时又能表示各种自然语言的人工语言。

基于中间语言的机器翻译方法的优势是无需一种语言到另一种语言的一一转换,对于多语种的翻译系统可以节约大量的转换知识的手工获取工作量,假如有N种语对需要相互翻译, 只要有2N个分析和生成模块就够了。

其中一半是源语言分析模块,输入为原文,输出以1L表示:另一半是目标语言生成模块,输入为1L表示,输出为目标语言译文。

然而,中间语言的机器翻译方法也常遭到怀疑。

因为是否能够构造出表示各种不同的自然语言语法、语义的中间语言至少目前还是未知数。

此外,中间语言能不能把各种语言的所有特征保留下来,又能很好生成对应的各种语言也是问题。

所以,构造中间语言是一个巨大、复杂的工程,还包含许多理论研究,迄今为止的探索还没有好的答案[3]。

基于转换的方法采取了一系列转换生成层次,各种分析多(如词法、句法、语义和语境等),而且在分析的过程中,会出现许多歧义结构,显然,如果没有好的算法,效率就会低;此外,对于那些不符合语法规则的句子,这种方法难于给出正确的翻译结果。

2.2基于语料库的机器翻译方法2.2.1基于统计的机器翻译方法基于统计的机器翻译方法,一般不要任何语言学知识,它的基本原理是实现源语言词汇到目标语言词汇的映射。

其思路受到语音识别研究的启发,因而应用了类似的方法来实现。

研究者用大规模的双语语料库作为基础,对源语言和目标语言词汇的对应关系进行统计,根据统计规律输出译文。

这种方法没有使用语言知识,主要特征是概率统计与随机过程的方法成为了分析和生成过程的唯一方法。

它的主要内容是双语句对的对齐,通过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词(或两个、零个词)的概率。

应该说,基于统计的机器翻译方法的出现改变了机器翻译研究的面貌, 从而开始了机器翻译研究的新阶段。

统计方法最先在语音识别领域取得了成功,机器翻译的噪声通道模型可以视作最早的机器翻译思想, 其思路可以这样理解:目标语言句子源语言句子噪声信道假设说话者已经用目标语想好了一句话T,但是说出的却是源语言句子S。

这样一个过程可以看成为编码过程。

而统计的机器翻译就是要从S回推T, 可以看成解码过程。

这样,统计的机器翻译任务分为两个部分:一是建模,即建立翻译的计算方法以及从双语语料库中估计模型的参数;二是解码,即寻求一种高效搜索算法取有关概率计算的最大值。

基于统计的方法以大规模的双语语料库为基础,需要训练,一般翻译速度比较慢;而且它还有被怀疑之处——这种方法会不会由于本身的固有属性,不可能有很高的译文正确率。

但基于统计的机器翻译方法还是具有很多优势,如开发速度快、周期短、无需人工干预等,在特定领域训练数据充分的情况下翻译性能基本可以达到实用水平。

2.2.2基于实例的机器翻译方法基于实例的机器翻译方法通过结构化的翻译例子直接把源语言的短语和句子与目标语言的短语和句子对应起来,方法的不同使得处理步骤或多或少,但都必须实现源语言到目标语言的转换,其映射关系或者是词到词,或者是短语或句子到与之相应的等价物,或者是一棵句法树到另一棵句法树[4]。

基于实例的机器翻译(EBMT)的实现过程简单概述如下:给定源语言输入句子S,在双语语料库C中匹配查找一个最相近的句子S’,则S’的译文就被接受为S的译文。

翻译的过程一般就是查找和复现相似的例子,发现和记起特定的源语言表达或相似的表达在以前是如何翻译的,把以前的翻译实例作为主要知识源[5]。

2.3混合式机器翻译方法基于混合式的机器翻译方法能够很好的利用两种方法的优点,目前非常盛行。

混合式机器翻译方法是将基于规则的翻译方法和基于统计的翻译方法结合。

在基于规则的技术中引入语料库方法,其中有基于实例的方法、统计方法,通过对语料库的预处理使其转化为自然语言知识库的方法。

Rules post-processed by statistics统计方法做后处理,翻译使用规则方法。

Statistics guided by rules使用规则方法做前后处理,翻译使用统计方法。

混合式机器翻译方法是效果最好的,但目前混合方法中各种模型的耦合方式还比较松散,进行多翻译模型的深度融合可能是未来研究的一个热点。

3.机器翻译评测在机器翻译系统中,系统质量评测问题已经成为整个领域研究的重要内容之一,它直接推动着机器翻译技术的研究。

机器翻译评测起源于1964年美国国家科学院成立的语言自动处理咨询委员会(ALPAC),当时的评测是通过人工的方式对译文的忠实度和流畅性进行的评测。

1992年至1994年,美国国防部高级研究计划署(DARPA)专门组织了一批专家从译文的充分性(adequacy)、流畅性(fluency)和信息量(comprehension)三个角度进行了大量评测。

国内较早的评测系统为北京大学计算语言学研究所的俞士汶教授与二十世纪九十年代初研发的MTE系统,该系统使用分类评估法。

常用的评测标准有:一种是主观评测(subjective evaluation)标准,即由人工通过主观评测对系统的输出译文进行打分;另一处是客观的自动评测(automatic evaluation)标准,即依据建立一定的数据模型对系统的输出译文进行机器自动计算打分。

对于主观评测方法,评测的准确率较高,但是评测人员将候选译文的含义与原文含义对比得出评分,评分人员要全面考虑候选译文的含义与原文含义的异同程度,其需要耗费大量的人力成本和时间代价,性能较低。

与人工评测相比,客观的自动评测方法成本低,速度快,可重用性高,但是准确性比较低。

因此目前对于机器翻译的自动评测研究主要是如何提高翻译的准确率[6]。

4.机器翻译新进展尽管机器翻译已经为人们的学习和工作提供了很多便利,但目前的机器翻译技术并不成熟,还存在着很多缺陷,如基于规则的翻译协调依赖于专家制定的规则,规则的维护与更新非常困难,而基于统计的翻译方法则需要大规模的双语平行语料库,并且领域适应能力较差等等。

总体来说,无论是翻译系统的译文质量、运行速度,还是系统的可操作性、人机交互能力、自学习能力,以及对各种非规范语言现象的处理能力等,都有待于进一步提高。

目前机器翻译的研究者们正努力从两个方向改进机器翻译的性能。

其中一个方向专注于进一步提高现有机器翻译模型的性能,尽量获得令人满意的自动翻译结果;另一个方向则聚焦在已有机器翻译技术的基础上实现机器辅助翻译。

前一个方向中,一部分研究者则在寻求利用更为深入的语言学知识(如语义)对翻译过程进行统计建模,另一部分研究者则在探索统计方法与其他方法的有机结合。

5.结束语机器翻译走过了几十年的发展历程,尽管目前的译文质量仍不尽人意,若干理论问题一直没有从根本上解决,许多方法和技术有待于进一步研究和探索,但我们也欣喜地看到,机器翻译已经在某些特定的领域为人们提供了快捷、方便的翻译服务。

相关主题