当前位置:文档之家› 机器翻译研究现状与展望

机器翻译研究现状与展望

机器翻译研究现状与展望1戴新宇,尹存燕,陈家骏,郑国梁(南京大学计算机软件新技术国家重点实验室,南京 210093)(南京大学计算机科学与技术系,南京 210093)摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。

关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习Machine Translation:Past,Present,futureDai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science& Technology Nanjing University, Nanjing 210093)Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation.Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning.1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04)戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

一、引言近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。

纵观机器翻译的研究历史,从上个世纪40年代英国工程师Booth和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。

最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。

在中国,机器翻译的研究从50年代开始,多家大学和研究机构先后开发出俄汉、英汉、汉英、日汉、汉日等机器翻译系统,同时在汉语的自然语言理解方面做了大量的研究。

在看到机器翻译研究取得进展的同时,我们也知道,由于对语言规律本身认识仍然不足,以及计算机对语言理解的局限性,再加上不同语言之间存在着语法结构、构造方式、语言习惯、社会背景等等的不同,机器翻译的效果与大家所期待的仍有非常大的差距。

本文第二部分介绍几种经典的机器翻译方法;第三部分给出近期机器翻译的研究现状,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第四部分讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。

二、典型的机器翻译方法和技术机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科(它的发展是建立在语言学、数学、计算机科学的发展基础之上)现代理论语言学的发展、计算机科学的进步以及概率统计学的引入,对机器翻译的理论和方法都产生了深刻的影响。

Weaver机器翻译思想的提出,开始了机器翻译的研究热潮。

Chomsky在50年代后期提出的短语结构语法,给出了“从规则生成句子”的原则。

由于短语结构语法采用单一标记的短语结构来描述句子的构成,描述粒度过粗,因此存在约束能力弱、生成能力过强问题,人们逐渐意识到仅依靠单一的短语结构信息,不能充分判别短语类型和确认短语边界,于是,复杂特征集和词汇主义被引入自然语言语法系统,广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应的产生。

在这个发展过程中,基于规则方法一直是机器翻译研究的主流。

在基于规则的方法中,语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。

另外,规则方法在保证规则的完备性和适应性方面也存在着不足。

而此时,统计学方法在自然语言处理的语音识别领域取得了比较好的效果,于是,基于统计的机器翻译[1]应运而生。

随着双语语料的大量增加、计算机性能的提高,基于实例的机器翻译方法被提出[2],并由此泛化产生了基于模板的机器翻译方法。

下面我们分别介绍几种典型的机器翻译方法。

2.1 基于规则的机器翻译方法(Rule-Based Machine Translation)从Chomsky提出转换生成文法之后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。

早期的机器翻译系统,从体系结构上可以分为直译式、转换式和中间语言式,它们的不同之处在于对源语言分析的深度,它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。

其中,转换式的基于规则方法对源语言分析得比较深,它涉及到词汇结构分析、语法分析、语义分析,并完成词汇、语法、语义三层结构从源语言到目标语言的转换,而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系,它比中间语言方法更容易获得高质量的翻译结果。

因此,转换式的方法更多地被应用在早期的机器翻译系统中,整个翻译过程被分为:源语言分析部分,转换部分和目标语生成部分。

而早期的系统,如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的A THENE系统以及中国中软公司的HY-1汉英系统,都是基于转换的机器翻译系统。

基于规则的机器翻译的优点在于:规则可以很准确的描述出一种语言的语法构成,并且可以很直观的表示出来。

机器可以按照一组规则来理解它面对的自然语言,这组规则包含了不同语言层次的规则,包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

由此可见,基于规则的机器翻译的核心问题是构造完备的或适应性较强的规则系统。

但是,规则库的建立需要花费大量的人力和物力,即使如此,规则的完备性仍然不能得到保证,规则库很难覆盖所有的语言现象。

随着规则数量的增加,规则之间的冲突很难避免;很难用系统化的规则分类体系、恰当的规则粒度去刻画语言特征。

而且早期的规则系统采用的都是确定性规则,即:非此即彼的规则,系统的适应性很差。

基于上述问题,如何自动地获取语言规则、如何更好的表示规则以及如何更好地增强系统的适应能力成为研究人员关注的焦点。

随着大量语料库的产生,统计方法为我们提供了很好的从已有的语言资源中自动得到我们所需要的语言信息的工具。

复杂特征集和合一运算[3]的提出也使得我们能以更细的粒度、更加准确的知识表示形式来描述规则,而词汇化的信息也更多的来自于标注语料库。

针对确定性规则降低了系统的鲁棒性的弱点,概率上下文无关文法[4]从全局最优的角度考虑,产生最优的翻译结果,为机器翻译系统的实用化奠定了基础。

随着这些方法的引入,传统的基于规则的机器翻译方法研究逐步发展成为对以规则为基础、语料库方法为辅助的高性能机器翻译方法的研究。

2.2 基于统计的机器翻译方法(Statistical-Based Machine translation) 除了在某些特定的受限领域,基于规则的机器翻译,取得了比较好的效果(如Isabelle 1987所做的天气预报翻译)之外,在大部分的实验中,基于规则的机器翻译远远没有达到人们的要求。

而随着语料库语言学的发展和统计学、信息论在自然语言处理领域的应用,人们尝试着用统计的方法进行机器翻译的研究。

对于机器翻译来说,基于统计的方法可以从两个层面上来理解,一种是指某些概率统计的方法在具体的机器翻译过程中的应用,比如用概率统计的方法解决词性标注的问题、词义消歧的问题等,这些问题我们将在本文的3.2部分讨论。

另一种较狭义的理解是指纯粹的基于统计的机器翻译,翻译所需的所有知识都来源于语料库本身。

这一节我们主要介绍这种纯统计的机器翻译方法。

IBM的Brown[1]在1990年首先将最初应用于语音识别领域的统计模型用于法英机器翻译。

基本思想是:用信道模型把机器翻译看作一种解码的过程。

解码过程用图一来表示。

图一,基于统计的机器翻译示意图基于统计的机器翻译也可以用下面这个公式来说明:best-translation T=argmax T fluency(T)faithfulness(T,S) 其中,T表示目标语言句,S表示源语言句。

fluency(T)相当于语言模型,它反映目标语言句子的质量,faithfulness(T,S)相当于翻译模型,表示从源语言到目标语言的翻译质量。

从上面的公式可以看出,翻译的过程其实也是一个寻求最优翻译结果的过程。

因此,基于统计的机器翻译的关键首先是定义最适合的语言概率模型和翻译概率模型,其次,需要从已经存在的语言资源中,对语言模型和参数模型的概率参数进行估计。

早期的语言模型基本上采用二元、三元模型,语言模型的参数估计需要大量的单语语料库,二元模型参数通过两个词的搭配频率来计算,三元模型参数则通过计算相邻三元词的出现频率进行估计。

相关主题