机器翻译的现状与发展摘要:随着经济全球化的飞速发展以及人类命运共同体的提出,各国之间人民之间的交流必将日益频繁,各个国家语言之间转换需求也必定与日俱增,人为地学习千百种语言实在不易,机器翻译的作用也就越来越受到重视。
它涉及计算机语言学、数学和语言学等各个学科,其中语言学为其提供了机译数据库和技术支撑。
然而,目前机器翻译还存在许多不足,需要多方面深入研究。
本文对机器翻译发展历程、研究方法、存在问题及其应对方法进行了综述,以期机器翻译更进一步发展。
关键词:机器翻译;发展历程;研究方法;语言学理论;问题;应对方法机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。
它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。
由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。
人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。
机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。
1机器翻译发展历史机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。
然而在初期机器翻译受到过阻碍,一度陷入低潮期。
直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。
另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。
但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。
在当今信息大数据时代,机器翻译正发挥越来越重要的作用。
机器翻译的发展可以归结为以下几个发展阶段:1.1机器翻译人员的独立工作阶段20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。
随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。
但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。
同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。
在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。
1.2进入高质量的翻译输出20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。
编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。
研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。
研究的重点在于寻求完善的翻译理论和方法。
1.3翻译软件和工具的发展20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。
实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。
80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的输入和输出。
最近又新添了“翻译记忆”功能,它能够存储已存在译文,以便为再利用和修订提供范例。
这一时期的机器翻译已经逐步进入了机器和人工相结合的阶段,机助人译(Computer-aided Machine Translation)和人助机译(Human-aided Translation)相互结合,对各种类型和规模的翻译做出了突出的贡献。
同时语料库的发展和应用为机译提供了坚实的理论和技术来源,机器翻译进入到崭新的上升阶段。
1.4我国机器翻译的历程我国的机器翻译始于1956年,由于当时与苏联的经济政治往来,我国对于机器翻译的需求逐渐显现,中俄语言间的互译催化了MT系统。
80年代后,我国研制了KY-1和IMT/EC863两个英汉机译系统,随着计算机技术的成熟和发展,许多计算机公司研制出了一系列高科技的机译软件,如“译星”、“雅信”、“通译”、“科建”等。
机器翻译由简单到复杂,从初级到高级,不断进行着理论和实践的双重革新。
其发展历程可概括为以下三代:第一代初级阶段,利用机器翻译词汇,不进行语法分析;第二代进步阶段,对句子的结构和语义进行分析;第三代人工智能阶段,随着心理学,特别是认知心理学的发展,人们认为电脑可以复制人脑的信息处理机制,使机器翻译更加智能化和自动化。
目前,各国学者正经历着第三阶段,不断地攻克各种难关,提高机器翻译的质量和效率。
2机器翻译的研究方法机器翻译研究方法可以从两个方面来叙述,一方面是语言学理论的应用,另一方面是MT研究者们实际所从事的内容。
2.1语言学的方法机器翻译研究已经被看作一个试验新的语言理论或新的计算技术的领域。
换言之,MT已经被视为语言理论的实验基础,因为翻译翻译的质量能由非专家来判断。
与之相关的理论有:20世纪50、60年代的信息理论、范畴语法、转换生成语法、从属语法和层次语法;70、80年代的人工智能、非语言知识基础,诸如词汇功能语法、广义短语结构语法、中心词驱动短语结构语法和蒙太古语法等形式主义理论;90年代的神经系统网络、连接主义、平行处理和统计学方法以及他理论。
人们还发现,那些以小样本为基础,在最初的试验中取得成功的新理论,最终都被证实存在一些问题。
为了解决这些问题,必须检验一切有希望的方法并鼓励修正。
20世纪90年代初期,以语料库为基础的方法的出现使机器翻译研究有所增强,特别是引入了统计学方法和以实例为基础的翻译。
统计学技术已经摆脱了以前专门以规则为基础(通常定位于句法)的方法的不足和它越来越明显的限制。
在以语料库为基础的技术帮助下,歧义消除的问题、首语重复的解决和更多惯用语的生成都已经变得更容易驾驭。
2.2转移法根据机器翻译转移理论的多数观点,在机器翻译系统中有某种转移成分。
这种成分是特定的,从而一对语言可产生一个目标句子。
转移成分有一个相应的词库,这是源语言的范式和短语映现于目标语言的包罗万象的清单(Napier,2000)。
大量工作取决于对两种语言具体比较的信息。
这种转移系统意味着,对每两种语言来说便要翻译,因此这种方法主张翻译本质上就是一种比较语言学的练习。
由此可见,必须建立一个词库。
2.3语际法语际法基于这样的理解:在一批语言的每两种语言之间,只要求将每一个成语语言翻译成中间语言(interlingua),再从中间语言翻译成某种语言。
如果有n种语言,就需要n个成员被翻译成目标语言。
但Arnold等(1995)对这种方法不以为然,认为使用中间语会导致信息的丢失。
2.4基于知识的方法近来的趋势是转向基于知识的机器翻译,这是由Carnegie Mellon大学与新墨西哥州立大学的语言研究中心创导的。
Arnold等(1995)认为需要3种知识来改进机器翻译系统。
(1)不依赖语境的语言学知识(语义学)。
研究者将词语和语义特征联系起来,从而能对其他出现的词语加以制约。
(2)依赖语境的语言学知识,有的成为语用知识(语用学)。
有多种方法处理语用学问题,其中之一是学习句子焦点的概念。
(3)常识/真实世界的知识(非语言学知识)前两类是针对语言本身的,问题不是最大,计算机缺乏真实世界的知识才使研究人员苦恼不已。
例如,计算机不能发现一个可吃的苹果和个人计算机苹果品牌之间的区别,也不能说明汉语中“山顶”的“顶”、“顶风”的“顶”和“顶好”的“顶”的不同意义。
多少年来,正是这样的问题不仅困扰机器翻译的理论家,也困扰神经网络和人工智能的研究者。
随着语料库语言学的发展,最近研究者转向基于例句的机器翻译的研究。
该方法将正确的翻译作为信息资源,以建立新的翻译作品。
3转换生成语法――机器翻译的语言学理论支撑机器翻译作为一门交叉学科,涉及到多学科的理论支持,其中语言学为机器翻译提供了文本的语法和语义的规范基础,尤其是美国语言学家诺姆・乔姆斯基(Noam Chomsky)提出的转换生成语法。
该语法经过不断修正和改进,探索了人类语言的本质、起源和人类普遍语法的深层机制。
乔姆斯基提出表层结构和深层结构能够对语义进行语法和句法分析。
借由他的理论,可以对词典中的词条进行描述,分析机器翻译中的词义,从而有效地避免语义错误。
乔姆斯基的理论给计算机科学的发展带来了革命性的变化,也推动了机器翻译的发展。
4机器翻译存在的问题一是自然语言中普遍存在各种歧义、未知现象,以及层出不穷的新词热词。
歧义;导致歧义有两个原因,一是自然语言中固有的歧义现象,包括词汇歧义和语法歧义;另一个是由于语言、文化间的差异产生的歧义。
一个句子如果有以上问题,就可能表达两种或多种意思,容易给机器造成理解上的偏差和误解。
而是机器翻译自身的局限,正如翻译不应该是单纯字对字的转换,理想的机器翻译也并不是仅仅是字符串的转换。
机器翻译是人工翻译的模拟,它能帮助译者完成大量简单的翻译工作,但做不到像译者那样灵活。
译者可以根据原文、结合语境、自己的生活经验、双语知识和相关文化背景来对原文进行理解,对原文进行自由组合、增加或删减,也可以适当添笔修饰润色。
在不违背原文又考虑到译入语的情况下,译者有足够的翻译自由。
但机器翻译不同,它的翻译过程是建立在严密的逻辑程序基础上的,它没有思考、判断、推理、修改的能力,机器翻译永远不可能真正地替代译者。
5解决方案机器翻译如果想得到长足的发展,必须采取一些相应的措施。
5.1加强系统中词典的研究机器翻译中的词典是为语言处理程序提供源语言基本构成元素所具有的各种相关词法、语法、词义、语义、语用、常识等方面信息,包括目标语言的对译关系的一个复杂特征信息集合。
它是自然语言处理程序赖以对源语言进行分析加工的主要信息来源。
面向机器翻译的词典配备各种语言学知识。
例如固定搭配和固定句型的知识等。
把固定搭配和固定句型等相对稳定的英语用法以词条的形式构成专项典。
该方法可有效地避免很大一部分的词义选择的错误。