当前位置:文档之家› 机器翻译的现状和发展趋势_岳涛

机器翻译的现状和发展趋势_岳涛

72计算机教育 2005.4人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。历史的回顾从美国人维弗(Warren・Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的发展道路。1954年,在美国乔治敦大学(Georgetown University)进行了人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译的序幕。从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着机器翻译已经在某些领域达到了实用化的程度。进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。20世纪90年代以来的机器翻译技术的新进展1.机器翻译的分类进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以机器翻译的现状和发展趋势中国软件与技术服务股份有限公司 岳涛/文◆ 课外新知 ◆73计算机教育 2005.4人/才/培/养/与/就/业称为理性主义方法,与之相对,基于语料库的方法又可以称为经验主义方法。2.继续占据主导地位的基于规则方法纵观机器翻译发展的历程,可以看出,机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也有规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。基于规则的机器翻译系统就是对语言语句的词法、语义进行分析、判断和取舍,然后重新排列组合,最后生成等价的目标语言。基于规则的机器翻译技术发展到今天,已经建立了一定规模的规则库,覆盖了相当多的语言现象。同时,基于规则的机器翻译技术不断借鉴和融合其他方法的优点,这些变化主要体现在:* 在规则的获取方面,传统的规则方法主要依靠语言学家总结\进行调试,而现在更加重视自动从大规模语料库中获取规则。* 传统的规则方法往往偏重描述粗粒度、全局化的大范围语言学规则知识,而现在则更加重视描述细粒度、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势。* 在知识表示方面,为了以更小的粒度、更加准确地对翻译知识进行描述,一般要对单纯的上下文无关规则作一些改进。改进的方法有以下两种:一种是采用特征结构与合一算法,如LFG、GPSG等等,这种方法一般要求具有较好的语言学背景;另外一种是采用词汇化的方法对规则加以细化。* 传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在规则系统中一般都引入各种形式的概率或者评分函数,系统的鲁棒性有所提高。概率与评分函数方法的区别在于:前者一般有比较严格的数学模型做基础,概率值的计算要以对大规模语料库的统计为依据;后者的主观性较强,评分规则的确定以及具体规则的分值都是人为的,人们可以根据经验进行调整。3.异军突起的基于统计方法基于统计的机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究者提出来的。统计机器翻译的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。从理论上说,这种模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差比较大时效果可能会不太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。用统计学方法解决机器翻译问题的想法并非是20世纪90年代的全新思想,1949年韦弗就已经提出使用这种方法,只是由于乔姆斯基(Chomsky)等人的批判,这种方法很快就被放弃了。现在计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编篡等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。基于统计的方法需要大规模双语语料,其翻译模型、语言模型参数的准确性直接依赖于语料的多少,其翻译质量主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文的选择,避开了语言理解的诸多难题,但是语料的选择和处理工程量巨大。因此通用领域的机器翻译系统很少以统计方法为主。4.另辟蹊径的基于实例方法基于实例的机器翻译(Example-Based MachineTranslation,EBMT)技术发源地要追溯到日本,自长尾真(NagaoMakoto)1984年发表的论文《AFramework of a MechanicalTranslation between Japanese andEnglish by Analogy Principle》被传播开来,便被视为了一个新的起点。这种方法充分利用了人类学外语的传统过程,并利用机器实现这个过程,因此解决了一74计算机教育 2005.4人/才/培/养/与/就/业些问题,并缓解了机器翻译领域的社会压力。其基本设想是不通过深层的分析,仅仅通过已有的经验知识,通过类比原理进行翻译。人类的翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。每个短语碎片采取类比的原则进行翻译。这种方法需要一个很大的语料库作为支撑,为构建语料库需要投入巨大的人力和物力。基于实例的机器翻译对于相同或相似的文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中已有的文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造近似的翻译结果。基于实例的翻译近年来一直是机器翻译研究的热点之一。但由于语料库规模的限制,基于实例的机器翻译很难达到较高的匹配率。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译作为多翻译引擎中的一个,以提高翻译的正确率。未来展望在21世纪的前10年内,机器翻译技术将如何发展呢?它会为我们的日常生活带来怎样的改变呢?以下我们将从技术和应用两个方面来探讨。1.技术方面* 多种技术的融合随着时间的推移,各种趋势的融合现象越来越明显。不论是基于规则的方法,还是基于统计的方法,都不可能独自解决机器翻译中的各种难题,单一方法很难达到预期的效果。因此就需要多种方法互相借鉴,互相融合。基于规则的翻译技术与基于语料库的技术相结合,机器翻译与翻译记忆相结合,很可能是今后研究发展的主流方向。* 多语语料库的建设与加工目前,单语种语料库的加工技术及其应用取得了令人鼓舞的成功。下一步,建立多语语料库并进行深层次加工以作为大规模的跨语言资源,服务于机器翻译,就成为研究者瞩目的焦点之一。* 机器学习的应用大规模语料库适合于统计方法。通过统计来自动进行知识获取,有助于克服自然语言处理中的知识获取的瓶颈。把机器学习方法应用于机器翻译系统中,可以帮助系统实现在线学习能力,最终建立主动的智能翻译服务。* 语义资料库的建设各种语义关系的分析对于获得高质量的翻译结果的重要性是不言而喻的。因此,基于语义的知识表示及其在语句和篇章分析的应用是大规模知识工程的核心内容,也是人工智能的基础建设之一。这样工作不是一时一事的事情,需要国家、研究院所和企业单位作出大量的投入,进行长期的努力。2.应用方面* 跨语言网络检索信息系统全球对这类跨语言应用兴趣越来越大,用户可以用自己的语言搜索外语数据库的相关内容。该项研究的主要工作集中于如何建立和操作合适的翻译词典,以便将查询词串与数据库文档中的词和词组匹配。* 口语翻译未来还有一个应用是公众迫切需要的,就是口语翻译。20世纪80年代,语音识别和语音合成取得的进展使人们感到口语翻译是可行的目标,口语翻译(SpeechTranslation)可能是目前基于计算机翻译研究的最富有创新意义的领域。* 嵌入式设备方面的应用随着个人计算设备的微型化和移动化、家电的信息化、通信设备的计算化,在各种形式的个人计算设备中添加语言翻译功能将在未来成为时尚。最后,可以预计,正如全球通信网这样的应用给人们带来的不总是完美的使用性和有用性,然而我们却逐渐地接受了一样,我们也应该逐渐接受这样一个概念,即对于机器翻译技术,我们与其把它看作一个翻译系统,倒不如把它当作一个跨语言交际工具;也许这样,我们每个人就再也离不开它了。

相关主题