当前位置:文档之家› 机械方面论文翻译

机械方面论文翻译

用自动化机器翻译的指标来分析文章转化形式的影响Johann Roturier Linda MitchellSymantec Research Labs SALISBallycoolin Business Park Dublin City University Blanchardstown, Dublin 15, Ireland Ballymun, Dublin 9, Irelandjohann_roturier@ linda.mitchell7@mail.dcu.ie Robert Grabowski, Melanie SiegelAcrolinx GmbHFriedrichstr. 100, 10117 Berlin, Germany{robert.grabowski,melanie.siegel}@摘要本文研究的是当分析源转化形式对翻译机器的质量影响的同时,自动翻译器翻译的用户输入的内容的有用性,我们提出了一个新的框架,试图依靠自动检测,而不是人的判断,用来快速识别那些改善或降低质量的输出的改写规则。

我们发现,这种方法使我们能够快速识别两种语言之间的重叠规则(英语-法语和英语-德语)和某些具体情况下的规律精度还有待改进。

1引言软件出版商依靠手册和在线支持(知识库)的文章,以帮助他们的用户进行产品的安装,维护或排除故障。

随着Web2.0沟通渠道的出现,然而,这些文档集已经用用户生成衍生的内容(UGC)进行了补充。

现在,用户在相关软件产品内容的衍生上都非常活跃,尤其是在网上论坛,精明的用户在这里互相询问和交流问题以及解决方法。

虽然此类论坛特定语言版本有时会存在,大部分内容是很经常用英文写的,可能需要翻译成对任何用户都有用的。

然而这样的内容有时是机器翻译,一些理解问题可能存在。

这些目标端的理解问题可以被下列信息源端的UGC的特性所引起:源文章的内容可能会被写成非专业术语还是非母语(因此它的语言和技术的准确性可能不好)。

即使是书面语,这些有着正规的语法和词汇的创意的内容更接近口语部分。

文章的一些内容是由“技术精英的态度指导的,展现交流技术的(Leblanc , 2005),”有能力的用户所写的。

这些措施包括替代拼写,缩写,情况的变化,技术条款,表情符号,或者非词汇存在时的声音表示。

在本文中,我们提出了一个新的框架来快速评估具体再形成对机器翻译质量的影响。

该框架提供的再形成都与第2节提出的有一定的联系。

这项工作是在ACCEPT项目2范围内进行,其目的是使机器翻译适应新兴社区内容,使整个欧盟的公民更好地在商业和非营利性的社区环境访问。

2.相关的工作重写或重新组织文章源的内容,使之机器翻译的成为一个更加活跃的研究领域。

几种方法已被沿用到今天:源代码标准化,源代码重新排序和源代码控制。

我们的框架提供了一种方法来评估这些方法在快速方式方面的影响。

2.1资料来源规范化源标准化可以使用多种技术来实现,包括那些在Banerjee等人所述(2012年):使用规律的表达,拼写检查和融合单词的分割。

尽管这些技术用来减少OOV的单词是有效的,然而当误差密度较低时,他们对于BLEU分数的改善的影响有局限性。

句子标准化的另一个领域涉及与相似的句子替换句子。

鉴于大量文本数据中,句子集群可以找到类似的句子,有利于规范他们。

如果变量选择在训练数据的翻译机器上受训,可以确信的是为了防止源语言文本的变化,这些改变在机器翻译的训练数据下100%的匹配。

这个问题在于,用户自己生成的内容不是那么均匀,导致有效地使用这个方法可能很困难。

2.2 源重新排序另一种方法是重新排序源文本,使其在得到机器翻译之前,更加接近目标文本。

这种方法是由Collins等人提出建议的(2005)和包括Genzel的补充(2010年)。

虽然这种方法可以使翻译质量改进(尤其是在BLEU得分方面),这是不恰当的,当转换后的源文本必须发布(这可能是在用户生成内容的背景的情况下)。

2.3源代码控制对词汇,语法和风格的限制或约束的源代码控制(或控制语言),为了提高机器译源文本,在技术创作的领域已经使用了很长时间的(Bernth和Gdaniec2002)。

多项研究,包括O’Brien and Roturier (2007)和Aikawa et al 等人(2007)已经表明,这种方法确实可以使机器翻译的质量改进(无论是在可理解性或后期编辑的效率计算)。

由于一些规则是系统的,域的或特定语言的,它们必须在被用于新的方案之前重新评估。

然而,这样的评估可能是非常耗时和昂贵的,特别是如果两套参考翻译是必需的(Doherty ,2012)。

因此在这项研究中,我们有兴趣找出,是否有可能依靠自动度量快速识别有效的规则,而不是通过人的判断。

3系统和数据的说明3.1 数据在本文中所使用的测试集包含的2031句子对应于从英语诺顿论坛随机选定的250个职位(如Banerjee等描述的,2012)。

这些集合,接着由专业翻译人员翻译成法国和德国的参考译文翻译。

然后,由专业评审来审查这些翻译的语言和技术,以识别和纠正潜在的翻译错误。

这次审查的结果被用来作为第二参考译文集。

3.2 MT系统在这些实验中使用的MT系统是以短语为基础的摩西系统,用标准的摩西流水线进行训练。

翻译和重新排序模型与所有可用的并行的串联数据进行了培训,然而对于其语言模型来说,每个单独的模型在各自语言库单独训练,并且所有模型都穿插在一起最大限度地减少对调整设置的难度。

摩西标记化和套管工具被使用。

并行数据包括赛门铁克的翻译记忆库数据(含产品说明书,营销内容,知识库的内容和网站内容),辅以Europarl的WMT123发布的新闻评论。

对于语言模型,所有并行数据的目标两侧分别使用,以及来自赛门铁克论坛的单语资料。

单语的数据不包括在英国和德国的系统,因为它被发现并非改善BLEU得分。

由论坛数据组成的调整和测试数据的赛门铁克系统(500平行的句子),已被有着网上机器翻译系统机器翻译,并使用CNLG/ TAUS指引编辑了。

3.3资料源变化系统AC-rolinx软件是建立在语言分析引擎上,提供有关单语文本的规则资源(如布雷顿坎普等人,2000所述),以及拼写,语法,风格和术语检查。

编辑前的这些方法可以在一方面作者被应用,因为通常在技术文档编写过程中完成的。

笔者的错误标记和改进建议,并重新改变其形式。

这个过程确保了文本转换始终是正确的。

此外,让笔者开始一个学习的过程。

他或她更好的理解机器翻译本身的能力和限度。

在另一方面,它能够自动适用于所提供的建议,重新进行翻译。

不同技术文件的创作支持,这里的重点是更好的机器翻译结果。

自动应用规则的要快得多。

这个过程仅影响翻译,因此该应用程序的精度不那么重要。

对于本文的目的,Acrolinx软件进行了调整,以处理用户生成内容,专门处理外来语言错误,接近口语的内容和使用的“技术人员”的语言。

我们用所谓的“autoApplyClient”的独立工具将文档发送到一个Acrolinx服务器,检索结果,并自动通过其建议更换文档的标记部分,然后应用所有建议重新拟订。

客户端具有两个不同的输出模式。

在第一种模式,它适用于将所有建议放到同一个文件,并将结果写入到一个新的(单一)文件。

在第二种模式下,单独应用建议:为每一个可能改写,客户端输出原句,改写句子,错误类型(拼写,语法,样式或术语),以及应用名称语法或样式规律,或者已经使用的术语的变异。

对于评估,我们使用全球化的和以句子为基础的改写模式。

3.4 使用自动度量的评分为了快速识别预先编辑那些,看起来对MT的翻译质量有改善或降低作用的改写类型,我们使用自动度量的得分,改写文本的原件和翻译方面的参考译文。

为了得到对整个文档影响的首次评估,我们计算了以下成绩:(Lin和Och,2004)所有句子的平均平滑BLEU,翻译错误率(TER等人在Snover的描述,2006)和一般文本匹配器(GTM,在梅拉梅德等刊物上的描述,2003),包括精度,调用和F值分数。

对于在句子级别基础上的影响的第二次评估,我们计算每重新变化和原句的下列项目的分数:平滑BLEU,翻译错误率(TER),和一般文本匹配器(GTM)F值。

BLEU的“平滑”修改避免成为零的情况,即得分是N-gram不存在,一种常见的情况是以小尺寸为参考的,以句子为基础的评估。

此外,我们计算了用于翻译系统训练集建立的语言模型(LM)的得分。

通过训练集,给LM分数分段。

LM分数,对于摩西是确定最有可能的翻译的一个因素。

在这里,我们计算了包括文章源和目标语言训练集的LM得分,以下是两个假设:1.更好的源语言模型得分使得文本更“容易”进行翻译,因为它更类似于训练语言。

2.一个更好的目标语言模型的评分,意味着类似的目标语言的句子是“已经了解”语句,因而具有较高的翻译质量。

为了轻松获得评分结果,我们创建了一个结合了autoApplyClient,摩西SMT软件,以及不同的自动评分指标的框架,如图1图1:规则评估框架第二个实验侧重于每个单独重新变化的句子的分数。

因为绝对值在不同的指标和句子之间不具有可比性,我们简化了数据集的转换相对分数:对于每个重新组合的句子中,我们注意到得分相对于不重新配方的对应的原句分数是否有所改善,降级或保持不变。

注意,在分数方面影响的“量”不予考虑。

3.5 用于人类改革的分数在第二个实验中,有两个因素无疑是代表损害性结果的。

首先,在句子层面计算分数意味着小“错误判断”通过自动度量平整数据的大小检测不出。

其次,切换到一个相对更好的/等于/差的指标意味着改写的影响量的信息将丢失。

为消除这些影响,并对自动度量有一个更好地理解,我们首先过滤掉,对给定输入数据的改变不超过12个的所有规则。

对于其余规则的再形成,我们再进行人工评估。

评估者给予初始句子和改写句子的翻译,来判断哪个转换为更接近参考译文,或是否存在变化。

这个过程因此给另一组成绩好/等于/坏的规模。

有了这个“人指标”,我们能够检查自动度量是否与人的判断一致,在此之前,我们看基于自动计算分数的有巨大影响力的特定的规则。

4 自动改定实验及结果我们进行了两组实验:第一种包括对整个测试集自动重新拟订的。

第二轮实验中研究了个体建议水平上的分数。

4.1总体结果表1表示由自动应用客户端和源文本之间的差异量(以TER和GTM F值计算)改变句子(满分2031)数量:(in terms ofTER andGTMF-Measure):SentsTER GTM F-MeasureOriginal vs.Spelling150 0.0101 0.9804Original vs.Gram-mar67 0.0054 0.9901Original vs.Style328 0.0334 0.9529Original vs.Spelling+Grammar197 0.0157 0.9708Original vs.Spelling +Grammar +Style403 0.0483 0.9279表1:文本源的变化表1表面了语法重新配方(67)远没有拼写(150)或类型变化的频繁。

相关主题