第三章翻译能力评价本章学习目标1.了解翻译试题命题原则2.掌握翻译测试方法3.掌握翻译测试的评分标准本章概述翻译测试是语言测试的一种,是随着翻译教学的不断发展而出现的专门性领域的研究。
翻译测试与教学有着密切的关系,是教学创新的考量途径,是教学完善的有力支撑。
本章将探讨翻译测试的相关概念以及理论和实践中的多项课题。
翻译能力调查问卷同学们,为了了解你们的学习动机,请你参与本次调查。
你的回答只反映你对相关问题的基本看法和认识,没有好坏对错之分。
谢谢合作!本问卷共6个题目,测验时请在与自己情况相符的句子前填"Y",不相符的句子前填"N"。
请记住在填写时,要根据自己的实际情况而不是去判断是否应该这样。
1.翻译测试应以语篇翻译为主。
()2.翻译应该融入多种主客观题型。
()3.翻译测试的信度和效度不可兼得。
()4.国外翻译测试与我国的翻译测试评分标准有较大差异。
()5.翻译测试的试题库建设有坚实的理论基础。
()一、翻译测试的依据英国语言测试专家戴维斯(Alan Davies)曾说:“测试不是教学,我们能够而且应该坚持这样的想法,即测试的运用是有别于教学实践的,它应被看作是一种提供信息的方法,而所提供的信息是可以运用于教学和其他目的的。
”在外语教学过程中,测试作为外语教学的主要检测手段,其最终目的是通过对测试所提供的信息进行科学地分析,及时了解教与学的情况。
测试不仅可以帮助教师检测教学效果,调整教学方法,提高教学质量,还能帮助学生了解自身的实际水平,调整学习状态,确定努力方向。
二、翻译测试的信度翻译测试中,应该保证考试的信度和效度。
考试的任务是对学生能力进行科学的、客观的、公正的鉴定。
翻译测试信度的高低,受“试题的质和量、考试实施、阅卷三方面的种种因素所牵制”(李筱菊 2001:35)。
因此,提高翻译测试信度的关键是从以上三方面严格的规范和管理。
这里我们仅探讨试题和阅卷两个重要方面。
1.试题信度测试内容应与所要测量的能力是一致的。
目前国内大规模翻译测试的内容单一,大多局限在语句、语段和语篇等题型,难以契合翻译能力的多要素本质。
我们应该在测试题型的开发上加大力度,使测试跟上教学内容和方式改革的步伐。
测试的目标既然是测量多种能力,那么测试中也可以多种题型并用,兼备主客观。
邹申(2005:403)总结了翻译测试中可以使用的题型,例如:正误判断、多项选择、填空、简答(包括一般简答题、译文比较题、分析或评论题)、改译、续写或论述、全译和变译等题型。
此外,我们还可以采用有条件句子翻译题和无条件句子翻译题来检测学生对所学翻译技巧的掌握,或者用语篇中的单句或语段翻译来检查学生在一定语境限制下的翻译能力,还可以适度添加区分度较强的思考题,例如考察学生解决翻译难题的策略能力。
词组翻译一直是很多翻译教师为之不屑的题型,其实也有其应用价值。
翻译过程中,很多的难点是由于原文使用了习语或隐喻等表达法。
因此,我们可以在测试中使用习语翻译或隐喻翻译等词组类题型,从而利用测试的反拨作用促进学生日常加强这方面的积累。
规模较大的翻译测试中,试卷正式投入使用之前,可以采取经典真实分数理论(classic true score measurement theory)提出的方法来检测试题的效度,即稳定性信度(stability,也称test-retest reliability 或consistency across time)、平衡性信度(equivalence,也称parallel forms reliability或consistency across forms)、内部一致性信度(internal consistency)。
例如,考后复考法(test/retest method)是使用同一套试题,在考后较短时间内对同一组受试群体再考试一次,然后将两次测试考生的分数排序,计算其中相关性。
试题分半法(split-half method)则只进行一次测试,然后将试题的题号按照奇偶数分为两半,计算两半所得分数的高低排列的相关性。
第三种是平行试题法(parallel forms method),设计一套形式及内容与原来的试题相当的试题,让同一受试群体在时间连续或间隙很短的情况下先后考原试题和平行试题,然后计算两次成绩高低排列的相关性。
2.阅卷信度主观性测试的成绩不可避免会受到人为因素的干扰,其中真实能力与测试成绩之间的误差的来源之一便是阅卷人的主观性。
实际操作中,阅卷人应该有明确的、可操作的评分标准,每个分数段要有明确的描述语,其次要选定标准样卷,标准样卷要能够正确反映各个分数段,而且要覆盖分数全距;此外,也可以选出一定数量的“问题卷”,即较难评分的试卷。
最后用标准样卷和“问题样卷”统一阅卷人的阅卷标准。
然而,除评分标准之外,影响阅卷人正确评分的因素很多,因此对阅卷信度加以控制是十分必要的。
同时,语言测试目前接受了后现代主义的观点。
哈姆—莱昂斯(Liz Hamp-Lyons 2000:30)认为,评分者有个人的观念和信仰,我们很难使其在评分前放弃自身的各种定形的观点。
正规的评估体系应该将这一点考虑在内,并将评分者的个人风格和策略融入体系之中。
因此,测试应该有多种评分选择,这样评分者才能从中选择适合自身的恰当方式进行评分,从而对学生做出公正的评价。
阅卷信度包括两个方面,即阅卷人本人的一致性和阅卷人之间的一致性,也就是要始终保持与评分标准一致。
刘润清(1991:86-87,239-241)认为,翻译测试是主观测试,评分可以参考作文评分方法,例如机械法(mechanical method)、印象法(impression method)和分析法(analytical method)。
机械法也称计算错误法,依据错误数量扣分,但对不同性质的错误扣同样的分数并不科学。
这种方法反映了“分割式的语言观(atomistic view of language)”(李筱菊2001:87),将语言形式分解,并不符合现代语言教学和测试的主流观点。
印象法则完全凭阅卷人的主观印象。
而分析法也称分项评分法,即按照评分标准分项评分,等级的评定也容易流于主观,其“随意性主要体现在对要素和权重的规定上”(邹申2005:413)。
国内现行的翻译测试通常通过直接测试的形式来评估翻译能力。
英语专业八级、大学英语四级、硕士入学考试和全国翻译证书考试等大多采用机械法或分析法进行评分,只不过是个别考试的评分细则较为细化。
例如,全国英语翻译证书考试主要考察译文的准确和流畅,依据译文漏译、误译、语法错误、表达错误、拼写错误的性质和数量扣分。
硕士入学考试则采取每个句子微观评分,综合扣分,各句分段给分,每段分数为0.5分、1分或1.5分。
这种较为细化的评分法较过去的印象法有所改进,但仍然从微观着眼,对于学生驾驭整体语篇的能力未做出有效的评估。
穆雷(2006)总结了英、美等国和港、台地区的翻译课程评分标准,其中,很多学校采用分项评分法,从多个方面评价学生对语篇或段落的翻译能力。
例如,伦敦大学帝国学院翻译硕士课程的评分标准包括九点,即准确理解原文、译文可读性强、语域风格恰当、背景知识充分、术语准确一致、解决问题能力、运用方法灵活、掌握各类工具、表达清晰感人。
这种评分标准比较细致,考虑也比较全面,可以给翻译能力较强的学生一个公允的评价。
但是对于很多中间层次的学生则很难给出区分性的准确判断。
笔者在批阅本科英语专业学生的期末试卷过程中发现,学生对整体语篇的把握很难从细致的采分点中体现。
问题有两点:(1)每个句子的采分点从1分到3分不等,大部分学生的译文可以接受,即基本通顺,错误较少,因此失分较少。
而少数学生语言功底更为扎实、译文更具文采,但成绩中并不能明显地体现出来。
通过这样的评分方法,学生的成绩缺乏区分度。
(2)细化的采分点也不能有效评价学生在语篇中使用的上下文衔接手段。
例如,在翻译语篇时,一些同学在一个语段中频繁换主语,造成译文缺乏条理性和逻辑性。
而单独评价每个句子本身时,却问题不大。
这样采分点无法准确地评价语篇翻译能力。
目前所采用的评分方法是基于操作者对语言的不同的观点,即把语言看作由许多可以分割出来的成分构成,还是说它是一个不可分割的整体。
从整体着眼观察各组成成分之间的关系可以称为综合法(synthetic approach)或称整体观(holistic perspective),印象评分法和分项评分法都属于综合法的范畴。
而从分析成分入手,再统观整体可以称为分析法(analytic approach)或称成分观(constituent perspective),机械评分法则属于此范畴。
事实上,综合法与分析法是切入问题的不同思路和手段,二者并不相矛盾,而是相辅相成。
李筱菊(2001:87)提到主观题的评分标准时指出,“恐怕只能也应该走一条半综合半分解的路子。
”但没有谈到具体的评分方法。
邹申(2005:413)也曾提出,可以综合不同评分法,使各种方法互相制衡,相得益彰。
例如,FSI(美国外交服务学院)面试型口试同时使用了整体法和分析法。
三、翻译测试的效度效度(Validity)是在教育和心理测量学这一特定语境中对“有效程度”或“有效性”的简称。
邹申(2005:183-221)效度理论研究的任务,就是提出一套理论框架,研发与之相应的可操作性程序,为测试结果的解释和使用提供必要的信息,以保证测试结果解释的恰当性和根据测试结果所作的推断的合理性。
研究一种测试的效度,也叫对这种测试进行效验(validation),就是根据现有的效度理论框架,为这种测试结果的使用、解释以及根据该结果所可能做的推断或决策提供一些可资参考的理论论证和经验证据,同时也为这项测试的进一步改进,提供一些必要的反馈信息。
效度早期的概念是一项测试测量了它所要测量的对象的程度(Garrett,1937:324;Angoff,1988:20)。
Samuel Messick(1989:13)认为,效度是关于经验证据和理论论证对建立在测试分数和其他方式评估结果之上的种种推断与行动的充分性与合适性支持程度的综合评价性判断。
美国教育研究协会、美国心理学协会和国家教育测量委员会联合颁发的《教育和心理测量标准》(1999)对效度定义如下:“效度指证据及理论对某项测试之中的测试分数的解释的支持程度。
”如上定义表明,效度是个整体性概念。
若将翻译规范纳入翻译测试,则要求翻译测试的效度要以有效的翻译观为依据,测试的结果要能解释译者的翻译能力及其有关的心理特征。
那么在传统的翻译测试里,其依赖的翻译观是否合理、有效呢?受二元思维及认知论的科学主义思维影响,人们一度认为语言是透明的,符号只是意义的载体;人们可以透过语言的意义完全了解客观世界。