试论口语测试的真实性
□邹 申
提要:本文在简述各类口试形式的基础上,从口试效度与信度的角度探讨口试的真实性问题。直接口试与间
接口试在效度与信度方面各有其优劣。折衷的半直接口试得到语言测试人员的推崇。然而,如何看待半直接
口试乃至其他口试形式的的真实性呢?本文认为对口试真实性的检验不能仅仅停留在考试能否再现实际语
言运用情景上。口试的真实性应反映在对被试能力结构的恰当界定及考生与考试任务之间的交互作用上。
关键词:口试;口语测试的真实性
Abstract:Onthebasisofabriefsurveyofthedifferenttypesoforaltests,thispaperattemptstoexploreauthenticity
withrelationtovalidityandreliability.Directandindirectoraltestspossessbothstrengthsandweaknessesintermsof
validityandreliability.Semi2directoraltestsareregardedasacompromisebetweenvalidityandreliability.However,
aresemi2directoraltestsauthenticwithregardtotestsituationandformat?Thispaperarguesthatauthenticitycannot
bejudgedonproximitytoreal2lifesituationsonly.Itresidesintheunderlyingtestconstructandintheinteractionbe2
tweentesttakersandtesttasks.
Keywords:oraltests;authenticityinoraltesting
中图分类号:H319 文献标识码:A 文章编号:1004-5112(2001)03-0074-05
英语口语测试不同于笔试,在施考过程
中存在众多的制约因素,如考官业务素质、考
官人数配备、考场资源以及评分标准把握等。
如何保证考试的效度与信度及其真实性,一
直是摆在口语测试人员面前的一道难题。本
文在简述各类口试形式的基础上,从口试效
度与信度的角度探讨真实性问题。
一、口试的类别及其特征
在口试的门类上本文采用Clark(1975∶
10-11)的分类法。Clark将口试分为直接口
试和间接口试。直接口试“旨在尽可能多地
重现实际语言运用情景及使用过程”,并“提
供一个反映所测试语言运用情景的尽可能真
实的口语样本”。由于口语交际基本上是一
相互交流过程,根据上述标准,一个较为理想
的直接口试形式应为面对面交流。在这方
面,面试型口试(oralinterviewtest)被认为是
较能代表直接口试特点的形式(Clark1975;
Raatz1981;Wilkinson1968)。一个常被用来作为此类口试形式的例子
是美国外交服务学院(FSI)面试型口试。该
口试包括考官与考生之间面对面的口语交
流。在考试的过程中考官向考生提问,考生
的回答向考官提供了本人的口语样本。随后
考官根据口试评分标准给考生的回答打分
(Shohamy1994∶110)。自20世纪50年代开
始实施以来,FSI面试型口试已在其效度及
信度方面建立了较高的威信。因此,语言测
试界一些人士效仿该口试模式来衡量语言学
习者的口语水平,一些经过改良后的FSI式
口试被用来评估学生的口语能力。比如,美
国外语教学委员会(ACTFL)就采用这种口试
形式来测试美国中学生和大学生的外语水平
(Shohamy1994∶110)。在我国,一些口试也
采用了这种形式,如大学英语口语测试
(CET2SET),全国公共英语等级考试体系的
口语考试(PETS)等。由于这种面试型口试
要求考官与考生进行直接的口语交流,在形
・47・外语界2001年第3期(总第83期) 式上比较贴近现实生活中的口语交际活动,
所以它比较符合直接口试的要求,同时在内
涵上也体现了语言的交际功能。
根据Clark(1975∶11)的观点,间接口试
是“不具备表面效度或代表性测试情景”的口
试。换句话说,在间接口试中,测试形式是否
与现实语言情景相一致不是衡量考试质量的
一个决定性因素。由于具备了不受语言情景
限制的特征,间接口试可以给语言测试人员
在考试形式选择上提供较大的回旋余地。口
语测试可以采用常规的口头形式,也可以选
用笔试的形式。常规口头形式有朗读、看图
说话、简短说话等。至于笔试的形式,Lado
(1961∶241-247)曾建议用多项选择题的形
式来测试发音、重音的掌握、语音语调等。目
前,用多项选择题形式测试上述知识仍是较
为常见的现象。比如,2000年普通高等学校
招生全国统一考试英语卷(NMET2000)中就
有测试考生语音知识的试题(第一至五题)。
二、直接与间接口试的效度与信度
1.表面效度
由于直接口试(如面试型口试)侧重于重
现现实生活中的口语交流情景,因此具有较
高的表面效度。而间接口试则不然,原因是
其不一定重现现实中的口语交流模式。
2.内容效度
在这点上,两种口试形式似乎都存在一
些问题。鉴于口语能力指在不同的口语场合
上进行交际的能力,它的运用也就涉及众多
口语交流形式的使用。在这方面,大多数人
看好面试型口试形式,认为它可以在有限的
时间内较为充分而真实地检验考生的口语交
际能力。然而,一些语言学家曾对它的内容
效度提出疑问。Shohamy(1994∶101)就怀疑
一个只采用一种口语交流形式的考试,如面
试型口试,能否提供代表其他口语交流形式
(如讨论、报告和会话等)的有效样本。
而间接口试形式由于不受场合限制,可
以在一次考试中通过各种方式获取较长的考生口语样本来测试诸多英语口头表达形式
(Stansfield1990)。然而,由于大部分间接口
试基本上都是单向(口语)交流,缺乏口语活
动中的交互性,所测试的内容是否真正代表
了考生的口语交际潜力还需要进一步证实。
3.信度
直接口试虽有较高的表面效度,其评分
过程却存在着缺陷,即“直接口语测试的评分
信度通常较低”(Shohamyetal1986)。原因
之一是评分人员的专业素质。要使评分做到
公正、客观,评分人员必须经过系统培训。另
一原因是评分的瞬间性。在通常情况下,口
试的评分与口试同步进行,因而,口试对评分
人员的压力大,对他们的工作要求高。在听
取考生口语样本的同时,评分人员要对样本
的等级当场做出快速、准确的判断,如果没有
较高的专业素质实难做到公正、客观地评分。
第三个原因是直接口试的标准化问题。其中
有口试的主观性和口语交流过程中的非预测
性两大因素。口试的主观性主要指考官或评
分人无法与评分过程完全分离。照Raatz的
话就是“考官是考试的一个组成部分”,结果
是考官“在看到与听见考生时把个人的看法
及偏见一起带进口试的情景内”(Raatz1981∶
205)。因此,口试分数很有可能部分反映了
考生的口语水平,部分反映了考官或评分人
的个人看法。口试过程中的非预测性也是口
试标准化的一个难题。虽然考试前我们可以
把话题、时间安排等具体规定下来,但没有人
能事先精确地规定整个对话过程。因而,考
生表现如何是个未知数;考官的具体提问、引
导技巧只能视当时的情形而定。
因此尽管考官是同一人,他主持的每个
具体口试都会有所不同。目前,直接口试中
影响标准化的因素已不仅仅是臆测。一些研
究结果表明,某些因素如考官、所测试的口语
形式、测试时间等,都在不同程度上影响口试
成绩(Shohamy1983,1988)。
间接口语测试的考试信度问题不如直接
・57・ ForeignLanguageWorldNo.32001(GeneralSerialNo.83)口试那么突出。首先由于可以预先设计好,
间接口试在语言输入(如话题的馈入等)上能
达到一致;其次,整个测试过程亦可以预先计
划,如口试的具体步骤、具体内容、时间控制
等。较典型的例子是录音口试。当然,录音
口试最后仍需人工评分,故信度问题无法彻
底解决,只能在一定程度上得以缓解。
三、半直接口试
为了融合直接口试与间接口试各自的优
势,语言测试人员开始探索一种新型的口试
形式,这种形式既能顾及直接口试测试考生
口语交际能力的长处,又能吸收间接口试标
准化及公正性的优点。
Beardsmore(1974∶31)曾描述他的一个
口试研究项目。具体研究方法是一个在语言
实验室内进行的长约十分钟的口试。口试内
容是考生就一个话题发表意见。值得注意的
是Beardsmore特别强调测试中的“创造性”,
即口语交际功能的运用,他试图在录音口试
中综合直接口试的交际特点和间接口试的客
观性。可以说,他的尝试就是现在一般称为
“半直接口语测试法”的雏形。
Shohamy(1994∶101)比较全面地归纳了
“半直接口语测试法”的性质与特点。在这类
口试中,考生对类似真实的录音或可视考试
内容做出回答;测试内容力求接近平时的口
语交际活动。这类口试是统一的,因为所有
考生都完成同样的语言测试任务。同时,这
些语言测试任务涉及各种交际特征,以便较
为广泛地测试口语交流模式和交际策略。
迄今为止,一系列带有半直接口试特征
的口试已经问世。美国教育考试中心(ETS)
在1982年推出的口试(TSE)是最早实施的
此类口试(Shohamy1994;101)。国内目前正
处于试行阶段的高等学校英语专业口试也是
一个融合了直接与间接口试优势的半直接口
试。从中我们可以看出,口语测试形式的发
展与演变过程中的一个特点是在不摒弃效度
的前提下寻求信度的提高。四、口试的真实性
从对直接口试和间接口试的描述中,我
们可以观察到这样一种现象:当我们侧重考
试的有效性(效度)时,考试的信度会受到一
定的影响;而当我们比较关注考试的客观性
(信度)时,其效度可能会有所降低。针对效
度与信度这对矛盾,在语言实验室内进行的
半直接口试是人们尝试解决矛盾的一种方
法。尽管半直接口试具有较高的可操作性,
一些语言学家对它的使用仍有疑虑。Valette
(1977∶39)曾指出语言实验室没有给考生提
供一个逼真的情景。Beardsmore(1974∶324)
曾提及在语言实验室内进行口试时考生的单
向回答显得不自然。Bartz(1979)也曾指出,
学生认为在语言实验室考口语不仅不逼真,
而且相当令人紧张。以上观点都是说在语言
实验室内举行的口试失去了逼真与自然,即
失去了真实性。那么,什么是真实性?我们
应该如何理解它呢?
一种观点认为口试的真实性就是“测试
形式和过程尽可能多地重现实际语言运用情
景及其过程”(Clark1975∶10)。根据这个观
点,测试形式及具体测试任务只要近似于实
际语言运用,那么测试就具备了真实性。面
试型口试由于模仿了现实生活中应聘面试模
式,因而被看作具有较高真实性的测试手段。
同样,一个要求考生在模拟情景中进行角色
扮演的口试任务也具有真实性,因为它反映
了一个现实生活中的语言运用活动。
然而,上述具有表面效度的口试形式是
否真正具有真实性呢?一些语言学家对此持
不同看法。Spolsky(1985∶34)认为,即使在
普遍被称为真实性较高的面试型口试内“也
有许多非自然成分”。他把人们的提问分为
真实提问和考试提问(1985∶37)。真实提问
的目的是获取所需信息;考试提问是“为了评
估考生的知识与技能”。而后者正是面试型
口试中的提问类型。在考试中考生被提问的
原因不是考官对其兴趣爱好感兴趣,而是考
・67・外语界2001年第3期(总第83期)