当前位置:文档之家› 测试学复习资料

测试学复习资料

知识点●语言测试类别➢根据测试目的分类①水平测试(Proficiency Test)NRT学生整体语言水平theory-test selection tests②学业测试(Achievement Test)CRT看学生学的怎么样,本门课是否已过关期中期末学业水平考试syllabus-based③能力倾向测试(Aptitude Test)能力倾向测试被认为是一种预测措施,表明一个学生是否可能很容易地学习第二语言④分级测试(Placement Test)NRT将能力水平相似的同学分到一组,帮助每个学生选择更符合自己水平的课程,一般教学前⑤诊断测试(Diagnostic Test)CRT教学开始或中间进行诊断了解学生的强弱项反馈信息➢根据考分解释分类①常模参照考试(Norm-referenced tests/ NRT)测试的分数是相对于参加该测试的所有其他学生的分数进行解读的/结果呈正态分布比较好(normal distribution)②标准参照考试(Criterion-referencedtests/CRT)衡量明确和相当具体的目标;分数的解释被认为是绝对的,不涉及其他学生的分数;分数的分布不必正常;学生事先知道考试的问题、任务和内容;➢其他标准分类形成性评价(Formative assessment )/ 终结性评价(summative assessment)根据测试方式分类直接测试(Direct test)/ 间接测试(Indirect test)根据测量形式分类分离式测试(Discrete-point Test)/ 综合式测试(Integrative Test)根据考试时间分类速度测试(Speed Test)/ 难度测试(Power Test)根据影响力度分类高风险测试(High-stakes Test)/ 低风险测试(Low-stakes Test)●Test usefulness测试的有效性➢Test usefulness = Reliability+ Construct validity + Authenticity + Interativeness + Impact +Practicality➢Reliability:信度主要是指测量结果的可靠性、一致性和稳定性,可以视为测试结果受随机误差影响的程度。

信度指的是回答这样一个问题:“一个人在测试中的表现有多少是由于测量误差,或者除了我们想要测量的语言能力之外的其他因素?”尽量减少这些因素对考试成绩的影响。

validity:效度与这样一个问题有关:“一个人在考试中的表现在多大程度上取决于我们想要衡量的语言能力?”并最大限度地发挥这些能力对考试成绩的影响。

效度是指测试是否测量了被设计用来测量的东西。

信度是效度的基础和必要条件。

➢经典测量理论(CTT)亦称“真分数理论”。

该理论假设观测分数X 是由真分数T 及测量误差 E 所组成,即X= T+ E➢各种信度1.Test-retest reliability (重测信度): consistency over timeparallel-tests reliability(复本信度) :consistency in formindicator: reliability coefficient Rxy 取值范围:0-12.Internal-consistency reliability (内部一致性信度):是指用来测量同一个概念的多个计量指标的一致性程度。

Cronbach alpha (α) (适用于非0,1计分或连续计分)plit-half reliability (分半信度) :K-R20 /K-R21 (库德--理查逊信度),适用于0,1计分,即所有的题目都是客观题)Rater consistency (评分一致性)3.Inter-rater reliabilityIntra-rater reliability评分员内部信度: rate the same papers at two different times➢各种效度1.Construct validity (构念效度)测验能测到某一理论构念或特质的程度,我的试题是否围绕要考的内容来命题2.Content validity (内容效度)说明测试的内容是否符合本课程的教学目标,是构念效度的具体体现,内容咋样一般由专家评定,代表性/抽样的适当性/相关性。

3.Criterion-related validity (效标关联效度)①Concurrent validity (共时/ 同期效度)关注一个测试(通常是一个新开发的测试)所测量的内容与另一个已经存在的标准测量之间的关系,后者可能是一个完善的标准化测试。

如果这两种测量方法的作用相似(即,它们以相同的方式对候选人进行排名),那么它们就被认为具有并发有效性。

②Predictive validity (预测效度)从测试中得出的预测被后来收集的证据所证实的程度。

e。

托福、雅思等。

4.Face validity (表面效度)由未经训练的观察者判断的一个测试似乎在衡量它声称要衡量的知识或能力的程度。

➢测试的各种属性程度及相关知识1.Authenticity (真实性)The degree of correpondence between a given language test task and a target -language-use task . test task---target language use task(TLU) 如口语测试要求真实性强2.Interactiveness (交互性)The level of interactiveness will be a function of the characteristics of the test takers--- personal characteristics, language ability, topical knowledge, and affective schemata ---and of the characteristics of the test tasks. 考生特征与考试活动的互动性,考生特征在考试任务的参与度,如选择题交互性弱,小组讨论交互性强3.Impact/ consequence(后效作用)根据测试所作出的决定以及这些决定产生的影响4.Stakeholders(利益相关者)指最直接受到测试方式以及测试结果和决定的人,政府/学校/老师/学生/家长/用人单位5.Backwash/Washback(后效作用)考试对教学的作用,教师的教和学生的学6.Practicality(考试的可操作性)7.Test Fairness(考试公正)--专家评定/实证评定考试中不能有偏见,一道题难对所有人都难,只是能力有差别,与性别、民族、种族无关。

8.High-stakes tests/Low-stakes tests●考试大纲和考试规范➢基本概念1.考试大纲(Test Syllabus):教育部门/考试机构,“考什么”及“如何考”的纲领性文件,宏观层面,考试的内容和方法,为考生和教师。

2.考试规范(Test Specification):考试大纲,具体的、可操作的规定,考试对象/目的/目标/内容/方法/时间/施考流程/评分标准/试卷结构与分值等,命题人员和考试评估人员●项目分析-经典测试理论(CTT)➢难度①概念:难度就是考生在试题/卷上的得分率,指所有考生的得分之和占试题/卷满分总计的比率(均值与满分之比)计为P[0-1]②难度实指易度,值越大试卷越容易;常模参照测试:试题难度应体现平均水平,应在0.3~0.7之间标准参照测试:题目难度应反映达标水平,值越大越好③水平考试(平均水平)期望值0.5比较好,0.3-0.7正常,达标成就考试期望值(达标或录取标准)越接近标准越好,成就(测试学习内容的掌握程度)考试值越大越好➢区分度①概念:区分考生的力度,为高分组和低分组的得分率/P之差,计为D [-1~1]②小于0.2差,重写或淘汰/0.2-0.29中,可写较差,通常需要重写/0.3-0.39良,但仍有改进/≥0.4优③分组方法对鉴别指数有直接影响。

常见分组方法有:50%(二分)、33%(三分)、25%(四分)或27%(大规模测试)➢项目干扰度①概念:干扰项干扰力度的大小。

选择它的人数越多,干扰力就越强。

②理想干扰度为理想答错比率的均值(1-0.5/3),理想答错比率为0.7~0.3,四选一项目的理想干扰度为0.23~0.1,三选一的理想干扰度为0.35~0.15●分数报告和解释➢描述性统计分析:集中趋势-均值,众数,中位数,中值,算数平均数/离散程度-极差全距,最大值/最小值,平均差,标准差,方差(自由度:用样本推整体时,样本中独立的可以自由变化的数据个数)➢数据类型(SPSS)定类(nominal scale):“=”或“≠”,如姓名、类别定序(ordinal scale):“>”或“<”,如学号、排名定距(interval scale):“+”或“-”,如年龄、成绩定比(ratio scale):“×”或“÷”,如比率、权重;类别/顺序/间距/比例➢标准正态分布1.概率分布2.偏态分布(标准参照考试,考的越高越好)3.分数转换(百分位,标准分,Z分数,T分数,GRE)4.正态分布(常模参照考试,中等多,极高极低少)(多题目)●假设检验(Hypothesis Testing)➢简单概念:由定义可知,我们需要对结果进行假设,然后拿样本数据去验证这个假设所以做假设检验时会设置两个假设,原/零/虚无假设(Null Hypothesis)H0-大概率事件,通常用来被拒绝,备择/对立假设(Alternative Hypothesis)H1-小概率事件,通常为期望结果➢进行假设检验的顺序:1.提出假设H0和H12.确定显著水平α,通常为小概率,如.05(5%).01(1%),.001(1/1000)等;分单双侧检验(单侧仅考虑一个方向的变化)3.计算抽样的统计量或概率值p4.做出决策--决策依据:决择依据:p> α接受原假设;否则拒绝原假设,接受备择假设如p <α,则说明H0几乎不可能成立,完全有理由拒绝H0而接受H1;如p 值>α,则说明拒绝H0的理由还不够充分,只能接受H0。

注:注意:如果p值不大,即使接受H0,结论的说服力也不强;如果p值为大概率,那么接受H0同样具有说服力。

➢两类错误弃真的概率为显著性水平α,弃真也称α错误/I类错误。

相关主题