当前位置:文档之家› 20世纪教育测量学发展的回顾与现状评析(张敏强)

20世纪教育测量学发展的回顾与现状评析(张敏强)

20世纪教育测量学发展的回顾与现状评析(张敏强)作者:张敏强主题类号:G1教育学【文献号】1-629 【原文出处】教育研究【原刊地名】京【原刊期号】199911【原刊页号】32~37【分类号】G1【分类名】教育学【复印期号】200001【标题】20世纪教育测量学发展的回顾与现状评析【作者】张敏强【作者简介】张敏强,中山大学高教所所长、教授。

广州510275【正文】20世纪是教育测量学兴起并得到迅速发展的世纪。

在理论上,经典测量理论不断得到完善,现代测量理论亦得以发展。

在应用上,由于计算工具的飞速发展,使教育测量学的应用上了更高的层次并拓展至各个领域,反过来又促进了理论的研究和发展。

本文对本世纪教育测量学的发展作了回顾,并对现状作出评析。

一、教育测量学简史教育测量学是在本世纪二三十年代兴起、四五十年代定型、六七十年代迅速发展起来的一门教育学科。

回顾与展望教育测量学的历史,可以使我们进一步了解和确认教育测量产生与发展的历史必然性和合理性。

作为教育测量的基本形式的考试和测验最早可以追朔到隋炀帝大业二年(公元606年)的科举制。

科举制的特征是:逐级考试选拔人才;制度相当完备,考场规定相当严格;有一套命题、保密、封存、评卷的措施及违者的处罚规定。

科举制在唐朝极盛,所用的方法有口试、贴经、墨义、策问、诗赋等五种。

宋、元、明、清各朝基本沿袭了科举制,至清末,程式严格的八股文成了经义考试的主要形式,使考试成了僵死的东西,科举制由此走向衰败。

19世纪末20世纪初,实验心理学和心理测验的发展推动了教育测量的发展。

1904年,被誉为教育测量之鼻祖的美国心理学家桑代克,出版了《心理与社会测量(Mental and Social Measurements)》一书,该书首次系统介绍了统计方法和编制测验的基本原理。

教育测量的客观化、标准化问题受到了极大的重视,教育测量由此走上科学化的道路。

1909年桑代克又用统计学上的“等距原理”编制了首批标准化的教育测检量表,如《书法量表》、《拼字量表》、《作文量表》等。

从1909年到1915年,教育测验逐渐增多,并且从单独的学科测验扩展至综合测验的编制,即由几种主要学科的测验组合而成。

同时,教育测验不再限于小学的学科测验,中等学校以上的各科测验大都一一编制出来。

不仅学科测验有了发展,诊断测验和练习测验也陆续有所编制。

当时在西方已兴起利用教育测量进行教育调查研究的风气。

辛亥革命后,教育测量学随着西方的科学技术被引进我国。

1918年,俞子夷根据桑代克《书法量表》的编制程序,编制了《小学国文毛笔书法量表》,开我国教育测量编制的先河。

1919年,廖世承和陈鹤琴在南京高等师范学校讲授测验,为我国高校设置测验课程之始。

1922年,美国测验学专家麦柯尔(McCall,W.A. )应中华教育改进社之邀来华讲学,并主持编制各种应用测验。

至1925年前后,编成的中小学教育测验不下几十种,例如廖世承的《中学国文常识测验》、《中学文法测验》,陈鹤琴的《小学默读测验》、《小学文法测验》等。

1931年中国教育测验学会在南京成立,1932年《测验》杂志创刊。

1935年,中央大学教育学院编制了《小学国语默读测验》、《小学算术测验》、《小学中年级常识测验》等。

抗日战争爆发后,中央大学西迁重庆,艾伟组织与指导中央大学一些师生继续编制教育测验,如《中学语文理解力量表与汉字测验》等。

同时,我国一些从事教育测量研究和教学的学者,出版了有关专著和教材,如孟宪承的《测验之学理研究》、王征葵的《态度测验法》、沈有乾的《心理与测验》等。

全国各高校教育学系和中等师范学校开设了教育测量或心理与教育测量的课程。

1949年到1978年之间的30年,由于受原苏联教育理论的影响,教育测量学遭到否定。

自从1978年党的十一届三中全会召开以后,教育和心理测量重新开始受到重视。

张术祖在《教育研究》1979年第5 期发表了《论教育测量的重要性和教育测量的一些基本概念》,被认为是建议恢复教育测量学研究和教学的第一篇论文。

1982年,在叶佩华等的主持下,翻译了桑代克、哈根合著的《心理与教育的测验和评价(Measurement and Evaluation in Psychology and Education)》(1977年版),这是自1979年以来的第一本有影响的教育测量译著。

随后,教育测量学被列为高校教育系的必修课。

1988年,经中国教育学会批准,中国教育学会教育统计与测量研究会正式成立,由张厚粲任第一届理事长,叶佩华任名誉理事长。

在研究会成立以后,多次举办高层次的讲习班。

研究会的部分会员自1985年以来积极参加全国高考标准化改革实验,在全国高考命题标准化、施测标准化、评卷记分标准化、分数报告标准化等方面的策划和实践中作出了积极的贡献。

在上述这段时间,除教材以外,还出版了不少教育测量学方面的论著,如张厚粲等的《标准化考试简介》、桂诗春的《标准化考试的理论与实践》、张敏强等的《标准化考试》、郑日昌等的《教育测量学的基础》等等。

这些论著的出版及高考标准化改革实验的成功,加上舆论的支持,在全国真正打开了宣传教育测量学、重视教育测量学的新局面。

1988 年,我国正式加入国际教育成就评价协会(InternationalAssociation for Educational Assessment, IAEA)。

可以说,1979年以来的20年中,我国的教育测量学的教学与研究工作者以优良的成绩,使教育测量学在教育科学领域中占据了重要的一席。

二、教育测量学基本理论与方法的评析下面对20世纪主要的教育测量理论:经典测量理论与题目反应理论作出比较与评析。

(一)经典测量理论的优点与不足经典测量理论经过几十年的发展,形成了以真分数理论作为其理论基础,并具有完善、可操作的对题目和测验进行统计分析的方法。

经典测量理论的优点在于:(1)以弱假设作为理论基础。

这些弱假设条件容易被绝大多数测验数据资料所满足。

所以,从实用的意义上说,其应用具有广泛性。

(2)具有明了简单的统计分析方法,且这些统计分析方法都有数学上的实际意义,易于掌握和理解。

(3 )我国教育测量工作者对经典测量理论及方法有深刻的认识,其应用具有基础性。

其不足之处有:(1 )经典测量理论的方法所求得的题目参数(如题目难度、题目区分度)会受到不同考生样本组能力水平的影响。

所以,选取的考生样本不同,就有可能得出不同的题目难度和题目区分度,故在考生样本选取方面要做到非常精确有一定的困难。

(2 )在经典测量理论的条件下,题目参数与考生得分量是在不同的基础上分别求得的,所以无法建立考生得分与测验题目参数之间的函数关系,即考生能力的估计会由于测验的改变而改变。

(3 )经典测量理论中有两个重要的假设条件,即严格的平行测验和测验误差与真分数相关为零,这在实际操作中是难以做到的。

(二)经典测量理论的质量评估测量工具决定着测量结果的准确性。

所以,良好的测验也决定着测量结果的准确度,评价一份测验的优良性,主要有以下内容。

1.效度。

它是指测验是否测出了所要测的东西。

效度分为:(1 )内容效度,即测验的题目与内容是否与教学内容与目的相适应。

(2 )构想效度,即测验的分数是否达到了某一预想的特质。

(3 )效标关联效度,用测验所得分数与标准测验所得的分数的相关来制定这次测验的效度,称之为效标关联效度,而标准测验则被称之为“效标”,在此起到预测作用。

2.信度。

信度是反映测量的一致性程度的指标。

计算信度的方法主要有:(1)再测信度,即对同一被试总体进行重复测量而得到的两组数据,以相关系数的大小表示一致性程度,相关系数高,则说明信度高。

(2)复本信度,即建立两个在内容、质量各方面都相等的测验,并对实施后的两个测验分数求相关。

(3)分半信度,把一个测验分为质量相等的两部分,求这两部分所得的分数的相关。

要提高信度,可以加长测验。

但信度是效度的必要条件,而不是充分条件,即信度低,效度不可能高,但信度高,效度不一定高。

3.区分度。

区分度是测验题目对被试者能力高低的鉴别能力。

不同的测验要求有不同的区分度指标,如高考对区分度的要求就比中学会考高。

4.难度。

难度是指测验题目的难易程度。

显然,难度大,通过率低;难度小,通过率高。

难度指标的高低直接影响到区分度指标,因为难度太大或太小,都将使题目的鉴别能力受到影响。

(三)经典测量理论的评价工具评价是把测验结果放在一定的参照标准上来评定其高低、优劣。

评价工具是按参照标准编制出来的,评价工具也与物理测量的量具同理,须具备以下的要素。

(1)参照点。

这是计算的起点,参照点不同,测量结果就会因其所代表的意义不同而无法进行比较。

(2)单位。

这是测量的基本要求。

教育测量也须有相应的单位,但教育测量的单位却往往不等距或等距不等值。

比如,在同一数学测验上,两考生分别得100分与80分,另两考生分别得70分与50分,分数差相等但却不能认为差距相同。

教育测量的评价工具所参照的标准,主要有以下两种。

(1 )标准参照测验。

标准参照测验是以被试对测验目标或内容的掌握程度作为标准。

按照参照标准的不同,可将标准参照测验的分数分为两种:1 )内容参照分数。

这种分数是依据被试对某个确定的内容或技能的掌握和熟悉程度来表示的,因而,建立内容参照分数的前提是测验内容范围的确定;2)结果参照分数。

用效标行为的标准来解释测验分数,称为结果参照分数。

由此可知,标准参照测验是一种使用广泛的测验形式,如会考、课程考试等等。

(2)常模参照测验。

这是以全体考生在某一大规模测验中所得到的成绩分布为标准,衡量被试在这一测验上所得到的成绩在全体成绩分布中所处的地位。

因而,将被试在这类测验上所得到的分数作单独解释是毫无意义的,只能将它放在被试团体中作比较。

这个团体的分布则称为模团体,而对常模参照测验的测验分数作解释的参照则称为常模。

(四)题目反应理论的评析题目反应理论是现代测量理论中最具代表性的一种。

题目反应理论是建立在潜在特质理论基础之上的。

题目反应理论认为,潜在特质指的是所要测的内在能力,定量地估计个体在每一种特质上的位置是心理测验的任务。

但是,由于心理特质的潜在性,心理学家只能依据可观测变量来鉴别和定义这些特质,并希望能探明:哪些特质所起的作用是重要的,哪些特质对人的行为发展产生重大影响,等等。

题目反应理论的最大特点就是它找到了一条题目特征曲线(ItemCharactteristic Curve简称ICC),并且以多种数学表达式(或数学模型)来描述它和逼近它。

题目特征曲线的数学模型一般都包含两个方面的参数:(1)对测验题目的特征进行刻画的题目参数;(2)对考生的特征进行刻画的潜在特质或称为能力参数。

相关主题