新教师考察报告范文计算机智能的发展快速而高效。
强大的工具迅速更迭,教师的工作效率也显著提高。
其中自动为文章打分的智能软件便应用甚广。
作文是大规模语言考试中的必备题型。
通过作文可以综合检测应试者运用语言的水平。
当今的研究人员正努力研发机器人瞬时为书面文章评分。
机器人评分的受益者包含慕课(MOOC)供应者,还有那些在标准考试中含有作文测试的地区等。
关键问题是,计算机能够像文学家一样,识别出作文中微小而关键的那些差别吗?恰恰是这些微小的差别,区分出了普通的好文章和卓越精彩文章之间的差异。
电脑能否捕捉到书面交流的关键要素,譬如合理性,道德立场,论证能力,和清晰程度?自动评分的先驱——埃利斯·佩奇1966年,计算机体积还很庞大,康涅狄格大学的研究员埃利斯·佩奇(Ellis Page)就率先开始了对自动评分的研究。
计算机在那时是相对新颖的技术,主要用来处理最高级的任务。
在佩奇同龄人眼中,利用计算机进行文本输入而非计算数据更是新奇的想法。
在当时的环境下,不管是从实用的角度、还是从经济成本来看,利用计算机给作文评分这个想法都非常得不切实际。
与同代的人相比,佩奇是个眼光真正长远的人。
埃利斯佩奇团队开发出第一套作文自动评分系统PEG(Project Essay Grader)。
PEG(Project Essay Grade)、IEA(In ___igent Essay Assessor)和E-rater是国外最具代表性的三种作文自动评分系统。
国外作文自动评分系统述评作文自动评分是近三年自然语言处理中的热点问题。
大规模作文阅卷面临两大难题:其一,阅卷需要耗费大量人力、物力等资源;其二,评判作文质量具有很强的主观性,阅卷的信度和效度不强。
近几十年来,随着计算机硬件和软件性能快速提高,自然语言处理等技术获得了长足的发展,国外一批作文自动评分系统相继问世,这两个长期困扰大规模作文阅卷的难题有望得到解决。
(一)PEG——一个重语言形式的评分系统PEG于1966年由美国杜克大学的Ellis Page等人开发。
PEG的设计者们认为,计算机程序没有必要理解作文内容,大规模考试中尤其如此。
因此,他们在其网站上公开申明:“PEG 不能理解作文的内容”。
在PEG的开发者看来,作文质量的诸要素是作文的内在因素,无法直接测量,因此,最为合乎逻辑的方法是从作文文本中提取一些能够间接反映作文质量的文本表层特征项。
概括起来,PEG的技术大体包括两方面:其一, PEG使用的统计方法是多元线性回归,以此来确定各变量的beta值,这样,基于训练集作文而构建的统计模型便可以用来为新的作文进行自动评分。
这一技术合理而容易理解,后期出现的作文自动评分系统大多采用这一技术。
其二,自然语言处理技术是PEG提取变量的主要方法。
基于这两种技术,PEG取得了很好的评分效果。
(二)IEA——一个重内容的评分系统IEA是一种基于潜伏语义分析的作文自动评分系统,由美国科罗拉多大学的ThomasLandauer等学者开发。
与PEG显著不同的是,IEA 的设计者们在其网站上申明:“IEA是唯一能够测量语义和作文内容的程序”。
据IEA的设计者们报告,潜伏语义分析主要分析文本的内容和学生作文中所传达的知识,而不是作文的风格或语言。
将潜伏语义分析用于学生作文自动评分时,待评分的作文与预先选定的范文(训练集)被视作为矢量, 对矢量进行比较之后,可以得到每一篇待评分作文与范文在内容上的相似度得分。
该得分被直接视为机器评分或经过转换后得到机器评分。
(三)E-rater——一个模块结构的混合评分系统E-rater是由美国教育考试处于20世纪90年代开发,其目的是评估GMAT考试中的作文质量。
据Burstein et a.l(xx)、Cohen et a.l(xx)和Valenti et a.l(xx)的描述,E-rater自1999 年以来已经进入操作阶段,至xx年,共评定作文 750,000篇。
E-rater的开发者们声称,他们的作文评分系统利用了多种技术,其中包括统计技术、矢量空间模型技术和自然语言处理技术(Valenti et a.lxx)。
凭借这些技术,E-rater不光能够像PEG那样评判作文的语言质量,还能够像IEA那样评判作文的内容质量。
除此之外,E-rater还对作文的篇章结构进行分析。
国内主要英语作文自动评价工具软件在国内,业已颁布的《国家中长期教育改革和发展规划纲要(xx-2020年)》明确指出,信息技术对教育发展具有革命性的影响,必须给于高度重视。
到2020年,全国范围内应该力争基本建成覆盖城乡各级各类学校的教育信息化体系,以促进教育内容、教学手段和方法现代化。
就受众群体庞大的英语教学领域而言,国内关于英语作文自动评价系统的研究起步晚,缺乏系统性的综述研究。
(一)句酷批改网由北京词网科技有限公司研发,于xx年4月开始展开大规模使用。
它是一个基于语料库和云计算技术的英语作文在线自动批改服务网站。
批改网的核心算法是计算学生作文和标准语料库之间的距离,再通过一个映射将距离转化成作文分数和评语。
核心技术点是将每一篇输入的作文分析成可测量的192个维度,分析过程充分利用了先进的自然语言技术和机器学习的方法,每篇作文先被自动切分成句子,然后对每个句子进行深度的语义分析,从中抽取词、搭配、词组等结构化单元。
主要功能包括:分数即刻显现、图文报表式作文分析结果、错误自动批改、点评细致入微、阶段性进度报告、抄袭检测等。
批改网是完全自主研发的国产软件,从核心引擎到批改应用都是完全自主知识产权的。
它体现写作教学的多样性,鼓励学生的自主性学习、探索性学习、团队式学习、研究型学习等教与学新模式。
(二)冰果英语智能作文评阅系统杭州增慧网络科技有限公司联合浙江大学、外语教学与研究出版社,以及中外人工智能专家队伍,依据语言教学理论、计算机网络教育技术、大规模数据挖掘技术,研发出这一个性化智能化的作文评阅软件。
它可以即时给出作文评分,并从词汇、语法、文风、内容等方面给出反馈。
但是,该系统目前无法做到用户同一篇作文多次反复修改,多次提交给系统,并得到系统的即时评阅和反馈。
(三)TRP教学资源平台经过对一线教师的调研及需求分析,高等教育出版社与清华大学杨永林教授的科研团队合作研究,xx年10月正式对外发布了《体验英语写作教学资源平台》。
xx年3月,该平台的升级版产品《TRP教学资源平台》面世。
它根据写作教学需求,将数字化、网络化与区域化教学平台进行了有机的整合,并涵盖了资源建设、平台构建、写作学习、句型练习、语法测验、作文评分、写作研究、评语生成、作为考试等功能。
为高校英语教学的进一步改革提供了“专本硕博,四级贯通”的可操作平台。
特别一提的是,学术写作是该写作软件系统的特色版块,从这一点来讲,TRP教学资源平台似乎对于研究型高校的学习者来说具有更加特殊的意义。
国内中文作文自动评价工具软件概述根据作文自动评分的原理,可以得到计算机评分的工作机制:首先提取出反映写作水平的特征,然后利用这些特征和数学模型计算出分数。
并且确保这个分数最大程度的接近人工评分的结果。
汉语文字的计算机识别及加工能技术难题需要计算机领域的专家来攻克,而汉语的计算机自然语言处理技术有了突飞猛进的发展。
例如由于中文词语之间没有空格分割,使用计算机进行分词是进行自动评分研究需要解决的首要问题。
随着中文自然语言处理研究的发展,目前这一困难基本得到解决。
中国科学院计算技术研究所在多年研究基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统不仅完全具备了中文分词的功能,还有词性标注和未登录词识别的功能。
ICTCLAS分词的正确率高达97.58%(最近的973专家组评测结果)。
另外北京大学、北京语言大学都有汉语自然语言处理工具成功开发,为汉语作文自动评分研究打下了基础。
自动评分很好地做到了作文评价的客观化,可以做到在不同的时间地点,在不同的计算机环境里面对于同一篇作文的评价结果完全相同。
使用这些系统进行作文评分,不仅提高了作文评价效率、降低了人工成本,而且从根本上消除了评分者之间的不一致。
可以说,使用计算机进行自动评分是评价科学化发展的 ___,是提高作文评分准确性和评分效率的最有效途径。
在美国Erater已经成功的在ETS组织的托福等考试中应用,而日本Jess研制的目的就是处理日本大学入试的作文评分。
最近台湾也研发出了一套“中文写作自动化评分系统”(ACES),该软件能自动分析初中基准测试考生的作文程度,并给于6个等级的评分。
人工与智能,效率与质量的较量当今时代,利用计算机自动评分的需求正在猛增。
在人工审核流程中,每篇文章必须要有两名教师打分,这样的批阅成本很高,含有写作部分的标准化测试批阅成本也愈发昂贵。
这种高昂的成本已经致使许多州在标准考试中,放弃了重要的写作测试。
目前,自动评分系统还处在人机耦合的阶段。
许多低年级的标准化考试使用自动评分系统,已经带来不错的收效。
然而,孩子们的命运并非完全掌握在计算机手中。
大多数情况下,在标准化测试中,机器人评分员只是取代了其中一位必要的评分员。
如果自动评分员 ___截然不同,这样的文章就会被标记,并转发给另一位人工评分员作进一步评估。
这个步骤的目的是保证评估质量,同时也有助于提高自动评分技能。
EdX总裁Anant Agarwal称,智能自动评分的优点不仅仅是能节省宝贵的时间。
新技术所实现的即时反馈对学习也有积极影响。
当今,人工给作文评分要花费好几天、甚至是好几周的时间才能完成,但是有了即时反馈,学生对自己的文章记忆犹新,可以立即弥补弱项,而且效率更高。
机器学习软件刚开始应用时,教师必须将已经评好的几篇文章输入系统,作为好文章和坏文章的示例。
随着越来越多文章输入,软件就越来越擅长这种评分工作,最终几乎就能提供专门的即时反馈。
Anant Agarwal称,需要做的工作还有很多,不过自动评分的质量已经很快接近真正教师的评分。
随着更多学校的参与,EdX系统的发展越来越快。
截至今天,已有11所重点大学对这款不断发展的评分软件贡献了力量。
自动评分的应用效果及发展前景为了改善这种趋势,xx年,威廉和弗洛拉休利特基金会(William and Flora Hewlett Foundation)赞助了一项自动评分的竞赛,以数千篇作文为样本,用六万美金作为奖励,鼓励能智能取代教师评分的最佳方案。
休利特基金会教育项目负责人芭芭拉·周表示:“我们听说机器算法已经达到和人工评分同样的水平,但我们希望创建一个中立且公平的平台来评估供应商的各种声明。