当前位置：文档之家› 高职高专英语作文自动评分指标探索

高职高专英语作文自动评分指标探索

1 高职高专英语作文自动评分指标探索

李恩亮（江苏海事职业技术学院外语系，江苏南京 211170）【摘要】高职高专英语教学突出“实用为主、够用为度”的原则，英语课程不仅应打好语言基础，更要注重培养实际使用语言的技能，特别是使用英语处理日常和涉外业务活动的能力。然而,在高校扩招背景下,基础相对薄弱的高职高专学生在英文写作方面反映出的问题尤为突出，远达不到规定的要求。由于高职高专学生英语基础较差和自主学习能力不够，所以老师监督和反馈就显得非常重要，但是部分高职高专院校英语教师的师生比已经达到了130:1，所以采用计算机辅助批改作文对于高职高专教师来说就变得越来越重要。目前针对大学英语作文的自动评分方法已经有大量的研究成果，比如北京外国语大学的梁茂成教授、北京语言大学的葛诗利博士以及国外的ETS等机构，但是针对高职高专领域的专门研究还比较少，本文尝试在已有英语作文自动评分研究为基础上，通过研究教育部高职高专英语课程的写作要求，以及以2012年（第三届）全国高职高专英语写作大赛江苏省赛区参赛作文作为测试样本，探索符合高职高专特点的英语作文自动评分指标。

【关键词】高职高专；英语写作；自动作文评分；评分指标

一、引言

全国高职高专英语写作大赛已经举办过三届，前两届参赛作文均采用人工批改与评审，在这过程中发现人工批改英语作文存在一定的问题。主要的问题包括：

第一、主观性强，不同的阅卷教师对同一篇作文可能会给出完全不一样的评价。第二、一致性差，同一篇作文阅卷教师在不同的时候评分可能不一样，比如心情好的时候分数可能会高一些，心情不好的时候可能会差一些。第三、工作量大，以2012年（第三届）全国高职高专英语写作大赛（江苏赛区）为例，每个评阅教师要在3个小时内看300篇作文，平均每篇作文的批改时间不到1分钟，阅卷教师这么短的时间下很容易疲劳，导致给出不完全客观的评价。

近年来英语作文自动评分（Automated Essay Scoring，简称为AES）已经逐渐成为语言测评中的热点方向，成熟的系统已有十余个，文章与著述也比较多，但大多数针对英语母语作文评分，涉及英语作为外语（EFL）作文评价并不多见（葛诗利，2010）。 2 自动作文评分就是把作文跟标准语料库进行对比后分解成一定的评价指标，将评价指标映射成相应的分数。自动作文评分相比人工评分具有以下优点：一、客观，机器在评分的时候不会受到情绪的影响；二、一致，机器评分在任何时间的评分标准都是一样的；三、实时，机器可以在提交作文后立即给出反馈；四、不知疲倦，机器一天可以评阅几百万篇文章不会感觉到疲倦。

当前计算机自动评分也有很多缺点，比如计算机没有思想，计算机并不能像人一样评判一篇作文，这就导致在比较作文的内容创新这些方面计算机不能很好的区分；同时计算机也不了解语义，比如文章之间的结构关系，计算机识别出来也比较困难。但这些缺点并不妨碍计算自动评分技术在外语教学中的广泛应用，因为计算机的定位是辅助教师批改而不是替代教师批改。

针对中国英语学习者的自动评分技术在国内已经有北京外国语大学的梁茂成教授、北京语言大学的葛诗利博士在做这方面的研究，但是梁茂成教授的研究主要是指英语专业作文、葛诗利博士主要针对大学英语作文，目前专门针对高职高专英语作文评分的研究还比较少。

本文尝试在已有英语作文自动评分研究的基础上，通过分析教育部高职高专英语写作的课程要求，以及2012年（第三届）全国高职高专英语写作大赛江苏省赛区参赛作文作为测试样本，探索符合高职高专特点的英语作文自动评分指标体系。

二、英语作文自动评分指标比较

目前英语作文自动评分技术相关的研究比较多，比如北京外国语大学的梁茂成教授在《国外作文自动评分系统评述及启示》一文中介绍了PEG、IEA和E-Rater三个系统。教育部的韩宁研究员在《几个英语作文自动评分系统的原理与评述》中除了这三个系统外还介绍了Criterion（基于E-Rater）、IntelliMetric、My Access和Bayesian Essay Test Scoring System（BETSY）。

梁茂成教授和葛诗利博士分别针对英语专业和大学英语提出了各自的英语作文自动评分指标体系。由于公开数据有限，这里仅选择了梁茂成教授、葛诗利博士和ETS的E-Rater V.2.0的评分指标，分别代表英语专业、大学英语和英语本族语作文的评价指标进行对比，供后面提出高职高专英语作文的评分指标作为参考。梁茂成葛诗利 E-Rater V.2.0 分类子类指标分类子类指标 Features 语言流利度字数语言词汇词汇分布词汇概貌 Grammar

字数4次方根词频广度 Usage 3 从上表的指标对比可以看出，梁茂成教授比较侧重从语言的角度来划分评价指标，葛诗利博士侧重从计算机可识别的角度来划分指标，E-Rater相对来说是混合式的，既考虑了语言的角度也考虑了计算机识别的角度。

梁茂成教授根据Purves (1985)，Blok & de Glopper (1992)以及Wolfe-Quintero etal.(1998)对于外语写作质量的研究，结合中国学生的英语学习特点，从语言（流利度、准确度、复杂度）、内容（主题相关性）和组织（全局以及局部）三方面入手，构建了中国学生英语作文自动评分模型。梁茂成认为对于中国学生英语作文的评估，语言最重要，其次是组织，再者是内容。因此，对于语言的评估是其评分指标的重点。词频分布词汇多样性字符数 Mechanics 句子数准确度介词数作文长度冠词数复杂度类符形符比 Style

词汇的二元连续动名词指数 Lexical Complexity Vocabulary 单词词频档案常用词数量短语短语使用数量 Word Length 非常用词数量 Prompt-Specific Vocabulary Usage Score Point Value (max. cos.) 平均词长词长标准差名词化数量长句百分比 Cosine Correlation Value (cos. w/6) 短句百分比简单句百分比易读性指数内容主题相关性 SVD相似度内容相似度类聚 Identify Anomalous Bad-faith Essays 组织全局段落数 Organization Missing Discourse Elements 局部代词数

Development The Amount of development 连接词数 Average length of Discourse Elements 4 葛诗利建立的自动评分模型主要针对中国大学生英语作文的评判。他从语言（词汇和短语）和内容（相似度）两方面设计了自动评分指标。

E-Rater是由ETS的Burstein等人在上世纪九十年代末开发的，目前正用于GMAT和托福考试作文评分，当前最新的版本是V.2.0版。E-Rater从句法、篇章、主题三个模块设计评分指标。表一中的E-Rater评分指标是E-Rater V.2公布的指标，但在Yigal Attali & Jill Burstein 发表的Automated Essay Scoring With E-Rater V.2一文中，并未对文章主题这一部分的评分指标做出详细介绍。

表一中列举的三种评分指标的共同点在于： 1）从语言、内容这两大分类出发。 2）语言分析指标所占比例较大。由于计算机评阅的特殊性，对于文章内容等主观板块的评阅难度大，而对于语言的固定用法和搭配的评阅就可以充分利用计算机的高效、便捷与稳定。 3）语言部分均包含对词汇、固定用法和作文长度的考量。

不同点在于： 1）在葛诗利的指标以及他所提出的六个进一步研究课题中，均没有涉及对作文组织结构的考察。由于他所设计的指标针对非英语专业大学生在我国人数众多、水平偏低、师资不足的状况，所以葛诗利想要设计一种通用的方法，使之适用于非特定题目的作文评阅。因为这个原因，其指标并未将作文组织纳入考量范围，而将重点放在语言和内容上。 2）尽管梁茂成与E-Rater的指标均将组织结构纳入考量，但指标却不尽相同。梁茂成的指标设计针对中国英语专业学生作文，涵盖范围广，所以他的指标对于组织结构的考量包括全局（段落数）和局部（代词数、连接词数）两部分，这些指标可以用于对任意一种文章组织结构的考量。而E-Rater被用作GMAT和托福考试的作文阅卷，它默认作文要有Introductory Paragraph、至少三段正文、一个Concluding Paragraph。而且每段正文必须要有主要观点以及论据。所以，Missing Discourse Elements是E-Rater在考察组织结构时的一个重要指标。

三、高职高专英语课程教学要求分析

分析高职高专教育英语课程教学基本要求（教育部高教司，2006）对英语写作部分的要求以及与大学英语课程教学要求的进行对比，从中可探索出高职高专英语写作和大学英语写作评价的指标的差异。

高职高专英语写作A级的要求是：“能就一般性题材，在30分钟内写出80－100词的命题作文；能填写和模拟套写简短的英语应用文，如填写表格与单证， 5 套写简历、通知、信函等，词句基本正确，无重大语法错误，格式恰当，表达清楚。”，要求中附录的语言技能表对写作技能的要求包括： 1) 正确使用所学的词、词组和句型；

2) 语法及标点使用正确，句子结构完整；

3) 句子意思清楚，符合逻辑顺序；

4) 注意连贯性，正确使用连接手段：如first、second等；

5) 正确套用或使用常见的应用文格式。

同时高职高专英语A级词汇要求是：“认知3400个英语单词（包括入学时要求掌握的1600个词）以及由这些词构成的常用词组，对其中2000个左右的单词能正确拼写，英汉互译。学生还应结合专业英语学习，认知400个专业英语词汇。”

而大学英语课程教学要求（教育部高教司，2007）中较高要求对英语书面表达能力的要求是：“能基本上就一般性的主题表达个人观点，能写所学专业论文的英文摘要，能写所学专业的英语小论文，能描述各种图表，能在半小时内写出不少于160词的短文，内容完整，观点明确，条理清楚，语句通顺。”

同时大学英语对词汇量的要求是：“掌握的词汇量应达到约6395个单词和1200个词组(包括中学和一般要求应该掌握的词汇)，其中约2200个单词(包括一般要求应该掌握的积极词汇)为积极词汇。”

对两个要求进行对比，可以总结出高职高专作文要求具有的几个特点：第一、词汇要求明显偏低；第二、词句仅要求基本正确；第三、语言表达上不出现重大语法错误；第四、强调格式，尤其是应用文的格式。

基于上述分析，可以确定高职高专英语教学遵循的是“实用为主、够用为度”原则。根据以上分析的结果，可以提出设计高职高专英语作文自动评分指标的几个原则。

 原则1：语言的重要性大于结构和内容的重要性，高职高专学生一般都

是以应用文写作为主，应用文一般结构都有固定的格式，内容都需要按照明确的要求来撰写，不会有太多的创新，所以对于高职高专学生来说语言的重要性是要远大于结构和内容。  原则2：语言准确度的重要性大于语言流利度和复杂度，这里准确度表

示“无错误的产出（error-free production）”，流利度是指“语言的快速产出”，复杂度是指“多变而复杂的结构（秦晓晴、文秋芳，2007）”。从课程要求可以看出对于高职高专的学生来说，语言准确度比语言流利度和复杂度更重要。

e商务文档

高职高专英语作文自动评分指标探索

相关文档推荐：