当前位置:文档之家› 语料库

语料库

语料库、学习者语料库与外语教学①□李文中0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。

它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。

如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。

前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。

所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。

使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。

语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。

语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。

基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。

语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。

2)词典编纂。

语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。

3)语言学习与语言教学。

早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。

与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。

基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。

另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。

但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。

80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。

该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。

与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。

在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。

80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。

90年代初,包含英国书・15・外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。

C ornelis H.J.Vaes 寄来InternationalJournal o f Corpus Linguistics 以供参考。

M ike Scott 寄来有关索引软件M icroC oncord 使用手册。

导师杨惠中教授阅读了初稿并提出了修改意见。

在此一并致谢。

面英语和口语容量为1亿词的英国国家语料库建成(BNC ,British National C orpus ,1994),而伯明翰大学的BCET 语料库进一步扩展为英语库(Bank of English ),容词量为两亿。

到90年代中期,朗曼公司在BNC 库中又增加1亿词美国英语,C OBUI LD 的Bank of English 进而增长至3.2亿词(Rundell 1996)。

语料库的出现不仅标志着语言学研究手段的技术进步,还标志着语言研究思想的重大转变。

它代表一种新的语言学思维,一种新的事业(Leech 1992,G ranger 1997)。

语料库方法注重运用而非能力,重描述(description )而非普遍语法(universals ),重量化分析(quantitative analysis )而非定性分析(qualitative analysis )。

语言学家对语言的研究从传统的直觉经验方法转向基于实验和统计的方法。

但G ranger 认为这两种方法可以互补,而不是相互排斥①。

语料库在语言描述和分析中发挥着愈来愈重要的作用。

“现在不会有人试图不使用语料库信息就去编制新的词典。

的确,对该领域大多数人而言,不参照实验性数据而试图进行语言描述的想法将被视为反常。

”(Rundell 1996)1.学习者语料库的发展随着计算机处理速度的飞速增长以及存储能力的扩大②,语料库建设呈现多元化发展和增殖趋势。

在90年代,各种专门语料库纷纷建成或在建,如用于文学作品分析的各种作家语料库,用于历史语言学分析的历史语言语料库,用于学习者语言运用分析的学习者语料库。

语料库的种类不再仅限于英语,而发展到各个语种③。

语料库多元化的发展既包括研究方法的多元化,如历时性语料库和共时性语料库,也包括语料语体上的多样化,如书面语和口语语料库、通用型语料库和专门语料库,以及英语的各种变体语料库,如英国英语、美国英语、澳大利亚英语、印度英语、南非英语等。

在这种多元化发展中,针对外语学习者而建立的学习者语料库(learner corpora )可谓异军突起,成为当今语料库建设中一股新的力量。

学习者语料库的创建和研究只是近几年的事情。

最早的学习者语料库是80年代末建立起来的朗曼学习者语料库(Longman Learners πC orpus )。

90年代中期,在比利时Louvain 大学以Sylviane G ranger 为首建成了国际学习者英语语料库(IC LE )。

该库是一个广泛的国际合作项目,容词量为100万词,所搜集的学习者语料来自14种不同的母语背景(包括法、德、荷兰、西班牙、瑞典、芬兰、波兰、捷克、保加利亚、俄、意大利、希伯莱、日、汉语)。

另外香港科技大学的学习者语料库(HK UST Learner C orpus )搜集了以汉语为母语的学习者语言材料,容量为360万词。

学习者语料库的发展,使得基于学习者语料库的研究异彩纷呈,方兴未艾。

1996年8月在芬兰举行的“第十一届世界应用语言学大会:开发计算机学习者语料库”,与会者从不同角度对学习者语言进行了初步探讨。

如Aarts 对多义动词‘find ’和‘want ’的对比研究,Altenberg 对瑞典英语学习者议论文写作中各种词汇、语法和话语特征的滥用或少用的研究,K aszubski 研究了波兰英语学习者词汇的重复和华・25・①②③在Barlow 博士“语料库语言学”的主页上,列出了16种语言的网上各种语料库。

这还不包括东方的主要语言,如汉语、日语、朝鲜语等。

中国的汉语国家语料库建设始于1992年,初始容词量为500万,主要用于汉语语法研究。

到1995年,该语料库扩大至5000万词,并开发了针对汉语语料库的多阶处理系统(Qian Zhou and Shiwen Y u 1997)。

在1996年,一台配置Pentium 586,133MH z 处理器,1.7G 硬盘,16M RAM ,8xCD 2ROM 的个人计算机算得上先进,到了1998年,这种配置已明显落后。

(如266Π400MH z Pentium Ⅱ,4.3G Π10G+硬盘,128M RAM ,24xCD -ROM )。

Leech (1987)在比较自然语言处理中基于语料库方法和基于人工智能方法时表达了相似的观点,认为这两种方法并不互相排斥,而是相互补充。

语料库方法在自然语言处理中具有广域适应优势,但由于概率错误失之于准确;而基于规则的人工智能方法准确性高,但局限于某个领域。

Leech 认为这两种方法是“从两端挖掘同一条隧道”。

丽语句的运用;Lorenz 对德国英语学习者英语写作中词汇搭配能力、非词汇化以及信息结构的研究,Milton 则讨论了机助语言学习设计问题;Ringbom 对比分析了学习者语料库中数量限定词、核心形容词和动词、衔接词以及动词短语的频率。

最近,在中国即将建成的容量为100万词的中国学习者英语语料库(C LEC ),广泛搜集了专业英语、大学英语以及中学英语学习者的各种书面语资料。

该项目由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授负责主持、国内十几个院校合作完成,目前已完成人工错误附码,语料库建设已近尾声。

2.学习者语料库在外语学习中的应用学习者语料库的兴起主要基于以下几个方面的因素:1)在语言学习环境方面明确区分外语学习和第二语言学习,从而观察和描述不同的母语背景与目的语接触程度差异对语言学习的影响。

2)对‘学习者语言’①进行全面而系统的调查和描述,并通过与本族语语料库对比,确认学习者的主要困难,以期对外语学习和教学产生积极的反拨效应。

3)对于语言习得研究而言,对大量的学习者语言运用材料进行量化分析,能深化人们对语言学习机制的理解,乃至对语言本身的理解提供依据。

事实上,语言习得研究的主要数据依据来自三个方面(Ellis 1986):1)学习者的语言运用;2)研究者为某一研究目标从研究对象引出的信息;3)学习者通过内省而提供的信息。

由于受研究手段和人工处理信息能力的限制,第一种信息的获得和数量难以满足研究者的需求。

传统的语言习得研究主要依赖后两种信息。

如今,语料库技术的发展为解决以上问题提供了有效的途径。

与传统的对比研究(C A )不同,利用学习者语言与本族语(目的语)进行对比,也可以在不同的学习者语言之间进行对比(如不同母语背景的学习者在学习困难上的差异),所得到的信息更加可靠。

基于学习者语料库的分析也不同于传统的错误分析(E A ),研究者不仅可以分析学习者的语言形式错误和语用错误,还能通过对比分析进一步观察学习者使用规避策略(av oidance )②的情况。

G ranger (1996)把这种对比分析称之为中间语对比分析(CI A ,C ontrastive Interlanguage Analysis ),并认为通过这种对比不仅能发现学习者语言中不合乎本族语的特征,还能发现某些特征在学习者语言中滥用或少用。

相关主题