当前位置:文档之家› 语料库建设及使用专题研修班

语料库建设及使用专题研修班

语料库建设及使用专题研修班时间:2014年11月8-9日地点:上海海事大学2C305(计算机实验室)主讲人:北京外国语大学中国外语教育中心梁茂成李文中许家金一、基本概念1.为什么欧洲对语料库语言学会有如此大的兴趣呢?在美国占统治地位的Chomsky语言学的研究焦点是句法,它感兴趣的是哪些句子是可能的(What is possible?),追求的是语言理论的“解释力”,例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的,但语料库语言学对此却没有兴趣。

因为实际上没有人会这样说。

语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的(What is probable?),这和统计学中的概率有关,不是可否的问题,而是多少的问题,也就是语言的使用问题。

2.一个小型文本集并不是真正意义上的语料库。

真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。

可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。

语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。

3.文本:文本可以保存生(raw)语料,即未经任何标注的语料,称为生文本(rawtext)。

文本中也可以保存经过人工或自动标注的语料,这种文本称为标注文本(annotated text)。

文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。

4.经人工或自动处理后,原来的生文本获得了“增值”(Leech 1991),文本中所包含的多种信息可以通过语料库分析软件提取出来,为人们分析和研究语言提供大量的实证数据。

然而,Sinclair等并不主张对文本进行标注,倡导干净的文本(clean text),这样我们在观察语言时才可以脱离现有理论的束缚。

5.形符(token)是一个语言单位。

语料库语言学中一般将it’s视为两个形符。

总形符数是语料库容量的最常用的测量单位。

如英国国家语料库约有1亿个词,说的就是该语料库中包含有约1亿个形符。

6.类符(type)指不重复计算的形符数。

换言之,在一个文本中,重复出现的形符只能记作一个类符。

以美国作家Gertrude Stein的作品Sacred Emily中的诗句Rose is a rose is a rose is a rose.为例,这句中共有10个形符,而类符只有3个(即rose, is, a)。

据此,我们可以计算这个句子的类符/形符比(type-token ratio, TTR,又称为形次比),即TTR=(3/10)*100%=307.类符/形符比是衡量文本中词汇密度(lexical density)的常用方法。

然而如果文本中有大量的功能词(function words,如the、a、of等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必会随之增加,这样,文本越长,功能词重复的次数也就越多,类符/形符比也就会越低。

常用的补救方法是用标准化类符/形符比(standardized type-token ratio)来计算词汇密度。

计算方法是,计算每个文本每1,000词(1,000词是参考值,可根据文本的长度进行适当调整)的类符/形符比,将所得到的若干个类符/形符比进行均值处理,最终得到的数值即为标准化类符/形符比。

8.概率(probability)是语料库语言学中最重要的基本概念之一。

语料库语言学的目标之一是解释各种语言现象是否可能发生及其发生概率的大小(参见Kennedy 1998: 270).语料库语言学有两大支撑点,其一是大量的真实语言使用实例,其二是统计学理论及方法,这使得语料库语言学十分有别于基于“理想的本族语者”的直觉的研究方法。

9.频率(frequency)是语料库语言学中最重要的概念之一。

我们可以降学习者语料库中某词的使用频数、学习者语料库容量、本族语者语料库中该词的使用频数、本族语者语料库的容量共4个数值输入四格列联表,通过卡方检验来确定该词在学习者语料库中是否被过多使用(overused)或过少使用(underused)。

10.索引(concordance)又称“语境中的关键词”(key word in context, KWIC),指的是运用索引软件(concordancer)在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。

11.搭配(collocation)并不是某个词语单方面的行为,我们至少应该从两个词语各自的出现频数(occurrences)和共现频数(co-occurrences)两方面来考察搭配的强度。

据此,人们提出了互信息(MI/mutual information)、MI3、Z-score、对数似然率(log-likelihood)等众多测量搭配强度的方法。

12.与搭配相关的另一个概念是“类联接”(colligation)。

类联接关注的同样也是“结伴关系”。

与搭配不同的是,类联接所关注的“结伴关系”不再局限于词汇层面,而上升到词类乃至语法层面,如形容词经常与名词构成类联接。

13.多词序列(MWE/multiword expressions)又称多词单位(MWU/multiwordunits)、复现词组(recurrent word combinations)等。

研究表明,本族语者往往是整块地提取预先存放在大脑中的多词序列,这样才得以把更多的认识资源用于内容整合、句法加工等方面。

在对单语语料库进行研究时,人们常常借助于语料库分析工具,提取和分析出现频率最高、具有较完整的意义的那些多词序列,近年来谈论较多的短语学(phraseology)主要探讨的就是这个主题。

在对平行语料库进行研究时,人们开始关注对应单位(corresponding units,或称翻译单位[translation units]),试图为语言对比和机器翻译提供一种新的方法。

14.很多词看起来并不带有明显的感情色彩。

然而人们通过对索引行的观察发现,有些词貌似中性词汇,但当它们与某些特定词汇为伴构成搭配或类联接时,会产生一些联想意义(如褒贬、好恶等)。

如cause一旦后接宾语,就往往会产生一种不良的联想意义,这便是我们说的语义韵(semantic prosody)。

15.正则表达式(regular expressions,简称regex或regexp)是计算机汇编语言中的一种技术,用于匹配文本中的字符串(如词、短语、电子邮件地址等)。

考虑到有些词英式英语和美式英语的拼法不同,还存在动词的各种屈折形式,在对赋码语料的检索和文本清洁过程中,我们就不得不使用正则表达式了。

16.词性赋码指根据文本中的上下文信息,自动标注文本中所有词的词性的过程。

即,利用现有的计算机程序,可以在文本中各类名词、动词、形容词等所有词之后加上对应的标签,以方便检索和语言处理。

17.元信息(metadata)即关于信息的信息。

语料库的主要信息载体是文本,而标注即是关于文本的信息。

元信息标注为语料库检索和分析提供查询条件和依据。

利用元信息对语料库进行检索,是语料库的一种高级运用,如利用元信息设定语料的条件,由一个大型语料库快速构建一个子语料库,或者在一个语料库中查找符合设定条件的文本。

二、语料库研究基本范式:1.基于语料库的方法(corpus-based approach)。

基于语料库的方法并不反对也不试图推翻传统的语言理论,也不排斥研究者的直觉。

而是由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设。

假设是否成立取决于语料库中的语言实例。

在这种研究中,一些传统的概念和理论被进一步验证或延伸。

基于语料库的研究方法以概率为基础,是统计学和实证研究方法在语料库语言学领域的具体应用。

2.语料库驱动的方法(corpus-driven approach)。

这种方法主张,我们在对语料库进行分析之前并无任何假设,通过对语料库中的所有例证进行穷尽的分析和归类,得出有关语言使用情况的假设乃至结论。

语料库驱动的研究方法的基本程序是“观察—假设—归纳—理论整合”。

(摘自:梁茂成、李文中、许家金,2010,《语料库应用教程》。

北京:外语教学与研究出版社。

)三、语料库软件;1.BFSU PowerConc(检索工具)例:\上海海事大学_WORKSHOP\Tools\01检索工具\01BFSU PowerConc 1.0.beta21c\Sample_texts2.TreeTagger for Windows自动词性赋码器(标注工具)(生文本须放在TreeTagger_3_English的文件夹下,标注好的文件在TAGGED文件夹下)3.BFSU Qualitative Coder(标注工具)例:\上海海事大学_WORKSHOP\Tools\02标注工具\BFSU Qualitative Coder 1.2\CLEC_sample(备注:上述语料库为大学生英语语料库(CLEC)中的四级作文语料库)4.Yacsi 0.96_汉语分词标注工具(修改计算机时间到2011年或以前)5.元信息(metadata)的设置与添加:在template中的两个<HEADER>之间添加元信息,然后再用Headappend(标注工具)添加。

6.Sub-corpus creator(检索工具):建子语料库例:\上海海事大学_WORKSHOP\Data\02_Learner_corpora\MICUSP7. 用Abbey Aligner对齐文本(文本处理)后保存为TMX格式,在EditPad Pro (文本处理)中:○1清除所有英语、汉语:首代码+.*?+尾代码(注意勾选Regular Expression和Dot Matches Newline)○2除去剩余标签:<[^>]+>(若只除去标签,那就得到mixed版本)○3除去空行:^\s+[\r\n]+○4Options—Line Numbers:检查中英文行数是否一致。

○5另存为:文件名”…EN/ZH.txt”,保存类型改为txt。

再将编码改成:ANSI(注意保存到文件夹parallel,因为BFSU ParaConc软件只支持ANSI编码文本,不支持Unicode编码文本。

)例:\上海海事大学_WORKSHOP\Data\03_More_texts\《中国哲学简史》英语、中文8.BFSU ParaConc(检索工具):用来检索平行双语语料库:9. Keywords Plus(检索工具,可以用来计算loglikelihood):用来比较两个语料库,一个是观测语料库(observed corpus,如\上海海事大学_WORKSHOP\Data\02_Learner_corpora\WECCL_sample),一个是参考语料库(reference corpus,如\上海海事大学_WORKSHOP\Data\01_General_and_native_corpora\NESSIEv1.0)。

相关主题