语料库语言学(黄挺)
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时料库语言学与语言研究 (1)语料库与语言学理论。语料库的建立使语 言的理论研究的手段和方法发生了巨大的变 化, 它不但修正了语言的一般性规则, 而且对 语言的理论探索也产生了深远的影响。
(2)语料库语言学与语言史研究。大多数语 料库的语料都有特定的年代跨度,根据不同 的研究目的,从一年至百年不等。如为了研 究英语史而建立的Helsinki Corpus of English Tests 的历史部分, 年代跨长从公元 850年至1720年,这一语料库无疑为研究语 言的历史和发展提供了丰富、可靠的素材。
语料库语言学 读书报告
黄挺
语料库和语料库语言学的定义
国外对语料库语言学的定义: 1、根据篇章材料对语言的研究称为语料库语言学。 (K. A ijm er &B. itenberg, 1991) 2、基于现实生活中语言运用的实例进行的语言研究 称为语料库语言学。(T. M cEnery &A. W ilson, 1996) 3、以语料为语言描写的起点或以语料为验证有关语 言的假说的方法称为语料库语言学。(D. Crystal, 1991)
(5) 学生作文分析。选择部分学生作文语 体的语篇作为参照语料库。用定位检索软 件分别对每个学生的作文做词频统计并将 分析结果打印出来,这样教师就可以很容 易地分析出学生是否能正确的使用所学的 词或词组,出现了哪些语法错误等。
5、语料库语言学与机器翻译及文本校对 利用计算机将语料库中的材料,按一定的要求编 码、处理,如把语言的各个层级分别看待, 即词、 句法、语义、互指,不同的应用将利用不同层级 的信息,在词层级上的分析应用上就可以进行词 的切分和词法分析、拼写检查、全文检索、词频 统计、名词短语的辩识、义类词典、逐词机器翻 译等。在句子(句法、语义)的分析和应用上可 以进行语法检查、词义排歧、自然语言接口、对 名词短语辩识的改进、机器翻译等。
(6)语料库语言学与社会语言学。社会语 言学作为一个经验研究领域,主要依赖于 具体的语料数据。如何提高数据的自然性 和代表性,减少其诱导因素等一系列问题, 都可通过对语料库的运用一步步找到解决 途径。如介尔默(Kjellmer ,1986 )曾经调 查了man/ men ,woman/ women 及其它相 应的代词,结果表明男性代词出现的频率 要比女性代词出现的频率高。
2、新的语料库语言学 1959 年,R. Quirk 着手建立“英语用法”语库 (Su rvey of English Usage)。该项目旨在收集大 量的风格题材各异的语料作为对英国英语口语和 书面语进行系统描写的基础。几乎与此同时,以 N.F rancis 和H. Kucera 为首的一批语言学家和 H. 计算机专家汇集在美国的布朗大学合力攻关,于 1961年建成了当今最早的机读语料库-布朗语库 (B row n Co rpu s)。这两个库可以说是现代语 料库语言学的开端。
3、语料库语言学与辞典编纂 语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。
语料库语言学基本发展概况
语料库语言学在国外的发展: 语料库语言学作为一种研究语言的方法, 可以 追溯到19 世纪,甚至更为久远。现在一般以 乔姆斯基转换生成语法的兴衰时间为参照, 将其发展大致分为以下几个阶段:
1、语料库语言学的早期发展 早期的语料库语言学指的是20 世纪五十年 代中期以前,即乔姆斯基提出转换生成语 法理论之前的所有基于语言材料的语言研 究。此类研究主要集中在以下几个方面:
4、语料库语言学与语言教学 语料库及语料库语言学的应用已经在英语 教学的各个方面发挥了重要的作用。 (1)教学大纲的制定或修订。可参考和 借鉴语料库语言学对英语语言描述的研究 成果,使所制定的教学大纲的体系更加科 学,描述更加准确,更有利于英语的教和 学。
(2) 教材的选择。选择合适的教材对于教 学来说是非常重要的。利用定位检索软件 对某些词在一个语篇中的分布情况和出现 频率的统计,可以较为客观地判断出该语 篇的题材和难度,使取舍有了量化的标准。 借助词频统计还可以确定哪些是教材中应 重点讲授的核心词和语言点以作为教材编 写和教学的重点。
对机器可读的语料库进行编码处理,并赋 予一定的语法规则,制作出的翻译软件、 校对软件、定位检索软件、语义网等是目 前语料库语言学应用研究的一大成果。它 们的问世为语言工作者和学习者提供了一 个十分方便的语言工具。以英汉翻译系统 为例,目前我国市场上可见的译星、译林、 快译通等电子词典和计算机双向全文翻译 系统非常受语言学习者和语言工作者的欢 迎。
(2)西方早期的结构主义语言学家利用自然 语料开展音系研究。他们注重“野外工 作”,强调语料获取的自然性和语料分析 的客观性。这些都为后来的语料语言学所 继承和发展。
(3) 方言学从其产生以来就与语料关系密 切。在西方,方言学脱胎于19 世纪的历 史比较语言学,最初兴趣主要是研究运用 直接法所获取的有关单音不同分布的事实 来绘制方言地图。“方言研究者手持笔记 本,后来是手提录音机,记下或录下他所 遇到的一切方言材料。此种取样法至今仍 为某些业余研究者所用,它对于研究方言 词汇的分布有一定价值。” (F rancis, 1983)
(3)语料库语言学与句法、词法及自动语法分析。 利用语料库进行语法分析是语料库语言学的早期目 的之一。如今,人们对语料库内的语料进行更高层 次的研究,对入库的语篇进一步的处理,如进行词 性附码和句法分析(词性附码:对库内语篇中所有 的单词根据其语法作用加注词性编码。句法分析: 对经过自动词性附码的语料库根据某种特定的语法 描述进行语法分析),使语料的自动语法分析成为 可能。从而也大大方便了词的语义及功能研究、近 义词的比较研究、搭配及其结构的研究、语体的研 究、英语口语音型和语调研究、英语名词短语的成 语性研究和英语句法发展的研究。自动语法分析还 被应用于语法检查、词义排歧、自然语言接口、对 名词短语辩识的改进、机器翻译等。
(3)提供例句的来源。在解释词或搭配的 意义和用法时,教师不用自己去创造例句 (这往往会造成不真实或不准确),而是 可以借助定位检索软件在语料库中寻找以 该语言为母语的人使用该词或搭配的例句。 这样得到的例句既生动又真实,因而说服 力强。
(4)编写练习或测试题。使用定位检索软 件准备练习题或测试题可以极大地减轻教 师的工作量,并且使题目更具真实性和可 靠性。
第二、语料库的设立是建立在语料库语言 学理论基础上的,符合语言测试要有理论 依据的要求。 第三、语料库真实性与可靠性等特点以及 某些测试如GRE 所体现的可行性,又正好 迎合了语言测试评估中的要求。 第四、语料库能或多或少地补充和纠正所 储存的语料内容,这样又为语言测试的设 计,试题提供和评估等提供了基础。
(5)语料库语言学与语义研究。语料库可 用来对为语义提供客观标准,并适当考虑 到语义的不确定性。如民特(Mindt ,1991) 指出,词项和语言结构的意义常常是根据 语言学家本人的直觉来描写的,而事实上 语义区别是同句法、词法和韵律街上下文 的语篇相关,通过语料库来调查这些相关 成分,可以找到特定语义区别的客观指示。
(4)语料库语言学与口语研究。语料库在 口语研究中的作用有两个方面: 第一,它能提供空前广泛的口语素材,使对 口语的概括和对特定语言内方言变异的研 究成为可能。 第二,其提供的是自然真实的而非人工条 件下产生的话语。这就保证了语料库所提 供的语言现象是真实存在的,并能准确反 映实际生活中真正使用的语言的特点。
(8)语料库语言学与文体学。文体学研究 的主要对象是作家的写作风格以及比较一 个作家在某一特定历史时期的作品与其同 时代其他人的作品。语料库为文体学研究 提供了量化的实际语料,避免了主观因素。
(9)语料库语言学与心理语言学。语料库 是心理语言学家进行测试研究的有力工具。 尤其在语言病理分析方面能帮助研究人员 准确确定问题到底发生在语言发展的哪一 阶段。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此 其所收语料在很大程度上脱离了上下文或社会背 景,而语用学和语篇分析对于场景和上下文又具 有一定的依赖性。故以语料库为基础的语用或语 篇研究相对较少,但语料库为这些领域所作的贡 献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
计算机多媒体使电子词典不仅提供了词意,而且 还能模拟人声读出音来。一些专业全文翻译软件 能进行双向翻译且翻译的正确率已达到了80%, 翻译人员只需将本族语或目标语输入计算机,计 算机就能在几分钟内将译文输出,翻译人员再用 较短的时间对其进行人工校译就能完成译文工作, 大大缩短了翻译时间。将计算机的校对系统用于 文字处理器中,能对所输入的文本进行自动输入 校对和语法错误提示,大大地提高了输入的正确 率,节省了大量的文稿校对时间。
3、语料库语言学与乔姆斯基转换生成语法 50 年代中前期,在实证主义和行为主义思 潮的影响下,语言研究总体上是经验主义 占主导。但是这种状况随着乔姆斯基1957 年《句法理论》及其以后的一系列论著的 发表被根本转变。笛卡尔的理性主义占据 主导地位,经验主义几乎无立足之地,被 视为经验主义产物的语料研究自然被完全 否定。乔姆斯基及其转换生成语法学派否 定早期语料研究主要有两点: