当前位置:文档之家› 语料库课程(一)笔记

语料库课程(一)笔记


标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类(应该是最小类)
标注的常见类型


标注集/赋码集(tagset)是标注中所使用的代 码集,是对分类体系的操作化。 Tagset: A collection of tags (or coldes) in a tagging scheme. Caution: A tagset usually adheres to a particular decriptive …
理据



我们对真实世界的理解表达为知识 知识表现为不同的语义场 语义场表现为各种词语场 各种词语场实现为各个词群(单词或短语) 特定话题触发独特词群 具有特定话题的文本包含独特词群,该词群一 般不在其它话题中出现
因此


某个特定话题的文本包含的独特词群具有异常 高频 参照语料库代表了某一类型语言运用的常态 对比两个词表,可以提取那些超常高频的词群
8.2上午
(二)李文中 主题词分析

分析文本时注意备份,把需分析的语料放入 新建的文件夹中。 练习:使用语料: 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data

1. 创建2个对比文件夹,用PowerGREP转换 格式,并把text放入这2个文件夹
比什么:条件控制

控制相似变量 突出差异焦点
描述

观察文本 具有明确主题的完整文本或一致主题的文本集 参照语料库 具有足够的代表性 足够大 同质语料
主题词表 观察文本 参照语料库

8.2上午
(三)
许家金
语料库三大功能 1. concordance 索引 2. N-gram 词表 3. 主题词表


Words cluster as people do
e.g. Search: no attempt 用法 Regex: \bno\b\s\battempts?(ed/ing)\b 观察collocation and co-occurrence 作业:hair: 单数与复数的隐喻 body metaphor
8.1下午
(三)梁茂成 语料库的标注

标注与干净文本原则 标注的常见类型 词性标注 手工标注
标注与干净文本原则

标注(annotation): The process of applying additional information to corpus data. 标记(mark-up)与标注
④ context
二、为什么要研究语料库语言学 1)使语言学研究更具科学性 2)可验证,不是玩具 3)大数据,更具说服力 4)enables you to look at a lot of language at once
8.1上午
(二)李文中

Brown-Raw 语料库范例 Span 跨距 (KWIC,一般左5右5) 检索排序(sort),以necessarily为例,观 察得出结论:经常与not连用。 Why concordancing? 上下看强形式搭配,左右看综合分析用法。 基本概念 type (独特词形),token,KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现),recurrence(复现)
What and how

教什么 怎么教
词汇中心教学法

The Lexical Approach 许家金,2009,词汇中心教学法的交际观:理 论溯源与反思,《中国外语教育》(4):3845.
基本观点

词汇中心教学法坚持以词项(lexis)单词短 语结构为基本单位的语言观;重视频率在大缸 设计及教学中的作用;词汇中心教学法本质上 采取的是交际法,它强调将词项置于真实语言 素材中,并贯穿于真实任务中加以学习。同时 提倡学生自主的发现式学习。
8.2上午 (一)梁茂成
手工标注
word_Pos
1)自动标注 TreeTagger
word-Pos_Lemma(原形)
2) 手工标注: BFSU Qualitative Coder
语料库的手工标注
BFSU Qualitative Coder 1.1 1)根据codelist,修改制定需要的mycodelist 2)打开BFSU Qualitative Colder 3) 打开需标注的.txt文档,导入mycodelist,进 行手工标注 4)BFSU中可做统计(点statistics,跳出网页) 5)保存为.txt文档后,用powerconc检索分析, 如:检索<LIT> free hand</LIT>
Step2 用PowerConc对两个子库进行比较。

2 趋势 small & specific contrastive studies 3 建库准备 建库原则,文本收集,文本分类,文本处理, 标记(外部信息),标注(annotating notes, 语言学标注) e.g. <Year>1990</Year><Sex>Male</sex>

词性标注

常见的词性标注工具 (POS-tagger) ANSI符号,_, / 1)Brill Tagger, 最早的词性标注,基于规则的 2)ClAWS,130多个代码,准确,但付费, Lancaster大学开发。 3)TreeTagger, 30多个代码,准确率高,免费, 能对多语言进行标注。
④ versions of corpora: RAW, POS, with metadata
2. 批量文件名修改 SuperbBatchRenamer
insert replace
e.g.replace:空格1不填,空格2填 ST$,出现从1开始排序的新文件名。
3. 文本清理,元信息标记、语言学标记
基本观点

然而,由于过分依赖频率信息,语言观和语言 教学完全基于词项,将词汇中心教学法嫁接于 任务型教学且缺乏创新,归纳式的自主。。。
实例演示

新闻英语教学设计 以新闻英语常用动词教学设计为例 powerConc with China Daily Political new 2011
得出结论: reporting verbs: said told added
Aspects of LT methodology

语言观 语言学习观 教学实施方案
两大教学法之一:听说法



语言观:结构主义 (音标、词汇等构成的) 语言学习观:行为主义 (行为主义) 教学实施方案:句型操练
两大教学法之二:交际法

语言观:功能主义 语言学习观:交际与互动 教学实施方案:任务教学、小组活动
8.1下午
(一)李文中
1. 标注信息的添加与使用
e.g. 用PowerConc检索 dataleanerseccl 问题:男生与女生在口语中使用情态动词有无差异 Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区 分大小写),file contains “T1=”,获得男生/女生文本,保 存生成子库。
Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpus Step2:安装PowerGREP Step3: 设置PowerGREP (preferencegeneral,勾选1、2空格)
Step4: 格式转换(UTF-8转换成ANSI):
1) 找到04Academic,单击右键,出现search with PowerGREP(若有子文件,选第search subfolders) 2) Action type collect data, 并勾选Dot matches newlines 3) search:输入 (^\A.*?\z) ,需在英语状态下输入。 collect:输入 $1($指向括号,1代表第一个括号)
4) Target file creation 选择 save one file for each searched file Target file location 选择刚才新建文件夹referencecorpus Target file text encoding 选择 Windows936,即ANSI Back file naming style 选择 no backups 5) 点击 collect 6) 回到新建文件夹referencecorpus查看,已有ANSI文档生成。
Step5 主题词表生成
1) 从referencecorpus中拷贝Text10到observeText文件夹中。 到此为止,人为做成两个用于练习的对比语料库。 2)生成主题词表
2)生成主题词表
① 打开PowerConc, 导入referencecorpus进行N-gram统计, 结果save到PowerConc根目录下,命名为 academicOnewordlist. ② 打开academicOnewordlist, 删除前4行,保存。 ③ 再打开PowerConc,导入observetext,N-gram,count, 出结果后,点击keyness,出现load Ref.wordlist,导入 academicOnewordlist, count ④自设主题词临界值,如前20词,按照by value进行比较。
语料库在外语教学研究中 的应用研修班
相关主题