当前位置：文档之家› 语料库课程(一)笔记解析

语料库课程(一)笔记解析

论溯源与反思，《中国外语教育》（4）：3845.
基本观点
词汇中心教学法坚持以词项（lexis）单词短语结构为基本单位的语言观；重视频率在大缸设计及教学中的作用；词汇中心教学法本质上采取的是交际法，它强调将词项置于真实语言素材中，并贯穿于真实任务中加以学习。同时提倡学生自主的发现式学习。
Step1 打开Sub-corpus creator，导入seccel（只能导入单个文件夹），显示文本文件，勾选case sensitive（区分大小写），file contains “T1=”，获得男生/女生文本，保存生成子库。
Step2 用PowerConc对两个子库进行比较。
2 趋势
small & specific
标记（mark-up）与标注
Sinclair和他的clean text policy （Sinclair认为语料库语言学应摒弃旧理论一切重来）
语料库语言学界对标注的态度（大部分研究者认为应该标注），世界最大的语料库Bank of English可以进行词类检索。
标注的主题
1. 人工标注（Brown语料库） 2. 机器标注（准确率97-98%）
Step1:新建文件夹1：observeText 新建文件夹2：referenceCorpus
Step2：安装PowerGREP Step3: 设置PowerGREP （preferencegeneral,勾选1、2空格）
Step4: 格式转换（UTF-8转换成ANSI）：
1) 找到04Academic，单击右键，出现search with PowerGREP(若有子文件，选第search subfolders)
语言学习观：行为主义（行为主义）
教学实施方案：句型操练
两大教学法之二：交际法
语言观组活动
What and how
教什么怎么教
词汇中心教学法
The Lexical Approach 许家金，2009，词汇中心教学法的交际观：理
8.2上午
（一）梁茂成手工标注
1）自动标注 TreeTagger
word_Pos word-Pos_Lemma(原形)
2) 手工标注: BFSU Qualitative Coder
语料库的手工标注
BFSU Qualitative Coder 1.1 1）根据codelist，修改制定需要的mycodelist 2）打开BFSU Qualitative Colder 3) 打开需标注的.txt文档，导入mycodelist，进行手工标注 4）BFSU中可做统计（点statistics，跳出网页） 5）保存为.txt文档后，用powerconc检索分析，如：检索<LIT> free hand</LIT>
Why concordancing? 上下看强形式搭配，左右看综合分析用法。
基本概念 type （独特词形），token，KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现)，recurrence(复现)
基本观点
然而，由于过分依赖频率信息，语言观和语言教学完全基于词项，将词汇中心教学法嫁接于任务型教学且缺乏创新，归纳式的自主。。。
实例演示
新闻英语教学设计以新闻英语常用动词教学设计为例 powerConc with China Daily Political new 2011
Words cluster as people do
e.g. Search: no attempt 用法 Regex: \bno\b\s\battempts?(ed/ing)\b 观察collocation and co-occurrence
作业：hair: 单数与复数的隐喻 body metaphor
出结果后，点击keyness，出现load Ref.wordlist，导入 academicOnewordlist, count ④自设主题词临界值，如前20词，按照by value进行比较。
理据
我们对真实世界的理解表达为知识知识表现为不同的语义场语义场表现为各种词语场各种词语场实现为各个词群（单词或短语）特定话题触发独特词群具有特定话题的文本包含独特词群，该词群一
replace
e.g.replace：空格1不填，空格2填 ST$，出现从1开始排序的新文件名。
3. 文本清理，元信息标记、语言学标记
8.1下午
（三）梁茂成语料库的标注
标注与干净文本原则标注的常见类型词性标注手工标注
标注与干净文本原则
标注（annotation）： The process of applying additional information to corpus data.
contrastive studies 3 建库准备
建库原则，文本收集，文本分类，文本处理，标记（外部信息），标注（annotating notes, 语言学标注）
e.g. <Year>1990</Year><Sex>Male</sex>
8.1下午
（二）许家金语料库采集与整理
1. 基本要素
① Text format: . txt ② Filename: short&alphanumeric(字母数字组
得出结论： reporting verbs：
said told added
检索make，2-gram词表
make +adj
教学实施要点
真实语言材料，真实语境频率优先原则（材料的编排与选择）归纳式、发现式学习
8.2上午
（二）李文中主题词分析
分析文本时注意备份，把需分析的语料放入新建的文件夹中。
练习：使用语料： 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data
1. 创建2个对比文件夹，用PowerGREP转换格式，并把text放入这2个文件夹
合，不超过8词，不用汉字，不出现空格） ③ encoding ANSI：英语，汉语
三种格式： UTF8：平行语料库 Unicode：其他语言
④ versions of corpora: RAW, POS, with metadata
2. 批量文件名修改
insert
SuperbBatchRenamer
般不在其它话题中出现
因此
某个特定话题的文本包含的独特词群具有异常高频
参照语料库代表了某一类型语言运用的常态对比两个词表，可以提取那些超常高频的词群
比什么：条件控制
控制相似变量突出差异焦点
描述
观察文本具有明确主题的完整文本或一致主题的文本集
参照语料库具有足够的代表性足够大同质语料
① 打开PowerConc, 导入referencecorpus进行N-gram统计，结果save到PowerConc根目录下，命名为 academicOnewordlist.
② 打开academicOnewordlist, 删除前4行，保存。 ③ 再打开PowerConc，导入observetext，N-gram，count，
标注的客体
1. 语音与音调的标注 2. 词性标注（part-of-speech tagging） 3. 句法标注（parsing，斯坦福大学做的较好） 4. 语义标注（semantic tagging） 5. 错误标注（error tagging 学习者语言，人工） 6. 停顿标注等。。。
标注的常见类型
④ context
二、为什么要研究语料库语言学
1）使语言学研究更具科学性 2）可验证，不是玩具 3）大数据，更具说服力 4）enables you to look at a lot of language at once
8.1上午
（二）李文中
Brown-Raw 语料库范例 Span 跨距（KWIC，一般左5右5）检索排序(sort)，以necessarily为例，观察得出结论：经常与not连用。
标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类（应该是最小类）
标注的常见类型
标注集/赋码集（tagset）是标注中所使用的代码集，是对分类体系的操作化。
Tagset: A collection of tags (or coldes) in a tagging scheme.
<by value>: datamin10, 即过滤掉频率<10的词 <by Regex>: I\S+|C\S+表示介词+连词 √ exclude 表排除
不勾选表示选中 “Save distribution” 保存分布信息，即按文本单独保存。
8.1下午
（一）李文中
1. 标注信息的添加与使用
e.g. 用PowerConc检索 dataleanerseccl 问题：男生与女生在口语中使用情态动词有无差异
8.1上午
（三）许家金
PowerConc设计原则 most powerful least effort doing more with less
基本操作
N-gram list：n词词表 Hits：相当于 Token概念 Items：相当于Type概念 Size：包括单词、符号、数字 Filter mode：过滤掉不需要的

e商务文档

语料库课程(一)笔记解析

相关文档推荐：