当前位置:
文档之家› 常用在线语料库使用简介分析解析
常用在线语料库使用简介分析解析
BNC
3. 其他BNC检索界面(如图3-1)
图3-1
COCA
4. COCA简介
由美国杨伯翰大学(Brigham Young University)的
Mark Davies 教授开发,是大型语料库资源平台 /的一部分。如图4-1
图4-1
COCA
4. COCA简介
图6.1.2-1
COCA
6.1.3 检索短语
输入“white [n*]”(图6.1.3-1)
可得所有white修饰的名词短语 (图6.1.3-2)
图6.1.3-1
图6.1.3-2
COCA
6.1.4 检索lemma
输入“[suggest]”(图6.1.4-1)
可得suggest所有词形的使用 情况(图6.1.4-2)
个人语料库,如图8-2
图8-2
Sketch Engine
8. Sketch Engine 简介
主要功能
Sketch:呈现所检索词项在语法结构下 所搭配的高频词汇 Thesaurus:提供同义或近义词 Sketch-Diff:呈现近义词之间的搭配差异
BNC
1. BNC官网主界面(图1-1)
简单搜索区
进入简单搜索功能介绍
基本信息及 功能介绍区 图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
提供简单的检索功能,适用于快速检查词汇的频数、拼
写等。可检索: •a word, punctuation mark, or delimited string e.g. jam, ?, Mrs.; •a word-and-POS pair, e.g. CAN=NN1; •a phrase, e.g. not on your life; •a pattern, e.g. colou?r; •an SGML query, e.g. bread _ butter
KWIC显示方式(图5.6-2) 颜色代表不同词性
图5.6-2
COCA
6. 主要搜索功能介绍 6.1 搜索words、phrases、lemmas、wildcards和其他更 加复杂的字词 6.1.1 检索某一词形
输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
图6.4-1
COCA
6.4 进行语义趋向比较
SCORE的值越高,越趋向与该检索词搭配
通过初步观察搭配词可知,generate侧重于使内在固有的
性能释放和呈现,create侧重于挖掘出原来不存在的东西
图6.4-2
COCA
6.5 搜索近义词
搜索indicate的近义词 WORD(S)后输入[=indicate].[v*],如图6.5-1
COCA
6.2 检索搭配词
图6.2-3
COCA
6.3 对比某词项搭配词在两个子库中的频数
对比[suggest]前出现的名词在Academic和Fiction子库
中的频数 在Section 1中选择Academic,在Section 2中选择Fiction 如图6.3-1,结果如图6.3-2
图6.1.4-1
图6.1.4-2
COCA
6.1.5 使用通配符检索
“*”代表任意数量的字符
“?”代表一个任意字符 输入un*ly和r?n*,结果如图6.1.5-1, 6.1.5-2
图6.1.5-1
COCA
6.1.5 使用通配符检索
图 6.1.5-2
COCA
6.2 检索搭配词
如需检索prevail前的名词,可在WORD(S)里输入
点击conditions可进一步观察prevail的语境 (图6.2-3) 通过观察例句,我们发现与prevail共现的conditions常
有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等 点击其中一条例句,可查extended context: Relatively peaceful conditions existed when the survey was conducted in April 1999. Very different conditions prevail three and a half years later. If similar findings are observed under these dissimilar conditions, confidence in their accuracy and generalizability will increase.
图5.3-1
COCA
5.3 语料库分类区
42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
Sort by:检索结果的排列方式,可按频率、关联度、或
字母顺序排列,一般默认按频率排列 (图5.4-1) Minimum:检索结果的最低限定值,可按频数或MI值 进行限定,默认最低频数为10 (图5.4-2)
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库
容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。 美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。 Sketch Engine: 在线语料库管理及检索工具,可有效 总结词汇的语法及搭配行为。
图5.1-1
COCA
5.2字串查询区(图5.2-1)
WORDS:输入字符串 COLLOCATES:搭配词限定
POS LIST:搭配词词性限定
图5.2-1
COCA
5.3 语料库分类区
此区共包括42个子语料库,可以对查询的字符串限定语
料类型(Genre)和时段(Year) ,并可明确限定某一个子语 料库,或某一年某个字词的使用情况。(图5.3-1)
COCA
5.1 显示方式区(DISPALY) (图5.1-1)
LIST——列表显示 CHART——图表显示,可以显示在各语料库类型中的使用频
率和各时间段内的使用情况。 KWIC——Key word in context,例句以词语索引的形式呈现 COMPARE——单词比较显示,比较两个不同词或短语的搭 配情况。
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
BNC
2.1 BNC simple search
可通过点击图2.1-1中的链接了解检索语言和词性标注代码
检索语言说明
词性标注代码
图2.1-1
BNC
2.1 BNC simple search
随机生成50条结果,不以索引形式排列。例如检索
“feature=VVB”,检索结果如图2.1-2
频数 出处
图6.3-1
COCA
6.3 对比某词项在两个子库中的频数 两子库中suggest的搭配词显著不同,频数也相差很多
图6.3-2
COCA
6.4 进行语义趋向比较
对比generate和create语义趋向 在显示方式区选择COMPARE,WORD(S)后输入
[generate]和[create],COLLOCATES后输入[n*],如图 6.4-1,结果如图6.4-2
“[prevail]”,COLLOCATES里输入[n*],右边跨距设 为0, 如图6.2-1
图6.2-1
COCA
6.2 检索搭配词
prevail左侧高频搭配名词如下(图6.2-2) 由高频搭配词可知,prevail常与表示“条件,环境”,
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
输入任意词,可获得该词在COCA词表中的排位、频率、
搭配词、词语索引、近义词等信息。如图7.1.1-2
图7.1.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List
频数
释义
近义词 各字库频数 词语索引
图7.1.1-2
COCA
7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2)
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条
(图6.1.1-3)
图6.1.1-2
图6.1.1-3