1. The Complete Lexical Tutor
http://www.lextutor.ca/
参考期刊网上刘玉山,胡志军的介绍。
是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发
三部分:learners, researchers, teachers自我学习,研究,教师命题。
特别是concordance中有13个语料库为检索对象。
还可以用来对学生作文中的用词分析。
http://www.lextutor.ca/concordancers/concord_e.html
可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。
2.BNC
2014年开始,免费获得,通过BYU的申请。
British National Corpus
一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料
英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库
共有七类
口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic
还有COCA分类中没有的两类non-academic, miscellaneous
second edition BNC World (2001)
third edition BNC XML Edition (2007)
extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text
通常可进入的那个链接是BYU, 美国杨百翰大学提供的
BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7
3. COCA: the corpus of contemporary American English
Brigham Young University 美国犹他州杨百翰大学
Doctor Mark Davies
3.6亿,1990-2007年间,美国国内各种语料
口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源
且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词
Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度
标记了语料的时间,便于研究语言历时与共时的变化
教学中相关用法
查找同义词,如[=scold].[V*]表示查找所有scold的同义词
查找某一话题的词汇,如flower.[N*],表示查找与花有关的词汇,如果需要查找更为专业的词汇,就利用互信息。
查找某一词汇的语体分布
查找词汇的搭配如[head].[v*] up表示head作为动词搭配up
4.同时BYU提供在线搜索的其他语料库,例如Time Magazine Corpus, Corpus of American Soap Operas, Google Books , 可以以后继续学习。
5.布朗家族语料库
第一个Brown 创建于60年代,美国布朗大学500个文本,每个2000词,共一百万词,文本来源于1961年美国出版物。
our broad genres refer to newspaper texts (A-C, 88 texts), miscellaneous informative prose or general prose (D-H, 206 texts), learned and scientific English (J, 80 texts), and fictions (K-R, 126 texts), cf. http://icame.uib.no/archives/No_5_ICAME_News_index.pdf)
第二个LOB ,创建于79年代,LOB语料库创建时间:1970年代初创建单位:G. Leech (Lancaster大学),S. Johansson (Oslo大学)和K. Hofland (Bergen大学) 三方协同,依据布朗语料库的模式,建起了“兰开斯特—奥斯陆/卑尔根语料库”(The Lancaster-Oslo / Bergen (LOB) Corpus)。
英国Lancaster大学和挪威Oslo大学以及Bergen大学规模层级:100万词次基本情况:研究当代英国英语,与美国英语对比,The Lancaster-Oslo/Bergen Corpus (LOB)
第四Frown和Flob是德国Freiburg大学分别按照原来Brown和LOB语料库抽样方案而建成的1991年的美国英语和英国英语语料库。
第五个是Crown_CLOB语料库是由北京外国语大学中国外语教育研究中心的许家金副教授和梁茂成教授于2012年建成的通用语料库。
语料库语体子库容量总库容语料库语体子库容量总库容
Brown 1961 小说259467
1027021
LOB
1961
小说258722
1018785 通用423160 通用418137
学术163309 学术162322
新闻181085 新闻179604
Frown 1992 小说260414
1027323
FLOB
1991
小说260664
1024643 通用421933 通用419990
学术163228 学术163286
新闻181748 新闻180703
Crown 2009 小说259250
1026226
CLOB
2009
小说259484
1023466 通用422799 通用421163
学术163197 学术163139
新闻180980 新闻179680
因此Crown有700个文件,CLOB有744个文件6.LOCNESS
7.BAWS
8.BFSU CQPweb多语言在线语料库检索平台
CQPweb是开源的四代语料库分析工具。
CQPweb的主要特点是:1、将语料库与分析工具合二为一;2、支持多语种语料库的分析;3、运用了索引技术,检索速度大大快于单机版语料库;4、充分利用语料库的元信息,提供更多呈现语料分析结果的呈现方式。
CQPweb可以实现WordSmith Tools等三代语料库软件的绝大部分功能。
概括说来,CQPweb可以实现以下功能。
(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果。
(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords),等。
有老友记的,时代周刊, China Daily等,其他的语料库,不足的是,时代周刊等不全,都只是部分年份的文本。
BYU大学时代周刊语料库(1923-2006)
/time/
库容量1亿词。