当前位置:文档之家› 常见语料库使用入门_图文

常见语料库使用入门_图文


10 公共语料库检索
小问题:
一种语言现象我们至少得收集多少条语料呢?
500 徐杰教授认为,语料多多益善,至少应收集
条。
大数定律(Law of Large Numbers): 指在随机试验中,每次出现的结果不同,但是大量重复
试验出现的结果的平均值却几乎总是接近于某个确定的值。
11 公共语料库检索
抽样与调查
9 公共语料库检索
国外18个知名英语语料库
10.LLC口语语料库: http://khnt.hit.uib.no/icame/manuals/ 11.COBUILD语料库:/Corpus/CorpusSearch.aspx 12.ICE东非等分库:/english-usage/ice/avail. htm 13.ARCHER语料库:/english/degree_programs. asp 14.CEECS语料库:http://www.eng.helsinki.fi/varieng/main/corporal.htm 15.SCTS语料库:http: /// 16.VOICE语料库:http: //www.univie.ac.at/Anglistik/voice/ 17.ELFA语料库:http: //www.uta.fi/laitokset/kielet/engf/research/elfa/ 18.朗曼语料库:http: ///dictionaries/corpus/index.html
40 个人语料库创建
熟语料库加工阶段
可以采用这个工具
双 击 打 开 软 件
41 个人语料库创建 熟语料库加工阶段
检 索 式 示 例
公共语料库的检索说明
——以BCC语料库为例
18 公共语料库检索
检 索 式 示 例
公共语料库的检索说明
——以BCC语料库为例
19 公共语料库检索
特 殊 含 义 符 号
公共语料库的检索说明
——以BCC语料库为例
20 公共语料库检索
特 殊 含 义 符 号
公共语料库的检索说明
——以BCC语料库为例

离散与连续

样本与总体
由收集验证到实证分析
需要学点统计学
频率与分布
估计与检验 描述与图示
置信区间 T检验
12 公共语料库检索
由收集验证到实证分析
需要学点统计学
集中趋势的特征数:
平均数、众数、中位数、调和平均数、几何平均数
变异程度的特征数:
极差、四分位差、平均差、方差、标准差
参数估计与假设检验
——以样本对总体的推断
3 语料库及其分类
第二节 公共语料库检索
4 公共语料库检索
统计频率

于 检
查找例句

验证分析
参 数
带着 问题

收集

证据
5 公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp
“宏”
1、电脑、办公软件 2、语料的选取标准 3、语料库大小设定 4、已收好集的语料 5、采取txt格式保存
词性标记 句法标记 词义标记 篇章指代标记 韵律标记 ……
生语料库 加 工 标 注 熟语料库
39 个人语料库创建
熟语料库加工阶段
需要工具/材料: 1、电脑、办公软件 2、语料库加工工具 2、语料的选取标准 3、语料库大小设定 4、已存的生语料库 5、采取txt格式保存
常见语料库使用入门
——语言研究中的小技能get√
华中师范大学语言研究所2015级 秦志君
0 PPT模板下载:/moban/ 行业PPT模板:/hangye/
节日PPT模板:www.1p pt.co m/ jieri/
PPT素材下载:/sucai/
三个基本点:
1)呈钟形,形态如 左图; 2)两个参数,均值 和标准差; 3)图象大致表示: 平均数周围的属性 值在总体上占到大 多数。
14 公共语料库检索
公共语料库的检索说明
——以BCC语料库为例
仅输入 关键字
查找
关键字 特殊符号 搜索 检索式
进库检索
7 公共语料库检索
我国21个知名语料库
15.浙江师范大学的历史文献语库:/xueke/hyywzx/xkjj.htm 16.中科院计算所语料库:/corpus/query_process.php 17.中文语言资源联盟:/xyzy.htm 18.SKETCHENGINE多语言语料库: 19.LIVAC共时语料库:/ 20.红楼梦汉英平行语料库:/hongloumeng/ 21.北京语言大学BCC语料库:/
6 公共语料库检索
我国21个知名语料库
08.北京大学《人民日报》标注语料库: 09.北京语言大学的语料库:/kych/H.htm 10.清华大学TH-ACorpus:/ainlp/source.htm 11.山西大学语料库:/homepage/cslab/sxuc1.htm 12.台湾南岛语典藏:.tw/Formosan/ 13.闽南语典藏:.tw/ 14.香港城市大学LIVAC共时语料库:/search.php
8 公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
公共语料库的检索说明
——以BCC语料库为例
34 公共语料库检索
公共语料库的检索说明
——以BCC语料库为例






如果想对检索结果进一步筛选, 可以使用筛选功能,对检索结

果进一步剔除或者仅仅保留符
合筛选检索式的实例。
35 公共语料库检索
下 载
高 级 设 置
公共语料库的检索说明
——以BCC语料库为例
PPT背景图片:/beijing/ PPT图表下载:/tubiao/
优秀PPT下载:www.1p pt.co m/ xiazai/
PPT教程: /powerpoint/
Word教程: /word/
Excel教程:www.1ppt.c om/excel/
36 公共语料库检索
句 法 树
公共语料库的检索说明
——以BCC语料库为例
37 公共语料库检索
注意检索格式 依据调查需要 学点儿统计学 多摸索多使用 设置调查项目 学点编程语言
第三节 个人语料库创建
38 个人语料库创建
材料/工具准备阶段
若只是要词频数据, 则生语料库足够, word/wps或txt记事本 都可以建立word/wps 的“查找替换”工具即可, txt记事本的“编辑-查找” 工具也行。
公共语料库的检索说明
——以BCC语料库为例
统 计
16 公共语料库检索
公共语料库的检索说明
——以BCC语料库为例
检索式说明
检索式可以是字串、词串、词性的组合而成的查询模式。 例如:如果检索“我想吃”后面紧接着一个名词的语言实例,检索式为: 我想吃n,这里 n 是词性符号,表示名词。
17 公共语料库检索
——以BCC语料库为例
构 式
30 公共语料库检索
自 定 义 搜 索
公共语料库的检索说明
——以BCC语料库为例
31 公共语料库检索
检 索 结 果
公共语料库的检索说明
——以BCC语料库为例
32 公共语料库检索
历 时 检 测
公共语料库的检索说明
——以BCC语料库为例
33 公共语料库检索
检 索 统 计
一般步骤
(1)明确问题 (2)收集信息 (3)提出假设 (4)构建模型 (5)模型求解 (6)分析检测
13 公共语料库检索
由收集验证到实证分析
需要学点统计学
正态分布
在自然现象和社会现象中,大量的随机变量都服从或近似地服从正 态分布。大部分参数检验,比如t检验,方差分析,回归分析等, 要求数据符合正态分布。
主要部分
第一节 第二节 第三节
语料库及其分类 公共语料库检索 个人语料库创建
第一节 语料库及其分类
1 语料库及其分类
语料库(corpus):存放语言材 料的仓库。
现代的语料库是指存放在计算 机里的原始语料文本或经过加 工后带有语言学信息标注的语 料文本的汇集。
三点基本认识:
A.必须是实际使用中真实出现 过的语言材料;
资料下载:www. 1ppt.co m/zilia o/
PPT课件下载:www.1p pt.co m/ kejian/
范文下载:www. 1ppt.co m/fan wen/
试卷下载:www.1ppt.c om/shiti /
教案下载:www. 1ppt.co m/jiao an/
PPT论坛:www.1ppt .cn
相关主题