五_语料库汇总
1 什么是语料库
1 什么是语料库
London-Lund英语口语语料库样例: ^what a_bout a cigar\ette# . / *((4 sylls))* / *I ^w\on't have one th/anks#* - - - / ^aren't you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# - - - / ^quite a nice .room to !s\it in ((actually))# / *^\isn't* it# / *^y/\es#* - - - /
3 语料的收集与加工——加工
构建大型标注语料库直接促进了NLP技术的发展: Brown语料库直接促使基于统计的词性标注模型HMM和标注算法
Viterbi的提出和完善; Upenn树库为基于统计的句法分析技术提供了训练素材; 作为统一的训练和测试平台,评估各类NLP算法的性能。
3 语料的收集与加工——加工
语料库中各类文本的比例均衡 原则
专业语料库的建设应有专业领 域的专家参与
3 语料的收集与加工——编码
语料库的编码 问题提出:资源共享时的差异化 语料文件的统一规范:
TEI计划(Text Encoding Initiative) LDC要求其提交的语料库遵循SGML规范(Standard Generalized
1 什么是语料库
London-Lund英语口语语料库部分标记:
语料库的分类 生语料库:未经加工的,没有任何切分、标注标记的原始语料库 熟语料库:经过加工,带有切分、标注标记的语料库
1 什么是语料库
语料库的分类: 口语语料 书面语料
共时语料 历时语料
平衡语料 专门语料
3 语料的收集与加工——收集
语料的收集 ——语料文件的大小 取样收集:将语料库中文件所包含的词数限制在一定范围内;选取长
文语料的片段 原样收集:按原始文件大小原样收入语料库
——存储无问题;建库时需要考虑长文件的处理速度、对硬件性能的 要求
3 语料的收集与加工——收集
语料的收集 ——语料的选取标准 精品原则 有影响力原则 随机挑选原则 高流通度原则 典型性原则 易于获得原则 具有统计样本意义原则 符合语言规范原则
Mark-up Language) CES标准(Corpus Encoding Standard)
3 语料的收集与加工——编码
CES标准:
3 语料的收集与加工——编码
CES编码的语料中使用的标记需要进行说明——DTD (Document Type Definition)
3 语料的收集与加工——编码
监控语料 样本语料
语料库的分类:
生语料库:未经加工的,没有 任何切分、标注标记的原始语 料库
熟语料库:经过加工,带有切 分、标注标记的语料库
1 什么是语料库
语料库与语言知识库: 语料库:以语言的真实材料为基础来呈现语言知识,反映语言单
位的用法和意义,基本以知识的原始形态表现——语言的原貌; 语言知识库:由专家从大量的实例中提炼、抽象、概括出来的系
2 语料库的发展
第二代(1980-90年代) COBUILD语料库
2000万词级
Longman语料库
建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评
建于1980年代,包括三个语料库:LLELC语 料库(Longman/Lancaster英语语料库)、 LSC语料库(Longman口语语料库)、 LCLE(Longman英语学习语料库);目标 是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
语料库中存放的是在实际使用中真实出现过的语言材 料;
语料库是以计算机为载体承载语言知识的基础资源; 真实语料需要经过分析、处理和加工,才能成为有用
的资源。
1 什么是语料库
北京大学计算语言所富士通人民日报标注语料库样例:
历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w
特点:千万词级,词典编纂
2 语料库的发展
第三代(1990年代至今) ACL/DCI语料库
美国计算语言学会倡议发起“数据采集 计划” ,由宾州大学M.Liberman主持,保存语 料原始文本形式以及SGML标注信息
UPenn树库 LDC
美国Pennsylvania大学80年代末发起;1993年,完成了对近 300万英语词的句子语法结构标注;2000年发布中文树库第一 版(10万词,4185个句子,325 data files(新华社语料));2004 年发布中文树库4.0版(404,156 words, 664,633 Hanzi, 15,162 sentences,and 838 data files(大陆、香港、台湾语料))
大型国际组织(联合国、欧盟) 双语社会(加拿大、新加坡、香港)
3 语料的收集与加工——收集
语料的收集 ——语料文件的数据格式 文件格式:.doc,txt,pdf,ps,rtf 采用纯文本文件格式存放语料,便于计算机处理 采用关系数据库组织语料,直接利用数据库的检索、统计等功能 要考虑字符编码方式
语料库加工工具——用计算机软件辅助建库
3 语料的收集与加工——加工
双语(平行)语料库的对齐: 段落对齐 句子对齐 词对齐 短语对齐
双语(平行)语料库的句子对齐: 原文句子译文句子:确定源语言文本中哪个/些句子和目标语言文本
中哪个/些句子互为译文
3 语料的收集与加工——加工
3 语料的收集与加工——加工
五 语料库
1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结
1 什么是语料库
语料库(corpus):存放语言材料的仓库 现代的语料库是指存放在计算机里的原始语料文本 或 经
过加工后带有语言学信息标注的语料文本。 关于语料库的三点基本认识:
1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结
3 语料的收与加工
建库之前应考虑: 语料库的应用目标 语料库的规模 语料库的实施 语料库的可扩展性 软硬件兼容性 ……
3 语料的收集与加工
双语语料库: 双语平行语料库:语料库中的文本构成译文关系
,因而对齐的可能性越高。
考虑不同的句子配对模式下的距离:
d(x1,y1 ; 0,0)
d(x1,y1; x2,0)
d(x1,0 ; 0,0)
d(x1,y1; 0,y2)
d(0,y1; 0,0)
d(x1,y1;x2,y2)
两个文本的最小距离可如下计算:
D(i,j) = min
D(i,j-1) + d(0,tj ; 0,0) D(i-1,j) + d(si,0; 0,0) D(i-1,j-1) + d(si,tj ; 0,0) D(i-1,j-2) + d(si,tj ; 0,tj-1) D(i-2,j-1) + d(si,tj ; si-1,0) D(i-2,j-2) + d(si,tj ; si-1, tj-1)
LDC语言数据联合会,有163 个语料库 (包括Text 和 speech)
2 语料库的发展
中文树库示例: 他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策
/NN 要点/NN 。/PU
特点:超大规模(上亿词级)/ 标准编码体系 / 深度标注 / 多语种 / NLP应用
随机变量δ~N(0,1)
此时句子Si与Tj对齐的可能性就可以表示为条件概率:
P(Match)为常数;P(δ|Match)根据下式进行估计: δ服从标准正态分布N(0,1),P(|δ|) 可通过查标准正态函数分布表或数
值计算得到。
取对数:
记D(i,j) = Score(si,tj),D(i,j)是对两个句子对齐可能性的一个评估,可 以理解为两个句子之间的距离。值越低,表示两个句子之间距离越近
——用于机器翻译、双语词典编撰… 双语比较语料库:将表述同样内容的不同语言文本收集到一起,这些
不同语言文本之间不构成翻译关系 ——用于语言对比研究 ——较少,英语国际语料库(100万词规模,收集全球许多英语变体 语言的文本)
3 语料的收集与加工——收集
语料的收集 —— 获取语料的途径 纸质媒介 人工录入 光学扫描、OCR软件 电子语料:光盘语料 + 互联网语料 双语平行语料库:
(1) (1)+ (2);(2) (3)
两种语言的句子间对齐模式(x句:y句, x=1,2,…;y=1,2,…)
双语句子对齐的方法:
基于长度(length-based)的对齐方法
纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高 基于词(word-based)的对齐方法
平均准确率 在90%以上
一般要依赖词典资源,算法效率相对较低
3 语料的收集与加工——加工
Gale & Church 基于长度的对齐方法: 定义了六种配对模式,在实际UBS语料库的分布频度为:
3 语料的收集与加工——加工
任一个双语句子对( Si, Tj ),S表示原文,T表示译文
S中任意一个字符在T中所对应的字符数是个随机变量X~N(c,V2) 由此定义随机变量δ来度量两个句子之间的长度差距关系: