当前位置：文档之家› 5_语料库的构建

5_语料库的构建

中文文本信息处理的原理与应用
汉语语料库（续1）
宾州(Pennsylvania)大学语料库(UPenn Tree Bank)
/~treebank/home.html )
美国宾州大学计算机系M.Marcus 教授主持 2000年完成第一版中文树库，约10万词次，4185个句子例子：原始句子：他还提出一系列具体措施的政策要点。词性标注：他/ PN 还/ AD 提出/ VV 一/ CD 系列/ M 具体/ JJ 措施/ NN 和/ CC 政策/ NN 要点/ NN 。/PU
语料库分类
按来源分类
口语语料库/书面语语料库
按语言分类
单语语料库/双语语料库
按加工方式分
– 单语
原始语料库/切分标注语料库/句法树库/语义标注语料库/…
– 双语
篇章对齐语料库/句子对齐语料库/词语对齐语料/ 库/结构对齐语料库
中文文本信息处理的原理与应用
语料库收集、整理和应用
中文文本信息处理的原理与应用
C/C++ Java
PerlBiblioteka /Python在该语言中用正则表达式没有在Perl里面用起来容易
Prolog
内置的数据库功能和能够方便地处理缺少Perl的方便处理正复杂的数据结构的特点，使得Prolog 则表达式的功能在某些方面表现得相当优秀中文文本信息处理的原理与应用
语料库语言学中常用技术（续2）
宾州大学树库
美国 Pennsylvania大学1980年代末开始发起
中文文本信息处理的原理与应用
关于语料库
语料库基本概念国外语料库概况汉语语料库建设情况
中文文本信息处理的原理与应用
汉语语料库
北京大学语料库(/)
北大计算语言学研究所俞士汶教授主持，北大、富士通、人民日报社共同开发。《人民日报》1998年全部文本（约2600万字），含 1998 2600 完整的词语切分和词性标注信息。例子：咱们/r 中国/ns 这么/r 大/a 的/u 一个/m 多/a 民族/n 的/u 国家/n 如果/c 不/d 团结/a ，/w 就/d 不/d 可能/v 发展/v 经济 /n ，/w 人民/n 生活/n 水平/n 也/d 就/d 不/d 可能/v 得到/v改善/vn 和/c 提高 /vn 。/w
中文文本信息处理的原理与应用
国外知名语料库—第三代
名称 ACL/DCI语料库创建时间创建单位美国ACL倡议发起应用背景及贡献
内容范围广，既有已标注的语料，也有未标注语料。制定了语料库文件的格式标注，采用统一的SGML标注语言，语料标注依照TEI标准。 1993年，完成了对近300万英语词的句子语法结构标注。 2000年完成了中文树库（第一版）：10万词次，4185个句
Ag a Ad An b c Dg
区别词连词副语素
取汉字“别”的声母。取英语连词conjunction的第1个字母。副词性语素。副词代码为d，语素代码g前面置以D。
中文文本信息处理的原理与应用
本章主要内容
关于语料库汉语语料库的加工规范语料库建设的其他问题
中文文本信息处理的原理与应用
汉语语料库建设中存在的问题
LLC口语语料库
2000小时的谈话和广播等口语素材
国外知名语料库—第二代
名称创建时间创建单位应用背景及贡献规模
COBUILD 1980年代语料库英国 Birminghan大学与Collins出版社 Longman 语料库 19881990Longman 语料库委员会
以词典编撰为应用背景， 2000万词次是首部例句来自真实语料的字典，是第一个动态语料库。编撰英语学习词典，为外 5000万词次国人学习英语服务。分类方法客观有弹性，不受文本可获得性的约束。
中文文本信息处理的原理与应用
汉语语料库（续2）
中文文本信息处理的原理与应用
汉语语料库（续3）
台湾中研院平衡语料库（Sinica Corpus）
( .tw/ROCLING/corpus98/ ) 世界上第一个带有完整词类标记的汉语平衡语料库。目标：500万词次汉语平衡语料库设计思想：
1) 遵循台湾计算语言学会的分词标准 2) 采样时以自然段落为准，不看文章长度 3) 语料采用多重分类法
中文文本信息处理的原理与应用
本章主要内容
关于语料库汉语语料库的加工规范语料库建设的其他问题
中文文本信息处理的原理与应用
汉语语料库加工规范
以北大的“人民日报标注语料库”为例：切分规范：
分词单位：主要是词，也包括部分使用频率较高的词组，有时孤立字或语素也可作为切分单位（如在动词的离合形式中）。切分单位与词典的关系：参照了北大的《语法信息词典》，5字以上的长词是切分单位，但未被收到词典中（太多，一般为固定表达方式，如*年*月*日）
分词标准已经确定和统一？词类标记集被普遍采用和遵循？文本属性规范在哪里？
中文文本信息处理的原理与应用
语料库语言学中常用技术
正则表达式
在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。一个正则表达式就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。例如： "ab*"：表示一个字符串有一个a后面跟着零个或若干个b。（"a", “ab”, “abbb”,……）； "ab+"：表示一个字符串有一个a后面跟着至少一个b或者更多；
语料库基本概念
语料库(corpus) (corpus)
就是存放语言材料的仓库（语言数据库）。
语料库语言学(corpus linguistics) (corpus
基于语料库进行语言学研究。
语料库的特点
– 必须是真实语言环境中出现过的语言材料 – 必须是以电子计算机为载体 – 必须经过一定的分析、加工和处理
中文文本信息处理的原理与应用第五章语料库的构建
授课人：迟呈英辽宁科技大学软件学院
语料库的提出
中文文本信息处理的原理与应用
本章主要内容
关于语料库汉语语料库的加工规范语料库建设的其他问题
中文文本信息处理的原理与应用
关于语料库
语料库基本概念国外语料库概况汉语语料库建设情况
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
语料库语言学中常用技术（续1）
编程语言优点对于大量数据集合和文本的处理，用这样的语言进行编码可以获得很高的效率使用其来进行文本的预处理和重新改变格式，其语法中内置的正则表达式具有相当强大的功能。用此类解释型语言来做这种类型的工作比所有代码都用C语言写要快一些类似Perl语言，在一些辅助文本的处理中有较好的表现缺点对一些辅助的文本处理，比较耗费人力资源
语料库的编码体系
• SGML（标准置标语言） /MarkUp/SGML/ • XML（可扩展的置标语言） /TR/REC-xml • TEI（文档编码计划） / • CES（语料库编码标准） /Applications/index-co02.html
1970年代初英 100万词次研究当代英国英语，与美国国Lancaster大学英语对比， TAGIT系统，以和挪威Oslo大学统計方式建立换算几率矩阵，提高标注正确率。 1981年瑞典 Lund大学做英语口语调查，是第一个口语英语语料库，建立了索引系统。
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
汉语语料库加工规范（续1）
标注规范
对一般词的标注依照北大制定的“中文词性标注集”；对专有名词标注，在切分基础上用[ ]加以标记，并标上ns, nt, nz等
中文文本信息处理的原理与应用
中文词性标记集（部分）
代码名称形语素形容词副形词名形词帮助记忆的诠释形容词性语素。形容词代码为a，语素代码g前面置以A。取英语形容词adjective的第1个字母。直接作状语的形容词。形容词代码a和副词代码d并在一起。具有名词功能的形容词。形容词代码a和名词代码n并在一起。
中文文本信息处理的原理与应用
语料库研究的历史
第一代（1970－80年代）
百万词级以语言研究为导向
第二代（1980－90年代）
千万词级词典编纂－应用导向
第三代（1990年代－）
超大规模（上亿词级）标准编码体系深度标注/多语种 NLP应用
第四代（？）
互联网作为语料库
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
Thanks
中文文本信息处理的原理与应用
关于语料库
语料库基本概念国外语料库概况汉语语料库建设情况
中文文本信息处理的原理与应用
国外知名语料库—第一代
名称 Brown 语料库 LOB 语料库创建时间创建单位 1960年代初美国Brown大学应用背景及贡献规模 100万词次
研究当代美国英语。第一个语料库，能夠反映語言共時性的平横语料库。

e商务文档

5_语料库的构建

相关文档推荐：