当前位置:文档之家› 5_语料库的构建

5_语料库的构建

中文文本信息处理的原理与应用
汉语语料库(续1)
宾州(Pennsylvania)大学语料库(UPenn Tree Bank)
/~treebank/home.html )
美国宾州大学计算机系M.Marcus 教授主持 2000年完成第一版中文树库,约10万词次,4185个句 子 例子: 原始句子:他还提出一系列具体措施的政策要点。 词性标注:他/ PN 还/ AD 提出/ VV 一/ CD 系列/ M 具体/ JJ 措施/ NN 和/ CC 政策/ NN 要点/ NN 。/PU
语料库分类
按来源分类
口语语料库/书面语语料库
按语言分类
单语语料库/双语语料库
按加工方式分
– 单语
原始语料库/切分标注语料库/句法树库/语义标注 语料库/…
– 双语
篇章对齐语料库/句子对齐语料库/词语对齐语料/ 库/结构对齐语料库
中文文本信息处理的原理与应用
语料库收集、整理和应用
中文文本信息处理的原理与应用
C/C++ Java
PerlBiblioteka /Python在该语言中用正则表达 式没有在Perl里面用起 来容易
Prolog
内置的数据库功能和能够方便地处理 缺少Perl的方便处理正 复杂的数据结构的特点,使得Prolog 则表达式的功能 在某些方面表现得相当优秀 中文文本信息处理的原理与应用
语料库语言学中常用技术(续2)
宾州大学树 库
美国 Pennsylvania大 学1980年代末 开始发起
中文文本信息处理的原理与应用
关于语料库
语料库基本概念 国外语料库概况 汉语语料库建设情况
中文文本信息处理的原理与应用
汉语语料库
北京大学语料库(/)
北大计算语言学研究所俞士汶教授主持,北大、富 士通、人民日报社共同开发。 《人民日报》1998年全部文本(约2600万字),含 1998 2600 完整的词语切分和词性标注信息。 例子: 咱们/r 中国/ns 这么/r 大/a 的/u 一个/m 多/a 民族/n 的/u 国家/n 如果/c 不/d 团 结/a ,/w 就/d 不/d 可能/v 发展/v 经济 /n ,/w 人民/n 生活/n 水平/n 也/d 就/d 不/d 可能/v 得到/v改善/vn 和/c 提高 /vn 。/w
中文文本信息处理的原理与应用
国外知名语料库—第三代
名称 ACL/DCI语 料库 创建时间 创建单位 美国ACL倡议 发起 应用背景及贡献
内容范围广,既有已标注的语料, 也有未标注语料。 制定了语料库文件的格式标注, 采用统一的SGML标注语言, 语 料标注依照TEI标准。 1993年,完成了对近300万英语词 的句子语法结构标注。 2000年完成了中文树库(第一 版):10万词次,4185个句
Ag a Ad An b c Dg
区别词 连词 副语素
取汉字“别”的声母。 取英语连词conjunction的第1个字母。 副词性语素。副词代码为d,语素代码g前面置以D。
中文文本信息处理的原理与应用
本章主要内容
关于语料库 汉语语料库的加工规范 语料库建设的其他问题
中文文本信息处理的原理与应用
汉语语料库建设中存在的问题
LLC口 语语料 库
2000小时的 谈话和广播 等口语素材
国外知名语料库—第二代
名称 创建时间 创建单位 应用背景及贡献 规模
COBUILD 1980年代 语料库 英国 Birminghan大 学与Collins出 版社 Longman 语料库 19881990Longman 语料库委员会
以词典编撰为应用背景, 2000万词次 是首部例句来自真实语料 的字典,是第一个动态语 料库。 编撰英语学习词典,为外 5000万词次 国人学习英语服务。分类 方法客观有弹性,不受文 本可获得性的约束。
中文文本信息处理的原理与应用
汉语语料库(续2)
中文文本信息处理的原理与应用
汉语语料库(续3)
台湾中研院平衡语料库(Sinica Corpus)
( .tw/ROCLING/corpus98/ ) 世界上第一个带有完整词类标记的汉语平衡语料库。 目标:500万词次汉语平衡语料库 设计思想:
1) 遵循台湾计算语言学会的分词标准 2) 采样时以自然段落为准,不看文章长度 3) 语料采用多重分类法
中文文本信息处理的原理与应用
本章主要内容
关于语料库 汉语语料库的加工规范 语料库建设的其他问题
中文文本信息处理的原理与应用
汉语语料库加工规范
以北大的“人民日报标注语料库”为例: 切分规范:
分词单位:主要是词,也包括部分使用频率较 高的词组,有时孤立字或语素也可作为切分单 位(如在动词的离合形式中)。 切分单位与词典的关系:参照了北大的《语法 信息词典》,5字以上的长词是切分单位,但未 被收到词典中(太多,一般为固定表达方式, 如*年*月*日)
分词标准已经确定和统一? 词类标记集被普遍采用和遵循? 文本属性规范在哪里?
中文文本信息处理的原理与应用
语料库语言学中常用技术
正则表达式
在编写处理字符串的程序或网页时,经常会有查找符合某些 复杂规则的字符串的需要。正则表达式就是用于描述这些规 则的工具。 一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊 字符(称为元字符)组成的文字模式。该模式描述在查找文 字主体时待匹配的一个或多个字符串。正则表达式作为一个 模板,将某个字符模式与所搜索的字符串进行匹配。 例如: "ab*":表示一个字符串有一个a后面跟着零个或若干个b。("a", “ab”, “abbb”,……); "ab+":表示一个字符串有一个a后面跟着至少一个b或者更多;
语料库基本概念
语料库(corpus) (corpus)
就是存放语言材料的仓库(语言数据库)。
语料库语言学(corpus linguistics) (corpus
基于语料库进行语言学研究。
语料库的特点
– 必须是真实语言环境中出现过的语言材料 – 必须是以电子计算机为载体 – 必须经过一定的分析、加工和处理
中文文本信息处理的原理与应用 第五章 语料库的构建
授课人:迟呈英 辽宁科技大学软件学院
语料库的提出
中文文本信息处理的原理与应用
本章主要内容
关于语料库 汉语语料库的加工规范 语料库建设的其他问题
中文文本信息处理的原理与应用
关于语料库
语料库基本概念 国外语料库概况 汉语语料库建设情况
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
语料库语言学中常用技术(续1)
编程语言 优点 对于大量数据集合和文本的处理,用 这样的语言进行编码可以获得很高的 效率 使用其来进行文本的预处理和重新改 变格式,其语法中内置的正则表达式 具有相当强大的功能。用此类解释型 语言来做这种类型的工作比所有代码 都用C语言写要快一些 类似Perl语言,在一些辅助文本的处 理中有较好的表现 缺点 对一些辅助的文本处 理,比较耗费人力资源
语料库的编码体系
• SGML(标准置标语言) /MarkUp/SGML/ • XML(可扩展的置标语言) /TR/REC-xml • TEI(文档编码计划) / • CES(语料库编码标准) /Applications/index-co02.html
1970年代初英 100万词次 研究当代英国英语,与美国 国Lancaster大学 英语对比, TAGIT系统,以 和挪威Oslo大学 统計方式建立换算几率矩阵, 提高标注正确率。 1981年瑞典 Lund大学 做英语口语调查,是第一个 口语英语语料库,建立了索 引系统。
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
汉语语料库加工规范(续1)
标注规范
对一般词的标注依照北大制定的“中文词性标 注集”; 对专有名词标注,在切分基础上用[ ]加以标记, 并标上ns, nt, nz等
中文文本信息处理的原理与应用
中文词性标记集(部分)
代码 名称 形语素 形容词 副形词 名形词 帮助记忆的诠释 形容词性语素。形容词代码为a,语素代码g前面置以A。 取英语形容词adjective的第1个字母。 直接作状语的形容词。形容词代码a和副词代码d并在一起。 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
中文文本信息处理的原理与应用
语料库研究的历史
第一代(1970-80年代)
百万词级 以语言研究为导向
第二代(1980-90年代)
千万词级 词典编纂-应用导向
第三代(1990年代- )
超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用
第四代(?)
互联网作为语料库
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
Thanks
中文文本信息处理的原理与应用
关于语料库
语料库基本概念 国外语料库概况 汉语语料库建设情况
中文文本信息处理的原理与应用
国外知名语料库—第一代
名称 Brown 语料库 LOB 语料库 创建时间 创建单位 1960年代初美 国Brown大学 应用背景及贡献 规模 100万词次
研究当代美国英语。第一个 语料库,能夠反映語言共時 性的平横语料库。
相关主题