当前位置:文档之家› 语料库和词典结构

语料库和词典结构


说明: 语料库数据包括: [1] 用于分类的新闻语料,按照 SOGOU-T网页语料库格式整理 [2] 分类体系说明 [3] 数据集合统计信息 数据下载声明见“SogouLab 数据使用许 可证” Please read the “License for Use of Sogou Lab Data” carefully before downloading.
哈希算法设计



哈希算法设计应该兼顾以下几个原则: (1)计算速度快,便于实现。查找词条的过程主要时间 消耗在哈希值计算上,哈希算法应尽量减少这一过程 的时间复杂度。 (2)散列均匀,尽可能少产生冲突。哈希算法一定为同 一个对象产生唯一的哈希值,但不一定为不同的对象 产生不同的哈希值,也就是一个哈希值有可能对应多 个对象。哈希算法设计应该尽量使哈希值均匀分布在 哈希表单元中,即使不能完全避免冲突,也应该使尽 量少的对象对应同一个哈希值。 (3)提高桶利用率,节省哈希表占用空间。我们将哈希 值相同的对象放在同一个桶中,每个桶对应一个哈希 值,所谓桶利用率是指哈希表中已占用的桶数和已分 配的桶数之比。当这个比值超过装载因子时,应该为 哈希表分配若干新的单元,哈希算法应该尽量使空桶 数较小,提高存储空间利用率。

选材规模

规模较大的通用语料库,其选材字数拟定在5000万 字左右,包括抽样材料和整篇材料。教材字数另计。
语料的通用性原则和描述性原则

语料的通用性原则 作为通用型语料库,现代汉语语料库应真实地反映现代汉语在 文字、词汇、语法、语义等方面的全貌。 现代汉语语料库在语料的选择上,应当具有区别性特征。 有别于专业性。 有别于地域性。 有别于纯口语性。 为确保5000万字语料的质量,尽可能地提高所选语料在采字、 采词、采句和采义等方面的涵盖量,选材不仅要考虑到语料的 时间层次、文化层次和社会使用面层次,还应采取“抓住中心, 其他补充”的方式。 时间层次。 文化层次。以具有高中文化程度的人能够阅读的语料为主, 其他文化程度为辅。 社会使用面层次。以社会使用面较为广泛的语料为主,其他 语料为辅进行补充;以人文与社会科学为主,自然科学为辅; 以门类为主,以语体为辅,对门类进行补充。
一种基于三级索引词库结构的中文分 词方法研究
一种基于三级索引词库结构的中文分 词方法研究
谢谢!

语言材料的完整性


语言材料的遍历性

中文分词词典结构 ——全哈希词典

全哈希词典结构 该词典包含三级索引,每级索引都用哈希方法 实现,其结构下图所示:

本结构用三层哈希表嵌套,每层哈希表的键 (Key)域存储该层级索引值。一级索引I1是所有 词条的首字哈希值,存储于外层哈希表的键域, 每个单元对应一个首字的哈希值,外层哈希表 的值(Value)域存放以字C0为首的所有词条。二 级索引将以C0为首的所有词条按照词长分类, 一种长度的诃存储在中层哈希表的一个单元中, 该单元键域存放词长,值域存放所有该长度的 词条。每个词条经过特定的哈希函数计算,得 到唯一的哈希值(一般是整数),这些哈希值构 成了第三级索引,存储于内层哈希表的键域; 而内层哈希表值域存放的是哈希值相同的词条 列表。


介绍: 文本分类语料库来源于Sohu新闻 网站保存的大量经过编辑手工整理与分 类的新闻语料与对应的分类信息。其分 类体系包括几十个分类节点,网页规模 约为十万篇文档。 语料库统计的意义:提供一个较大规模 的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与 检测等。
Sogou搜狗语料库
文本分类语料库 关键词: 文本分类、互联网语料 摘要: 文本分类语料库设计为基于搜狐 分类目录手工编辑的网页分类结果组织 成的网页、分类结果及基准分类算法在 内的综合数据集合。为各种从事中文文 本分类工作的研究者提供一个标准的较 大规模的研究平台。
Sogou搜狗语料库
语料库与词典结构
小组成员:张滢,孙玉娇,柯楠, 刘文强
目录

Sogou搜狗语料库 国家语委语料库 中文分词词典结构——全哈希词典

语料库


语料库是语料库语言学研究的基础资源, 也是经验主义语言研究方法的主要资源。 应用于词典编纂,语言教学,传统语言 研究,自然语言处理中基于统计或实例 的研究等方面。 分类 : 依据它的研究目的和用途 :(1)异质的 (2)同质的 (3)系统的 (4)专用的 。
样本原则

语言材料的多样性

选用政论性文章、新闻报道、各类文学艺术作品、 科普读物、通俗读物、学术专论及各种应用文语体 等现代汉语作品。 2000字以下的文章原则上全篇采用。报纸可采取整 篇文章、整版和整张相结合的方式。 选材要注意各学科,各学科分支,各行各业,以及 社会生活各个领域的语言文字应用的代表性。
国家语委语料库




现代汉语通用平衡语料库 8800万字语料 4500万字标注语料库(词语切分词类标注) 句法树库 国家语委语料库的管理由国家语委授权 语言文字应用研究所负责 [语料库在线()]
现代汉语语料库的主要用途及选材规模

主要用途



语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用
相关主题